人工智能作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,正加速與各行各業(yè)深度融合。近日,國務(wù)院印發(fā)《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見》(以下簡(jiǎn)稱《意見》),提出強(qiáng)化“人工智能+”行動(dòng)基礎(chǔ)支撐能力,加強(qiáng)算力、算法和數(shù)據(jù)供給。這是我國搶抓新一輪科技革命和產(chǎn)業(yè)變革機(jī)遇、培育和發(fā)展新質(zhì)生產(chǎn)力的重大戰(zhàn)略部署。而數(shù)據(jù)作為新型生產(chǎn)要素,其規(guī)模和質(zhì)量直接決定了人工智能技術(shù)所能達(dá)到的高度和深度。破解當(dāng)前高質(zhì)量數(shù)據(jù)供給不足的瓶頸,是“人工智能+”行動(dòng)落地見效的首要前提。因此,加快培育一個(gè)能夠?qū)崿F(xiàn)數(shù)據(jù)價(jià)值發(fā)現(xiàn)、促進(jìn)高效流通、保障合規(guī)利用的數(shù)據(jù)要素市場(chǎng),是落實(shí)《意見》的關(guān)鍵舉措和賦能智能新時(shí)代、構(gòu)筑國家競(jìng)爭(zhēng)新優(yōu)勢(shì)的戰(zhàn)略基石。
一、戰(zhàn)略契合:數(shù)據(jù)要素市場(chǎng)支撐“人工智能+”行動(dòng)的內(nèi)在邏輯
數(shù)據(jù)要素市場(chǎng)的發(fā)展與“人工智能+”行動(dòng)的推進(jìn),并非兩條獨(dú)立的平行線,而是相互需求、彼此成就的共生關(guān)系。其內(nèi)在邏輯體現(xiàn)在以下三個(gè)層面。
一方面,人工智能技術(shù)范式對(duì)高質(zhì)量數(shù)據(jù)供給的內(nèi)生需求。國家數(shù)據(jù)局局長(zhǎng)劉烈宏提出,“‘人工智能+’到哪里,高質(zhì)量數(shù)據(jù)集就建設(shè)到哪里”。本輪先進(jìn)人工智能模型,特別是大語言模型的發(fā)展仍遵循著“縮放定律”(Scaling Law)這一基本規(guī)律,即模型的綜合能力與其訓(xùn)練數(shù)據(jù)的規(guī)模、質(zhì)量和多樣性直接相關(guān)。沒有海量、高質(zhì)量的數(shù)據(jù)“投喂”,再先進(jìn)的算法也只是無源之水。數(shù)據(jù)顯示,我國人工智能應(yīng)用日均Token消耗量已從2024年初的1000億激增至2025年6月底的超過30萬億,在短短一年半時(shí)間內(nèi)增長(zhǎng)了超過300倍。這種近乎無限的需求正催生巨大的數(shù)據(jù)市場(chǎng)供給缺口??梢姡⒁粋€(gè)能夠高效匯聚、治理并流通高質(zhì)量數(shù)據(jù)的要素市場(chǎng),是滿足當(dāng)前人工智能技術(shù)范式需求的必然選擇。
另一方面,數(shù)據(jù)要素與人工智能形成雙向賦能的“飛輪效應(yīng)”。數(shù)據(jù)要素市場(chǎng)不僅是單向地為人工智能提供“燃料”,而是雙方進(jìn)一步形成一種雙向賦能、相互促進(jìn)、加速迭代的“飛輪效應(yīng)”。一方面,高質(zhì)量的數(shù)據(jù)要素是驅(qū)動(dòng)人工智能應(yīng)用性能躍升的關(guān)鍵。國家數(shù)據(jù)局?jǐn)?shù)據(jù)顯示,在對(duì)數(shù)據(jù)質(zhì)量要求極為嚴(yán)苛的醫(yī)療健康領(lǐng)域,通過引入人工智能輔助標(biāo)注的醫(yī)學(xué)影像數(shù)據(jù)集,后續(xù)訓(xùn)練的疾病診斷模型準(zhǔn)確率可提升超過15%。另一方面,人工智能應(yīng)用也反向激發(fā)數(shù)據(jù)價(jià)值。據(jù)有關(guān)機(jī)構(gòu)預(yù)測(cè),未來合成數(shù)據(jù)將取代真實(shí)數(shù)據(jù)成為AI模型所使用數(shù)據(jù)的主要來源,這不僅能有效彌補(bǔ)真實(shí)數(shù)據(jù)供給的缺口,更能為數(shù)據(jù)要素市場(chǎng)注入持續(xù)的、高質(zhì)量的源頭活水。最終,當(dāng)“數(shù)據(jù)要素+人工智能”這一強(qiáng)大組合的動(dòng)能釋放到實(shí)體經(jīng)濟(jì)中,將有效賦能千行百業(yè),帶來顯著的生產(chǎn)力躍升,從而驅(qū)動(dòng)形成飛輪效應(yīng),持續(xù)創(chuàng)造經(jīng)濟(jì)價(jià)值。
二、現(xiàn)實(shí)審視:我國數(shù)據(jù)要素市場(chǎng)賦能人工智能發(fā)展的機(jī)遇與挑戰(zhàn)
在“人工智能+”的浪潮下,我國數(shù)據(jù)要素市場(chǎng)賦能人工智能已取得積極成效,在全球AI競(jìng)賽中展現(xiàn)出強(qiáng)大勢(shì)能,產(chǎn)業(yè)、數(shù)據(jù)和場(chǎng)景優(yōu)勢(shì)日益凸顯。
產(chǎn)業(yè)與市場(chǎng)活力持續(xù)釋放。我國數(shù)據(jù)要素市場(chǎng)和人工智能產(chǎn)業(yè)已形成相互促進(jìn)的良好態(tài)勢(shì)。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)數(shù)據(jù)顯示,2024年我國人工智能核心產(chǎn)業(yè)規(guī)模已突破7000億元人民幣;同時(shí),數(shù)據(jù)產(chǎn)業(yè)規(guī)??焖賶汛螅瑩?jù)國家數(shù)據(jù)發(fā)展研究院測(cè)算,2024年全國數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)5.86萬億元,同比增長(zhǎng)15.8%,專業(yè)數(shù)據(jù)產(chǎn)品產(chǎn)值規(guī)模占比超過30%,產(chǎn)品和服務(wù)形態(tài)不斷豐富。全國數(shù)據(jù)企業(yè)超40萬家,專業(yè)化經(jīng)營(yíng)主體不斷出現(xiàn),產(chǎn)業(yè)吸納就業(yè)能力穩(wěn)步提升,市場(chǎng)活力不斷增強(qiáng),為“人工智能+”提供了堅(jiān)實(shí)的產(chǎn)業(yè)基礎(chǔ)。
數(shù)據(jù)資源基礎(chǔ)不斷夯實(shí)。我國數(shù)據(jù)資源總量實(shí)現(xiàn)躍升。國家數(shù)據(jù)局?jǐn)?shù)據(jù)顯示,2024年全國數(shù)據(jù)生產(chǎn)量達(dá)到41.06ZB,同比增長(zhǎng)25%,增速較去年提高2.56個(gè)百分點(diǎn);截至今年6月底,我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個(gè),總體量超過400PB。隨著人工智能快速發(fā)展,用于開發(fā)、訓(xùn)練和推理的數(shù)據(jù)量同比增長(zhǎng)40.95%,智能家居、智能網(wǎng)聯(lián)汽車等智能設(shè)備數(shù)據(jù)增速位居前列,分別為51.43%、29.28%,低空經(jīng)濟(jì)和機(jī)器人數(shù)據(jù)生產(chǎn)量增速超過30%。值得一提的是,我國國內(nèi)主流大模型的訓(xùn)練數(shù)據(jù)中,中文數(shù)據(jù)占比已普遍超過60%,部分模型甚至高達(dá)80%,這為服務(wù)本土人工智能市場(chǎng)奠定了堅(jiān)實(shí)基礎(chǔ)。
應(yīng)用場(chǎng)景優(yōu)勢(shì)深度拓展。我國超大規(guī)模市場(chǎng)和復(fù)雜多樣的社會(huì)經(jīng)濟(jì)環(huán)境,為人工智能模型的訓(xùn)練、迭代和優(yōu)化提供了全球獨(dú)一無二的“試驗(yàn)田”和“練兵場(chǎng)”。這種優(yōu)勢(shì)正從消費(fèi)端向產(chǎn)業(yè)端和社會(huì)治理端全面滲透,形成強(qiáng)大的“場(chǎng)景驅(qū)動(dòng)”效應(yīng)。在To C(消費(fèi))領(lǐng)域,我國擁有全球最大的網(wǎng)民和移動(dòng)支付用戶群體,催生了電商、社交、短視頻等海量數(shù)據(jù)智能應(yīng)用場(chǎng)景。在To B(產(chǎn)業(yè))領(lǐng)域,我國作為全球唯一擁有聯(lián)合國產(chǎn)業(yè)分類中全部工業(yè)門類的國家,正加速“人工智能+新型工業(yè)化”進(jìn)程。在智能制造領(lǐng)域,已建成超過萬家數(shù)字化車間和智能工廠;在自動(dòng)駕駛領(lǐng)域,全國已開放智能網(wǎng)聯(lián)汽車測(cè)試道路超過3.2萬公里,測(cè)試?yán)锍汤塾?jì)超過1.2億公里,復(fù)雜的路況和海量的真實(shí)路測(cè)數(shù)據(jù)是訓(xùn)練和優(yōu)化自動(dòng)駕駛算法模型的關(guān)鍵優(yōu)勢(shì)。
然而,挑戰(zhàn)同樣不容忽視。當(dāng)前數(shù)據(jù)要素市場(chǎng)供給側(cè)的短板與市場(chǎng)機(jī)制的不完善相互交織,形成了制約“人工智能+”行動(dòng)向縱深發(fā)展的核心瓶頸。
一是高質(zhì)量數(shù)據(jù)供給“量質(zhì)齊缺”,模型源頭活水不足。從“量”的方面看,全球高質(zhì)量中文語料占比嚴(yán)重偏低。中國工程院研究表明,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料占比僅為1.3%。這種結(jié)構(gòu)性失衡,導(dǎo)致國內(nèi)許多AI模型在發(fā)展初期不得不依賴英文語料或質(zhì)量欠佳的翻譯數(shù)據(jù),限制了其對(duì)中文世界的理解深度。從“質(zhì)”的方面看,原始數(shù)據(jù)治理能力尚存短板,其中充斥著大量噪聲、冗余和偏見,需要經(jīng)過復(fù)雜的清洗、標(biāo)注和治理才能用于模型訓(xùn)練。而我國在高端數(shù)據(jù)服務(wù),特別是數(shù)據(jù)合成、合規(guī)審計(jì)、偏見檢測(cè)等領(lǐng)域的產(chǎn)業(yè)生態(tài)尚不健全,高質(zhì)量數(shù)據(jù)供給的“加工能力”有待提升。
二是價(jià)格與權(quán)益體系亟待完善,市場(chǎng)機(jī)制仍需加強(qiáng)探索。從價(jià)格機(jī)制看,數(shù)據(jù)作為一種特殊的生產(chǎn)要素,其價(jià)值具有高度的場(chǎng)景依賴性、可復(fù)制性和邊際成本遞減等特征,傳統(tǒng)商品定價(jià)模型難以適用。當(dāng)前,各地?cái)?shù)據(jù)交易所雖在探索掛牌定價(jià)、協(xié)議轉(zhuǎn)讓、算法定價(jià)等多種模式,但仍缺乏一套被市場(chǎng)廣泛接受的、公允的價(jià)值評(píng)估和定價(jià)機(jī)制。比如,某企業(yè)的一份銷售數(shù)據(jù),對(duì)自身而言可能僅用于復(fù)盤,價(jià)值有限;但對(duì)需要進(jìn)行市場(chǎng)趨勢(shì)分析的AI模型訓(xùn)練方而言則價(jià)值巨大。如何量化這種“場(chǎng)景溢價(jià)”并形成合理分成,是業(yè)界普遍面臨的難題。從權(quán)益體系看,數(shù)據(jù)產(chǎn)權(quán)與合規(guī)問題構(gòu)成底層制約。數(shù)據(jù)產(chǎn)權(quán)“三權(quán)分置”的落地問題仍不明晰,特別是大模型訓(xùn)練所涉及的海量數(shù)據(jù),其版權(quán)授權(quán)鏈條復(fù)雜,企業(yè)獲取數(shù)據(jù)的合規(guī)成本和法律風(fēng)險(xiǎn)較高,亟需在制度層面予以突破,為數(shù)據(jù)要素的合規(guī)、高效流通提供清晰的“游戲規(guī)則”。
三是“數(shù)據(jù)孤島”與流通壁壘并存,要素價(jià)值難以釋放。大量高價(jià)值數(shù)據(jù)沉淀在不同政府部門、行業(yè)和大型企業(yè)內(nèi)部,形成“數(shù)據(jù)孤島”和“數(shù)據(jù)煙囪”。由于權(quán)屬界定、安全顧慮、標(biāo)準(zhǔn)不一等原因,數(shù)據(jù)難以實(shí)現(xiàn)有效的跨域流通和融合共享。此外,行業(yè)數(shù)據(jù)的市場(chǎng)化配置水平尤為不足。以制造業(yè)為例,國際數(shù)據(jù)公司(IDC)統(tǒng)計(jì)顯示,目前制造業(yè)數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)僅占約20%,大量蘊(yùn)含工藝、流程知識(shí)的非結(jié)構(gòu)化數(shù)據(jù)難以利用。更值得關(guān)注的是,工業(yè)數(shù)據(jù)交易規(guī)模占我國數(shù)據(jù)交易市場(chǎng)總規(guī)模的比重不足7%。這表明,能極大賦能實(shí)體經(jīng)濟(jì)的行業(yè)場(chǎng)景數(shù)據(jù),正由寶貴的“生產(chǎn)資料”淪為沉睡的“數(shù)字庫存”。
三、破局之路:數(shù)據(jù)要素市場(chǎng)有效賦能“人工智能+”行動(dòng)發(fā)展的關(guān)鍵路徑
為應(yīng)對(duì)挑戰(zhàn)、抓住機(jī)遇,必須多措并舉、精準(zhǔn)發(fā)力,通過強(qiáng)化供給、完善機(jī)制、創(chuàng)新治理、優(yōu)化生態(tài),構(gòu)建支撐“人工智能+”行動(dòng)的高質(zhì)量數(shù)據(jù)要素市場(chǎng)。
(一)強(qiáng)化優(yōu)質(zhì)數(shù)據(jù)供給,筑牢戰(zhàn)略資源儲(chǔ)備
為從源頭解決高質(zhì)量數(shù)據(jù)不足的問題,應(yīng)由國家層面統(tǒng)籌規(guī)劃,加快推動(dòng)氣象、交通、醫(yī)療、科研等關(guān)鍵領(lǐng)域的公共數(shù)據(jù),在確保安全的前提下,以統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的方式有序向社會(huì)開放,打造一批具有全球競(jìng)爭(zhēng)力的國家級(jí)和行業(yè)級(jí)人工智能公共訓(xùn)練數(shù)據(jù)集。同時(shí),需高度重視戰(zhàn)略語料資源的儲(chǔ)備與開發(fā),一方面,探索開展建設(shè)全國性大模型“紅色語料庫”,筑牢意識(shí)形態(tài)安全屏障;另一方面,強(qiáng)化對(duì)海外高價(jià)值、高頻次、高可靠性戰(zhàn)略語料的收儲(chǔ)與市場(chǎng)化利用,增強(qiáng)我國在全球人工智能競(jìng)爭(zhēng)中的核心優(yōu)勢(shì),為我國人工智能長(zhǎng)遠(yuǎn)發(fā)展筑牢戰(zhàn)略根基。
(二)優(yōu)化數(shù)據(jù)定價(jià)模式,完善利益分配機(jī)制
科學(xué)的價(jià)值分配機(jī)制是激活數(shù)據(jù)要素市場(chǎng)供給動(dòng)力的核心。需加快探索構(gòu)建一個(gè)既能體現(xiàn)政府指導(dǎo)、又能發(fā)揮市場(chǎng)作用的價(jià)格體系。在路徑上,要理清公共數(shù)據(jù)的價(jià)值生成鏈條,即由政府授權(quán)的運(yùn)營(yíng)機(jī)構(gòu)進(jìn)行一級(jí)開發(fā),形成標(biāo)準(zhǔn)化數(shù)據(jù)產(chǎn)品;再由市場(chǎng)主體進(jìn)行二次開發(fā),形成面向人工智能應(yīng)用場(chǎng)景的精細(xì)化產(chǎn)品與服務(wù)。在定價(jià)上,將公共數(shù)據(jù)作為全社會(huì)數(shù)據(jù)定價(jià)之“錨”:在一級(jí)開發(fā)階段,可采取政府指導(dǎo)下的成本補(bǔ)償模式,覆蓋數(shù)據(jù)治理與運(yùn)營(yíng)成本,推動(dòng)海量公共數(shù)據(jù)“入場(chǎng)”;在二級(jí)市場(chǎng),鼓勵(lì)數(shù)據(jù)供需雙方根據(jù)數(shù)據(jù)在具體人工智能應(yīng)用場(chǎng)景中創(chuàng)造的價(jià)值,通過市場(chǎng)化方式協(xié)商形成價(jià)格,或建立合理的收益分享模式,讓高質(zhì)量數(shù)據(jù)的持有者能分享人工智能發(fā)展的紅利,從而正向激勵(lì)市場(chǎng)持續(xù)供給高價(jià)值數(shù)據(jù)。在分配上,探索建立公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的收益分配政策,將有償使用收益部分納入財(cái)政,用于反哺數(shù)據(jù)治理和公共服務(wù),同時(shí)設(shè)置合理的分配原則,激勵(lì)各參與方的積極性。
(三)明晰數(shù)據(jù)產(chǎn)權(quán)結(jié)構(gòu),創(chuàng)新安全治理模式
為解決數(shù)據(jù)共享中“不敢、不愿、不能”的難題,必須在制度和技術(shù)上尋求突破。制度上,要加快落實(shí)“數(shù)據(jù)二十條”提出的數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營(yíng)權(quán)“三權(quán)分置”要求,讓數(shù)據(jù)在“可用不可見、可控不可得”的框架下安全流動(dòng),打消數(shù)據(jù)提供方的安全顧慮。技術(shù)上,探索運(yùn)用數(shù)據(jù)可信憑證、深度偽造內(nèi)容檢測(cè)、AI生成內(nèi)容標(biāo)識(shí)等技術(shù),為進(jìn)入模型訓(xùn)練的數(shù)據(jù)打上“身份標(biāo)簽”,確保其來源可溯、權(quán)屬清晰、授權(quán)明確。當(dāng)模型生成內(nèi)容引發(fā)爭(zhēng)議時(shí),能夠反向追溯至源頭數(shù)據(jù),為權(quán)益分配和責(zé)任界定提供技術(shù)依據(jù)。此外,需前瞻性布局人工智能時(shí)代的知識(shí)產(chǎn)權(quán)規(guī)則,積極探索如何界定訓(xùn)練數(shù)據(jù)、AI模型及生成內(nèi)容的版權(quán)歸屬與使用規(guī)范,建立公平的利益分配機(jī)制,為AI產(chǎn)業(yè)的長(zhǎng)期健康發(fā)展提供制度保障。
(四)培育多元服務(wù)業(yè)態(tài),構(gòu)建協(xié)同產(chǎn)業(yè)生態(tài)
推動(dòng)傳統(tǒng)數(shù)據(jù)服務(wù)向價(jià)值鏈高端升級(jí),使其緊密契合大模型等人工智能技術(shù)的新需求。一方面,要提升數(shù)據(jù)處理技術(shù)的專業(yè)化與精細(xì)化水平。特別是數(shù)據(jù)標(biāo)注服務(wù),需從過去簡(jiǎn)單的分類、拉框,向服務(wù)于大模型價(jià)值對(duì)齊的精細(xì)化、場(chǎng)景化標(biāo)注邁進(jìn),重點(diǎn)覆蓋指令遵從、偏好排序、邏輯推理等復(fù)雜任務(wù),為模型注入真正的“智能”。同時(shí),要大力支持高質(zhì)量數(shù)據(jù)合成技術(shù)的研發(fā)與應(yīng)用,將其作為破解特定行業(yè)數(shù)據(jù)稀缺、隱私保護(hù)和數(shù)據(jù)孤島問題的關(guān)鍵手段,生成模型訓(xùn)練急需的、真實(shí)世界難以獲取的邊緣場(chǎng)景數(shù)據(jù),提升AI系統(tǒng)的魯棒性和安全性。另一方面,積極推動(dòng)國家級(jí)人工智能應(yīng)用基地建設(shè),依托基地匯聚技術(shù)、人才和資本,促進(jìn)數(shù)據(jù)服務(wù)商與AI應(yīng)用企業(yè)的精準(zhǔn)對(duì)接,并引導(dǎo)行業(yè)圍繞上述新型數(shù)據(jù)服務(wù),加快制定相應(yīng)的技術(shù)標(biāo)準(zhǔn)、服務(wù)流程與質(zhì)量評(píng)估規(guī)范。最終形成一個(gè)覆蓋數(shù)據(jù)全生命周期的、多元化的服務(wù)產(chǎn)業(yè)生態(tài),為“人工智能+”行動(dòng)提供源源不斷的高品質(zhì)“數(shù)據(jù)燃料”。(國家發(fā)展改革委價(jià)格監(jiān)測(cè)中心副主任 王建冬)
評(píng)論