我國高質量場景數據集的供給現狀與發(fā)展策略
文 | 浙江大學光華法學院教授、博導,浙江大學國際戰(zhàn)略與法律研究院常務副院長,數字法治研究院首席專家 程樂
在新一輪數字化革命的推動下,數據成為繼土地、勞動力、資本、技術之后的第五大生產要素,并在不同社會領域配合其可復制性、可增強性、可訓練性、可互操作性等獨有特征,實現跨行業(yè)價值釋放。然而,未經篩選整合的海量數據依然存在數據噪聲、非對稱性、低完整性等內生問題,難以通過可信利用轉化形成可持續(xù)的數據價值。面對迥然相異的產業(yè)技術需求,數據可以通過特定的格式和結構加以集合進而發(fā)揮實質價值,這一概念亦被稱作“數據集”。在新質生產力驅動的全新技術業(yè)態(tài)下,以人工智能為代表的尖端科技正在對特定垂直場域中的“場景數據集”展現更強的上下文依賴性,醫(yī)療、交通、教育、金融等場景化的專業(yè)性數據集需求高速提升,特定應用場景的精細化對數據價值體系提出更高要求。此背景下,場景數據集的概念激活與高質量發(fā)展正密切關聯(lián)我國數字產業(yè)經濟的創(chuàng)新性配置、領域性轉型與技術性突破。為實現場景數據價值效用的乘數倍增與充分釋放,亟需打通我國關聯(lián)領域目前在數據供給、數據流通、數據評估、數據標準、數據開放、數據共享等層面的堵點,以“場景化加工能力”與“多樣化共享體系”兩大要點共同構建具有國際化樣板意義的高質量場景數據集。
高質量場景數據集的戰(zhàn)略定位與價值釋放
現代科技譜系中,數據集可能關聯(lián)區(qū)塊鏈、物聯(lián)網、人工智能、自動化工程、高性能計算、地理信息系統(tǒng)等多端技術,作為中樞性資源要素發(fā)揮復合效果。而在醫(yī)療、工業(yè)等具體領域的技術應用中,數據集的價值轉化則清晰展現“應用牽引”下的場景差異化需求。例如,工業(yè)場景需要傳感器數據等精度高、實時性強的數據集合,醫(yī)療場景的數據集建構則更多關聯(lián)隱私保護、數據保真度等要求。此背景下,面向具體場景的高質量數據集供給日趨關鍵,并對各國科技產業(yè)的戰(zhàn)略性部署展現出重要價值。例如,歐盟委員會于2022年發(fā)布《高價值數據集實施法案》,明確環(huán)境數據、地理空間數據與地球觀測數據等特定場景高價值數據集的供給標準,進一步完善面向工業(yè)、國防等重點場景的高質量數據集供給。
在多類應用情境中,人工智能對于高質量場景數據集的需求尤為突出。2024年《政府工作報告》首次將“人工智能+”上升至國家戰(zhàn)略層面,明確提出深化大數據、人工智能等研發(fā)應用。近年來,以DeepSeek、ChatGPT、Gemini、通義千問、豆包為代表的大語言模型在各社會領域展現了卓越的應用潛力與現實效果,此類生成式人工智能所采用的預訓練方法便是通過海量數據的累積效應實現模型的智能涌現與能力遷移。但一方面,預訓練模式對于模型專業(yè)領域的性能提升效果欠佳,未經篩選的低質量數據容易導致專業(yè)性問題的“模型幻覺”(模型生成了不符合事實或毫無根據的信息);另一方面,預訓練所需的可用數據資源即將被用盡。在雙重挑戰(zhàn)的協(xié)同作用下,針對特定場景的高質量數據集成為人工智能模型訓練的關鍵支撐,為現有數據局限下智能模型的訓練路徑優(yōu)化提供轉向可能。
其一,特定領域的高質量數據注入能夠推動人工智能掌握對應領域的關鍵特征與獨有規(guī)律,通過垂直場景的上下文關系增強模型訓練的精準性與針對性,實現高度專業(yè)化與個性化的人工智能解決方案與創(chuàng)新拓展。其二,高質量場景數據集在模型微調與強化學習階段的嵌入亦可抑制數據偏差與特殊場景下模型的表現失衡,基于目標行業(yè)的標準與規(guī)范提升模型的合規(guī)性、可信度與可解釋性。其三,OpenAI推出的一系列推理模型正在數學、物理、化學等強邏輯專業(yè)領域展現專家級別的優(yōu)異表現,此類后訓練模型的調試與性能增強對于專業(yè)領域數據與反饋的需求更為迫切。2024年末,OpenAI宣布將開展強化微調(Reinforcement Fine-Tuning)的模型定制計劃,通過特定領域小規(guī)模數據集的重點訓練將通用模型轉化為專業(yè)模型,并展示了運用此種方法推動GPT o1 Mini模型高水平推理罕見疾病成因的實例。未來,更多專業(yè)維度的高質量場景數據集將助推人工智能于更寬廣的重點領域展現“專家級”能力,實現模型性能與社會效率的場景化躍升。
我國高質量場景數據集的供給現狀與發(fā)展困境
規(guī)范層面,我國早在2020年已認識到高質量數據集供給對于經濟社會發(fā)展的戰(zhàn)略價值,并發(fā)布《關于構建更加完善的要素市場化配置體制機制的意見》等系列政策。近年來,我國相繼頒布《關于構建數據基礎制度更好發(fā)揮數據要素作用的意見》(2022年)《網絡數據安全管理條例》(2024年)等政策法規(guī)。然而,相較歐盟在《公共部門信息復用指令》等開放數據法規(guī)基礎上所明確的《關于開放數據和公共部門信息再利用指令》等規(guī)范及其落地效果,我國數據集的場景優(yōu)勢與場景化激活能力仍顯不成熟,特別是在數據基礎設施建設、公共數據開放制度、數據集共享生態(tài)等層面仍顯不足。
實踐層面,我國數據資源總量優(yōu)勢明顯,多樣化數據資源豐富,為高質量場景數據集的高速增長提供現實基礎。據新華社消息,2024年,全國數據市場交易規(guī)模預計超1600億元,同比增長30%以上,其中場內市場數據交易(含備案交易)規(guī)模預計超300億元,同比實現翻番。根據全國數據資源調查工作組發(fā)布的《全國數據資源調查報告(2023年)》,2023年,全國數據生產總量達32.85ZB(澤字節(jié)),同比增長22.44%。我國數據資源“產—存—算”的規(guī)模優(yōu)勢已基本形成。根據國際數據公司(IDC)的預測,中國“數據圈”(每年被創(chuàng)建、采集或是復制的數據集合)在2025年增至48.6ZB(澤字節(jié)),占全球27.8%,成為最大“數據圈”。同時,線上支付、電子商務、共享經濟、電子政務、智慧醫(yī)療等多樣化數字服務與數據應用場景在我國具有良好的社會接受度與廣闊的應用前景。得益于多民族文化的包容特性與社會秩序的長期穩(wěn)定,我國大多數民眾對跨場景數據應用持開放態(tài)度,數字化需求趨于多樣,這為數據賦能的技術突破與多領域數字創(chuàng)新的涌現提供了社會土壤。然而,我國高質量數據集供給的場景完善度不足,海量數據與多樣化場景優(yōu)勢的潛能仍有待進一步釋放。
其一,我國面向場景的有效數據供給有待強化,數據資源總量優(yōu)勢的價值轉化尚待釋放。在“原始數據—場景數據—可用場景數據—高質量場景數據集”的四階段數據轉化與價值遞進中,作為中間產品的數據要素須經清洗、標注、分析等加工活動以實現價值創(chuàng)造。此過程中,三方面因素使得我國在基于差異化場景需求實現數據價值的場景化增長方面存在一定難度。一是數據加工過程中投入與回報不成比例所引發(fā)的動力匱乏問題。專業(yè)化數據的高質量標注需要龐大的資金投入且同時關聯(lián)安全責任風險,這與數據應用的收益回報比例之間存在錯位。二是公共數據場景化加工的程度與緊迫性不足,難以發(fā)揮公共數據對于數據開發(fā)利用的引領作用與催化作用。從現有國家政策來看,我國工業(yè)、醫(yī)療、交通、氣象等具體場景的數據供給能力尚未作為專門對象加以細化規(guī)定,領域差異化數據統(tǒng)歸于公共數據范疇的做法難以匹配垂直領域的細化要求。三是數據加工技術存在優(yōu)化空間,專業(yè)人才供給難以充分滿足需求,致使場景化加工效果欠佳。在數據標注自動化工程尚未成熟的階段,將雜亂無序的低價值數據在工業(yè)互聯(lián)網等特定場景加工為標準化、目錄化、高價值數據資源需要高級別的專業(yè)技術技能,人工智能訓練與推理階段涉及多模態(tài)數據、高維度數據、跨領域數據,對計算機科學專業(yè)技術需求更加嚴苛,這為我國數據加工的現代化場景轉向帶來一定挑戰(zhàn)。
其二,受限于較低級別的數據開放度與流通度,我國高質量場景數據集的源頭供給能力有待提升。首先,我國公共數據開放程度有限,關鍵主題高價值數據集的動態(tài)數據、應用編程接口(API)與數據開放許可證等標準尚不明晰,難以實現公共數據面向公眾和企業(yè)的有序開放或強制開放。其次,我國多領域數據源很大程度為大型數據平臺所壟斷,各行業(yè)數據普遍向平臺呈現聚攏態(tài)勢,根據全國數據資源調查工作組發(fā)布的《全國數據資源調查報告(2023年)》,大型平臺企業(yè)平均數據交互量約為行業(yè)重點企業(yè)的200倍以上。但同時,大型平臺企業(yè)常以保護個人信息、防范安全風險等理由拒絕共享,僅把數據用于自身場景構建。因此,大量中小型企業(yè)雖有豐富的場景數據需求,卻常處于“無數據可用”的困境。最后,在數據共享受限的背景下,我國數據交易亦存在供需失衡?!度珖鴶祿Y源調查報告(2023)》顯示,調研的27家交易所的數據產品中僅有17.9%實現交易。數據權屬界定、數據交易定價等固有難題引發(fā)的數據交易制度滯后問題致使整體性數據產品成交率低迷,供需不匹配的現象廣泛存在,數據交易機構供給水平難以滿足場景數據需求。
其三,細分應用場景的技術標準仍有待完善,海量數據在垂直場景實現價值激活面臨挑戰(zhàn)。不同應用場景下,數據的格式、版本等特征性技術需求對應相異的數據標準與技術標準。例如,在柔性制造領域,數據需配合高頻采樣、實時監(jiān)測的產業(yè)需求,在生產節(jié)拍精準同步等方面存在特定數據規(guī)范;在智能交通領域,位置、路況信息之外的視覺、雷達、激光測距等多樣化數據融合及相應技術標準對高精度地圖的更新則至關重要。然而,我國當前主要著眼數據供給數量的增加,尚未針對場景深入開展數據集標準化技術工程。此背景下,數據技術標準與架構的不統(tǒng)一增加了場景數據集成的復雜性,不同數據間的場景融合與預期場景的具體需求所關聯(lián)的轉換、加工與適配工作消耗過量資源,亦可能基于標準引發(fā)的數據誤差降低場景數據供給的整體質量。人工智能模型結構高速迭代的產業(yè)背景下,多模態(tài)模型所需圖像、語音、文本、視頻等數據形式的融合需求日趨關鍵,推理模型對高邏輯領域復雜問題的反饋數據需求也趨于迫切,多模態(tài)數據元模型擬定、元數據描述語言等新興技術標準問題正快速更新,亟需有效回應。未來,細分場景下數據技術標準與架構的滯后效應可能進一步影響場景數據集在現代化技術需求下的流通與復用,阻礙數據流通、數據交易與數據價值增值的充分實現。
其四,現有規(guī)范體系下數據開放目錄、數據開放主體、數據開放責任等配套制度在落地實施時面臨一定阻礙,存在供給不積極、供需不匹配、共享不充分等問題。在實踐中,真正實現開放的公共數據主要是各部門的政務數據,而此類數據難以直接轉化為產業(yè)價值。而水電、通信、交通、醫(yī)療等重點場景數據則往往被拒絕開放,或限縮開放范圍。同時,在《中華人民共和國網絡安全法》《中華人民共和國數據安全法》與《中華人民共和國個人信息保護法》這三大立法的實施進程中,數據控制合法性判斷與數據流通利用的責任規(guī)則仍不明確,個人隱私與商業(yè)秘密難以在真正實現場景化數據開放的情境中得到充分保護。此外,數據產權定義尚未統(tǒng)一,信息脫敏與數據加密等配套安全措施仍不完善,場景數據開放時法律責任與權益保護也因而趨向復雜化和模糊化。綜合作用之下,即便我國近年已在相關法規(guī)中展現“推動按用途加大供給使用范圍”等政策轉向,但重點場景的數據確權與開放亦存在一定障礙,數據開放與數據安全的平衡性問題依然較難明確。
我國高質量場景數據集的多方共享與突破路徑
其一,培育多方技術,強化高價值數據的現代化場景加工能力。現代化技術驅動的數字產業(yè)變革中,前沿科技對我國數據市場與場景化數據供給能力的重塑具有核心意義。首先,提升捕捉場景化需求的技術能力,積極運用機器學習中的自然語言處理與物聯(lián)網技術中的邊緣計算等方法提升對場景需求的精準分析與細化把控。同時,對海量數據實現價值分層,結合深度學習構建數據價值分層管理體系,完成從低質量數據到高價值數據的高效篩選與價值萃取。其次,繼續(xù)完善數據基礎設施與自研工程,從底層基礎層面提升數據存儲與計算能力??衫眉舛舜竽P屯怀龅奈谋緮祿瘶俗⒛芰εc經濟化效益,持續(xù)打造契合國產人工智能發(fā)展脈絡的中文場景訓練數據語料庫。同時,配合數據質量評估體系,對專業(yè)數據、平臺數據等內容以特征導向展開質量評測,避免數據偏差與“虛假多樣性”等數據風險。最后,人工智能等現代技術的積極運用是提升數據場景化加工能力的核心關鍵。例如,在醫(yī)療、金融等不適合進行數據自由流動的敏感場景,可利用人工智能轉化為“偽數據”或匿名數據的形式,結合大模型生成合成數據或進行數據增強。同時,運用隱私計算、聯(lián)邦學習與分布式訓練等技術方法,在保障數據安全的基礎上提升數據的場景化加工與供給能力,在回應場景化數據需求的同時平衡數據“可用與可控”之間的矛盾。此過程中,須將人工智能人才培育作為重點政策并細化培養(yǎng)方案,積極運用專項基金等激勵措施,帶動專業(yè)化人才發(fā)展以實現場景需求下數據集建設與供給能力的躍升。
其二,在場景面向下推進公共數據、平臺數據的可信開放與充分共享。一方面,我國阿里、騰訊、百度、字節(jié)跳動等超大型平臺企業(yè)對海量互聯(lián)網數據形成支配,但受到個人信息保護與平臺成本的限制,簡單要求共享數據的思路亦不可行。為實現少數平臺數據壟斷向全行業(yè)數據良性共享的過渡,首先,可借鑒歐盟與美國等西方數據治理相關立法中的“守門人”制度,將滿足特定條件的大型平臺企業(yè)規(guī)定為“守門人”并要求其承擔特定的法律義務。進一步細化“守門人”制度的限制,明確“守門人”將非個人數據共享給第三方的要求及其具體規(guī)定。其次,亦可借鑒知識產權制度中的保護時間設計,根據不同場景下的數據價值變化曲線要求,引導或鼓勵平臺在一段時間后共享具有公共屬性的數據以便其他主體進行利用。最后,進一步完善數據交易制度、數據產權制度與數據收益分配制度。協(xié)調場內交易與場外交易等相異場景需求下的具體措施,逐步形成面向數據資源化、資產化、資本化等不同層面,兼顧薪資分配、效益分配和股權分配等多種分配形式的分配機制與交易生態(tài)。另一方面,推動公共數據標準化、共享機制和安全保障體系建設,兼顧政府、企業(yè)與個人等主體對公共數據開放的需求與利益訴求,構建公共數據開放與共享的深度協(xié)同機制并提升跨部門協(xié)調能力與政策執(zhí)行力。
其三,聚焦重點場景,賦能多樣化場景,推進政府主導與市場平衡下的前沿數據利用。針對場景面向下公共數據與高價值數據的利用,政府不宜對市場“無形之手”的靈活調控效果進行過度干預,但也應對數據開放、流通與利用過程的合規(guī)性與安全性承擔主要監(jiān)管職責??梢圆捎谩皟刹阶摺钡姆绞酵苿訌闹攸c場景到多樣化場景中良性秩序的形成。第一步,現階段暫時摒棄“不加區(qū)分、一并推進”的做法,明確數據集供給的劃定應用場景。例如,《“數據要素×”三年行動計劃(2024—2026年)》中明確指出,要“聚焦重點行業(yè)和領域,挖掘典型數據要素應用場景”。通過借鑒域外取得良好效果的重點場景,可在地方層面進一步將高質量場景數據集建設明確在普惠金融、醫(yī)療保險、物業(yè)服務等相對有限的細分板塊。在此基礎上,完善重點應用場景下的數據開放細則,爭取實現相應領域數據的有需必應。第二步,在著眼核心場景的同時持續(xù)推進更大范圍場景的賦能效應。一是建立開放清單動態(tài)調整機制,同步維持開放數據的實時更新與日常性維護工作,確保實時分析能力的精準高效與相應救濟途徑的暢通;二是以市場為主體推動多樣化場景數據的衍生發(fā)展,先通過提高相似場景中的數據泛化表現以提升場景數據集的通用性,避免智能模型等末端應用過擬合于某些特定子場景;三是針對元宇宙、數字孿生、智能決策等數字時代的新型場景進行數據需求的前瞻性剖析,并對智能監(jiān)控等數字城市治理場景中出現的前沿問題作出精準把握,提前布局以保障新興領域預見性政策的及時跟進。
其四,優(yōu)化現有規(guī)范,明確數據架構與技術配套的場景化標準。一方面,持續(xù)完善頂層制度設計以發(fā)揮其對場景數據流通的保障與激勵機能。可參考美國《信息自由法》《聯(lián)邦數據戰(zhàn)略》與歐盟《通用數據管理條例》《數據治理法案》等規(guī)范中關聯(lián)的可借鑒規(guī)則,建構公共部門信息復用與數據開放的場景化框架并推動本土化創(chuàng)新,鼓勵行業(yè)導向的戰(zhàn)略性數據集建設與數據開放生態(tài)。同時,在跨境電商、跨國物流、國際金融等場景中,跟進關注《中歐全面投資協(xié)定》(CAI)、《全面與進步跨太平洋伙伴關系協(xié)定》(CPTPP)、《區(qū)域全面經濟伙伴關系協(xié)定》(RCEP)等國際經貿協(xié)議中的數據跨境流動規(guī)則,通過跨境場景的數據協(xié)同構建我國數據要素的獨特場景優(yōu)勢,合理分配國家的“剩余控制權”,保留更多的行業(yè)自律與跨行業(yè)協(xié)同空間。另一方面,持續(xù)完善場景面向的數據架構與技術標準。一是推動差異場景下技術架構的統(tǒng)一化進程,促進高質量數據的跨場景互通,推動全國數據要素市場一體化。同時,亦不可忽視場景間的差異性,避免盲目追求共性而損害數據質量,跟進補充對標特定場景的數據標準,特別關注大模型背景下多模態(tài)數據的可識別性與技術架構互通等問題。二是在技術標準制定進程中以前瞻視角關注人工智能等前沿技術的新型應用場景與產業(yè)模態(tài)。例如,明確不同場景下人工智能合成數據的質量標準;細化無監(jiān)督機器學習中場景數據抓取的合規(guī)技術標準;厘清大模型生成內容領域數據集提供者、模型開發(fā)者與服務使用者之間的數據義務等。三是以場景為牽引,建立強制性的“數據法規(guī)”與自愿性的“數據標準”相結合的新型標準化體制。特別是在醫(yī)療、科研等專業(yè)細分場景的數據標準中,運用彈性較高的技術標準與倫理標準發(fā)揮“軟法先行”的正向效應,動態(tài)探索各數據場景的適配規(guī)則。
【注:本文系國家社科基金年度項目“基于語料庫的網絡安全話語體系研究”(項目編號:24BYY151)、國家社科基金重大項目“建立健全我國網絡綜合治理體系研究”(項目編號:20ZDA062)、浙江省法學會重點課題“數字社會司法治理理論與規(guī)則研究”(項目編號:2024NA19)階段性成果】
(來源:人民論壇網)