
財聯(lián)社記者最新從國家數(shù)據(jù)局方面了解到,今年上半年,全國各地已建設(shè)高質(zhì)量數(shù)據(jù)集超過了3.5萬個,總體量超過400PB。截至目前,全國各地高質(zhì)量數(shù)據(jù)集累計交易額已達40億元,交易機構(gòu)掛牌3364個高質(zhì)量數(shù)據(jù)集,總規(guī)模達到246PB。
國家數(shù)據(jù)局方面透露,為推進高質(zhì)量數(shù)據(jù)集的建設(shè),國家數(shù)據(jù)局布局建設(shè)成都、沈陽等七個數(shù)據(jù)標注基地,目前國內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比達到了60-80%,中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力顯著增強。
同時,人工智能模型訓(xùn)練正推動數(shù)據(jù)交易需求上升。以北京數(shù)交所為例,高質(zhì)量數(shù)據(jù)集占交易總量的比例從去年10%左右提升到目前的近80%。上海、天津、安徽等地正在試點“數(shù)據(jù)語料作價入股”模式,引導(dǎo)企業(yè)將高質(zhì)量數(shù)據(jù)集折算為股權(quán)投入新企業(yè)。
此外,國家數(shù)據(jù)局強調(diào)高質(zhì)量數(shù)據(jù)集建設(shè)基礎(chǔ)保障。通過建立健全數(shù)據(jù)基礎(chǔ)制度,加快建設(shè)數(shù)據(jù)基礎(chǔ)設(shè)施,推進公共數(shù)據(jù)開發(fā)利用,布局攻關(guān)數(shù)據(jù)領(lǐng)域核心技術(shù),完善數(shù)字人才培養(yǎng)體系等一系列組合拳和體系化的布局,持續(xù)推進數(shù)據(jù)要素市場化改革和“人工智能+”行動同頻共振,聯(lián)合各部門創(chuàng)新工作模式,構(gòu)建部門協(xié)同的工作制度,協(xié)同發(fā)力,聯(lián)合施策,積極引導(dǎo)做好高質(zhì)量數(shù)據(jù)集建設(shè)工作。
國家數(shù)據(jù)局稱,下一步將加快打造重點領(lǐng)域,以及具身智能、低空經(jīng)濟、生物制造等領(lǐng)域數(shù)據(jù)高地。
財聯(lián)社記者了解到,大模型能力邊界幾乎完全由數(shù)據(jù)的質(zhì)量、規(guī)模和安全性來定義,數(shù)據(jù)是提升模型能力的關(guān)鍵和模型訓(xùn)練的基礎(chǔ),也是拓展智力上線和性能優(yōu)化的支撐,高質(zhì)量數(shù)據(jù)將有效降低模型幻覺。
“很多專家說當(dāng)前的技術(shù)條件下,人工智能的發(fā)展體現(xiàn)出很強的數(shù)據(jù)驅(qū)動特色。數(shù)據(jù)決定了大模型的性能上限。”劉烈宏表示。
此次數(shù)博會,財聯(lián)社記者注意到,在智算服務(wù)器領(lǐng)域表現(xiàn)突出的超聚變2024年起發(fā)力數(shù)據(jù)層面,目前已構(gòu)建了統(tǒng)一的資產(chǎn)與數(shù)據(jù)安全管理體系。
超聚變CIO、城企數(shù)智事業(yè)部總裁藍文廣表示,新一代AI+數(shù)據(jù)技術(shù)改變了從業(yè)務(wù)到數(shù)智化的生產(chǎn)方式、業(yè)務(wù)設(shè)計與數(shù)智化實施方法框架并重構(gòu)所有的業(yè)務(wù)及應(yīng)用。據(jù)悉,在企業(yè)服務(wù)領(lǐng)域,超聚變推出的xIBT業(yè)務(wù)變革與數(shù)智化轉(zhuǎn)型解決方案,依托100+場景智能體,將企業(yè)業(yè)務(wù)流程深度融入智能體架構(gòu)。
財聯(lián)社記者從中國電科集團旗下的中國司法大數(shù)據(jù)研究院有限公司(以下簡稱“中國法研”)方面了解到,研究院為我國公共數(shù)據(jù)資源授權(quán)運營的先行先試單位,在司法領(lǐng)域高質(zhì)量數(shù)據(jù)集建設(shè)方面,組織法律專業(yè)知識專家、法律從業(yè)者和高校法律學(xué)生共同組成數(shù)據(jù)標注團隊,構(gòu)建了基于法律知識體系指引的數(shù)據(jù)標注系統(tǒng),通過“人機協(xié)同”方式,開展了專業(yè)領(lǐng)域數(shù)據(jù)標注。
中國法研以積累的“法律法規(guī)、司法解釋、指導(dǎo)案例、公開文書”等作為基礎(chǔ)數(shù)據(jù)源,結(jié)合司法領(lǐng)域?qū)I(yè)知識和應(yīng)用場景需要,歸納和整理形成“法律問答、法條推薦、案件認知”等在內(nèi)的27類司法語料庫,共計600萬對精調(diào)語料;同時,針對檢索增強生成,基于法律實務(wù)(文書)和專家觀點數(shù)據(jù),構(gòu)建了超2億條法律行業(yè)知識。
公開信息顯示,作為產(chǎn)業(yè)鏈“鏈主”,目前三大運營商以數(shù)據(jù)專業(yè)公司為立腳點,致力于構(gòu)建高質(zhì)量數(shù)據(jù)集。其中中國移動已建成覆蓋32個行業(yè)、超3500TB通用高質(zhì)量數(shù)據(jù)集。
財聯(lián)社記者了解到,在上述《指引》發(fā)布背后,高質(zhì)量數(shù)據(jù)集的建設(shè)仍面臨諸多挑戰(zhàn)。
余曉暉稱,目前全國已建成超過3.5萬個數(shù)據(jù)集,Token消耗量呈高速增長態(tài)勢,中央、地方和行業(yè)層面也在積極推動相關(guān)工作。然而,實踐中仍面臨諸多挑戰(zhàn),如數(shù)據(jù)供給、技術(shù)、治理體系和標準等問題亟待解決。
中國法研總經(jīng)理專項助理李曉智在采訪中告訴財聯(lián)社記者,現(xiàn)實應(yīng)用中,數(shù)據(jù)的合法性和數(shù)據(jù)保護問題客觀上增加了數(shù)據(jù)集建設(shè)的難度,技術(shù)瓶頸仍然存在,當(dāng)前的算法和工具仍無法有效解決數(shù)據(jù)標注的高成本和低效率問題,尤其是在人力資源有限的情況下,如何高效、準確地完成大規(guī)模數(shù)據(jù)集的標注和清洗仍是關(guān)鍵問題。
據(jù)悉,高質(zhì)量的領(lǐng)域語料建設(shè),是一項領(lǐng)域知識密集型工作,需投入大量的領(lǐng)域?qū)I(yè)人員。李曉智介紹,雖然現(xiàn)在中國法研已經(jīng)形成一套人機結(jié)合的語料構(gòu)建、質(zhì)量檢測方法,但是人工勞動還是占語料構(gòu)建30%+以上的工作量。后續(xù)中國法研考慮基于法律大模型聯(lián)盟形成“數(shù)據(jù)伙伴”團隊以及中國法研CNAS測評團隊,共同進行行業(yè)語料集建設(shè)和評價,希望國家相關(guān)部門能夠予以頂層指導(dǎo)和政策支持。
吳世忠研究員亦在其演講中提到了數(shù)據(jù)來源的合法性風(fēng)險。
同時吳世忠表示,數(shù)據(jù)內(nèi)容面臨可靠性風(fēng)險,現(xiàn)實中數(shù)據(jù)集經(jīng)常面臨低質(zhì)噪聲、失實性錯誤甚至價值觀的偏差;數(shù)據(jù)供應(yīng)鏈方面存在風(fēng)險,“應(yīng)高度關(guān)注篡改的隱患,數(shù)據(jù)集從采集、標注、實用多個環(huán)節(jié),數(shù)據(jù)供應(yīng)商,外包標注團隊、云平臺等等,任何漏洞都可能成為攻擊的入口”;數(shù)據(jù)使用方面面臨倫理風(fēng)險,“嚴防濫用與失控潛在危險,即使數(shù)據(jù)集本身合法合規(guī),如果缺乏對使用場景的約束,也可能引發(fā)問題及某些包含生物特征的數(shù)據(jù),人臉照片,影音片斷,生成類的大模型導(dǎo)致深度偽造方面的技術(shù)濫用,這方面的例子出現(xiàn)了很多?!?/span>
網(wǎng)上經(jīng)營許可證號:京ICP備18006193號-1
copyright?2005-2022 mayimov.com all right reserved 技術(shù)支持:杭州高達軟件系統(tǒng)股份有限公司
服務(wù)熱線:010-59231580