
今年8月,國(guó)務(wù)院印發(fā)《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見(jiàn)》,其中提出“支持發(fā)展數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成等技術(shù),培育壯大數(shù)據(jù)處理和數(shù)據(jù)服務(wù)產(chǎn)業(yè)”。
何為數(shù)據(jù)標(biāo)注?簡(jiǎn)單來(lái)說(shuō),就是給文本、語(yǔ)音、圖片、視頻等各式數(shù)據(jù)“打標(biāo)簽”。在人工智能的快速發(fā)展中,數(shù)據(jù)被譽(yù)為“新石油”,而數(shù)據(jù)標(biāo)注則是將數(shù)據(jù)“原油”煉成“汽油”的關(guān)鍵工藝。
數(shù)據(jù)標(biāo)注通過(guò)對(duì)數(shù)據(jù)特征提取、分類、注釋、標(biāo)簽化等操作,將人類的知識(shí)和思維邏輯轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的語(yǔ)言,可為數(shù)據(jù)注入新價(jià)值,還可有效激活數(shù)據(jù)潛能,是人工智能高質(zhì)量數(shù)據(jù)集建設(shè)的關(guān)鍵環(huán)節(jié)。經(jīng)過(guò)標(biāo)注的高質(zhì)量數(shù)據(jù)能有效提升垂類大模型的專業(yè)領(lǐng)域性能,加速人工智能賦能千行百業(yè)。
2024年12月,國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局等部門印發(fā)《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見(jiàn)》,提出“到2027年,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)專業(yè)化、智能化及科技創(chuàng)新能力顯著提升,產(chǎn)業(yè)規(guī)模大幅躍升,年均復(fù)合增長(zhǎng)率超過(guò)20%”。據(jù)了解,國(guó)家數(shù)據(jù)局已指導(dǎo)安徽合肥、四川成都等7個(gè)城市建設(shè)數(shù)據(jù)標(biāo)注基地,先行先試、探索經(jīng)驗(yàn)。截至今年上半年,7個(gè)數(shù)據(jù)標(biāo)注基地建設(shè)數(shù)據(jù)集524個(gè),服務(wù)大模型163個(gè),帶動(dòng)數(shù)據(jù)標(biāo)注行業(yè)相關(guān)產(chǎn)值超過(guò)83億元。
在分子和藥物智能研發(fā)場(chǎng)景,對(duì)原子、電荷、化學(xué)鍵、靶點(diǎn)、活性等關(guān)鍵信息進(jìn)行標(biāo)記,人工智能才能更好賦能新藥研發(fā);在工業(yè)質(zhì)檢場(chǎng)景,對(duì)產(chǎn)品缺陷尺寸、位置、類型等信息進(jìn)行標(biāo)記,人工智能才能精準(zhǔn)捕捉產(chǎn)品缺陷或異?!谌斯ぶ悄艽竽P秃拖嚓P(guān)政策驅(qū)動(dòng)下,數(shù)據(jù)標(biāo)注需求爆發(fā)式增長(zhǎng),相關(guān)企業(yè)也茁壯成長(zhǎng)。有的企業(yè)主要業(yè)務(wù)是為人工智能場(chǎng)景化落地提供數(shù)據(jù)采集和標(biāo)注服務(wù),在人工智能產(chǎn)業(yè)帶動(dòng)下,僅過(guò)去一年公司就承接了2000多項(xiàng)數(shù)據(jù)標(biāo)注項(xiàng)目需求,預(yù)計(jì)今年業(yè)務(wù)量將增長(zhǎng)超過(guò)30%。
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈覆蓋上游數(shù)據(jù)提供方、中游平臺(tái)公司、下游服務(wù)商。目前,我國(guó)已經(jīng)初步形成產(chǎn)業(yè)鏈閉環(huán),各地也在加速培育數(shù)據(jù)標(biāo)注產(chǎn)業(yè),產(chǎn)業(yè)集聚帶動(dòng)作用日益凸顯。數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正呈現(xiàn)出新的發(fā)展趨勢(shì)。
技術(shù)迭代。智能化標(biāo)注技術(shù)不斷取得突破,人機(jī)協(xié)同標(biāo)注模式日益成熟。企業(yè)通過(guò)人工智能對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行預(yù)標(biāo)注,數(shù)據(jù)標(biāo)注員更多承擔(dān)關(guān)鍵決策角色,通過(guò)實(shí)時(shí)糾正模型錯(cuò)誤,并將改進(jìn)反饋給算法,促進(jìn)其自我優(yōu)化。這種模式不僅提高了標(biāo)注效率,還保證了標(biāo)注的準(zhǔn)確性。
要求提升。隨著大模型的發(fā)展,高質(zhì)量數(shù)據(jù)集的評(píng)判標(biāo)準(zhǔn)變得更加復(fù)雜。比如醫(yī)療影像標(biāo)注需要專業(yè)知識(shí)以識(shí)別病灶,自動(dòng)駕駛領(lǐng)域離不開(kāi)對(duì)道路場(chǎng)景的高精度標(biāo)注。數(shù)據(jù)標(biāo)注產(chǎn)業(yè)逐漸從勞動(dòng)密集型產(chǎn)業(yè)轉(zhuǎn)變?yōu)橹R(shí)密集型產(chǎn)業(yè),對(duì)從業(yè)者的專業(yè)要求越來(lái)越高。
對(duì)象拓展。被標(biāo)注的數(shù)據(jù)從文本、圖像等單模態(tài)向多模態(tài)標(biāo)注轉(zhuǎn)變,其領(lǐng)域也從通識(shí)領(lǐng)域逐漸擴(kuò)展到醫(yī)療、工業(yè)制造等專識(shí)領(lǐng)域。
目前,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)還處于初期階段,需要各方群策群力,共同培育壯大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)生態(tài)。各地要加強(qiáng)政策落實(shí)和引導(dǎo),與產(chǎn)業(yè)各界深度合作,搭建常態(tài)化供需對(duì)接服務(wù)平臺(tái);應(yīng)用企業(yè)要以實(shí)際需求驅(qū)動(dòng)數(shù)據(jù)標(biāo)注能力體系建設(shè),模型廠商等數(shù)據(jù)應(yīng)用企業(yè)要結(jié)合自身技術(shù)路線與業(yè)務(wù)場(chǎng)景,與標(biāo)注企業(yè)共同開(kāi)展標(biāo)注工具研發(fā)、流程優(yōu)化工作,推動(dòng)行業(yè)標(biāo)準(zhǔn)規(guī)范建設(shè)。
網(wǎng)上經(jīng)營(yíng)許可證號(hào):京ICP備18006193號(hào)-1
copyright?2005-2022 mayimov.com all right reserved 技術(shù)支持:杭州高達(dá)軟件系統(tǒng)股份有限公司
服務(wù)熱線:010-59231580