【資料圖】
原標(biāo)題:北京發(fā)布大模型高質(zhì)量數(shù)據(jù)集
人民日?qǐng)?bào)海外版電 (記者賀勇)首批“北京市人工智能大模型高質(zhì)量數(shù)據(jù)集”近日發(fā)布,10家單位的18個(gè)高質(zhì)量訓(xùn)練數(shù)據(jù)集入選,包括人民日?qǐng)?bào)語料數(shù)據(jù)集、國(guó)家法律法規(guī)語料數(shù)據(jù)集、兩會(huì)參政議政建言數(shù)據(jù)集、“科情頭條”全球科技動(dòng)態(tài)數(shù)據(jù)集、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)數(shù)據(jù)集、科技文獻(xiàn)挖掘語義標(biāo)注數(shù)據(jù)集等,涵蓋經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)等不同領(lǐng)域,總規(guī)模超過500T,將為通用大模型和行業(yè)大模型訓(xùn)練提供有力保障。
為更好把握這次通用人工智能發(fā)展的歷史性機(jī)遇,近期北京市連續(xù)出臺(tái)了《加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案》《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施》《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃》等多項(xiàng)支持政策,釋放明確信號(hào)、搭建伙伴平臺(tái)、聚攏行業(yè)資源,助力人工智能技術(shù)賦能千行百業(yè)數(shù)智化轉(zhuǎn)型。
目前,針對(duì)大模型訓(xùn)練的高質(zhì)量中文語料占比較少,不利于中文語境表達(dá)及產(chǎn)業(yè)應(yīng)用。為此,北京啟動(dòng)實(shí)施“通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃”,其中一個(gè)重要領(lǐng)域就是針對(duì)大模型訓(xùn)練所需的高質(zhì)量數(shù)據(jù),發(fā)揮數(shù)據(jù)提供方海量數(shù)據(jù)資源優(yōu)勢(shì),基于數(shù)據(jù)交易方搭建的流通交易平臺(tái)和數(shù)據(jù)服務(wù)方的技術(shù)支撐,實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的有效供給及合規(guī)高效、安全有序的流動(dòng)。
關(guān)鍵詞:
責(zé)任編輯:Rex_06