8月25日,人民網(wǎng)與大眾報業(yè)集團、山東數(shù)字文化集團共建主流價值語料庫(山東)、主流文化語料庫(山東)合作簽約暨項目推進會在濟南舉行。會議現(xiàn)場,人民網(wǎng)與山東數(shù)字文化集團正式簽約,共建全國首個主流文化語料庫,推動數(shù)字文化產(chǎn)業(yè)高質(zhì)量發(fā)展。
隨著人工智能加速迭代,高質(zhì)量數(shù)據(jù)集作為人工智能模型訓練與應用的基石,成為人工智能能力提升和“人工智能+”場景落地的關(guān)鍵支撐。2025年1月,國務院辦公廳印發(fā)的《關(guān)于推動文化高質(zhì)量發(fā)展的若干經(jīng)濟政策》提出,“建設文化領(lǐng)域人工智能高質(zhì)量數(shù)據(jù)集,支持文化領(lǐng)域大模型建設”。
主流文化語料庫由人民網(wǎng)和山東數(shù)字文化集團共建,依托人民日報、人民網(wǎng)、大眾報業(yè)集團等黨報黨網(wǎng)長期建設發(fā)展形成的新聞、理論、評論、政策等權(quán)威媒體資源,結(jié)合山東省內(nèi)文化單位、高校多年來積累的優(yōu)質(zhì)私域文化資源,系統(tǒng)性注入主流價值觀,確保語料時刻與國家脈搏同頻、與社會價值共振,打造成可供AI領(lǐng)域放心使用的“價值合規(guī)型”數(shù)據(jù)資源。經(jīng)數(shù)據(jù)采集、清洗、預標注、標注、增強、校審等環(huán)節(jié),通過“AI+人工”的方式,精心打磨而成。
據(jù)了解,該語料庫具有標準統(tǒng)一、結(jié)構(gòu)完整、權(quán)威準確、開放共享等特色,通過標準化的語料分類系統(tǒng)和專業(yè)的數(shù)據(jù)標注平臺,可有效解決當下AI大模型普遍存在的敏感領(lǐng)域語料欠缺、重要文化領(lǐng)域語料不足、核心語料質(zhì)量不高等問題。為解決通用大模型常因缺乏針對性語料而“水土不服”的問題,主流文化語料庫可深入?yún)^(qū)域和垂直領(lǐng)域的具體場景,構(gòu)建富含行業(yè)術(shù)語和場景化表達的精準語料資源,進一步增強AI的理解力,提升應用效能,加速AI技術(shù)與垂類領(lǐng)域的深度融合,驅(qū)動產(chǎn)業(yè)升級。
作為全國首個主流文化語料庫,一期重點聚焦山東優(yōu)秀文化,目前已上線問答語料5萬對、基礎語料2000萬篇,正在打造孔子學術(shù)研究、孔子畫像等多個高質(zhì)量數(shù)據(jù)集。后續(xù)計劃分期分批建設覆蓋廣泛、內(nèi)容豐富主流文化數(shù)據(jù)集,推動文化大模型的性能躍遷與數(shù)字文化產(chǎn)業(yè)高質(zhì)量發(fā)展。(顧玉雪)








蘇公網(wǎng)安備 32031102000168號

