數(shù)字中文建設(shè)在行動
為落實《教育強國建設(shè)規(guī)劃綱要(2024—2035年)》,教育部、國家語委、中央網(wǎng)信辦近日共同印發(fā)《關(guān)于加強數(shù)字中文建設(shè) 推進語言文字信息化發(fā)展的意見》(以下簡稱《意見》),部署應(yīng)用關(guān)鍵新技術(shù),構(gòu)建資源數(shù)據(jù)新體系,實施賦能全局新行動,全力服務(wù)教育強國、科技強國和文化強國建設(shè)。
3月31日,教育部召開新聞發(fā)布會,介紹推進語言文字信息化發(fā)展情況。
明確兩步發(fā)展階段
《意見》提出,加強數(shù)字中文建設(shè)的理念、政策、行動和項目,將數(shù)字中文建設(shè)作為服務(wù)數(shù)字中國建設(shè)的重要任務(wù)和全面推進語言文字信息化發(fā)展的突出重點,全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值,著力推進中文數(shù)字化與數(shù)據(jù)中文化,著力推進創(chuàng)新應(yīng)用與規(guī)范安全,著力推進新型中文服務(wù)體系構(gòu)建與語言文字治理體系完善。
《意見》明確兩步發(fā)展階段:第一步到2027年,是以數(shù)字中文建設(shè)為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規(guī)范標準、前沿語言技術(shù)、優(yōu)質(zhì)語言資源、新型語言服務(wù)等基礎(chǔ)支撐能力顯著增強;第二步面向2035年,是全面推進語言文字信息化發(fā)展的深化賦能階段,推動承載中華文化的中文在全球數(shù)字空間、網(wǎng)絡(luò)空間以及生成式人工智能等關(guān)鍵場景中的使用占比和價值引領(lǐng)作用顯著提高,實現(xiàn)我國語言文字信息化整體水平位居世界前列。
教育部語言文字信息管理司司長劉培俊介紹,重點加強數(shù)字中文建設(shè)主要有以下考慮:一是中文使命任務(wù)重大——今后一個時期,中文服務(wù)數(shù)字中國建設(shè),加大國家通用語言文字推廣力度,深化中華優(yōu)秀語言文化傳承,增進語言文明國際交流互鑒等多項重大任務(wù),更加需要中文數(shù)字化賦能。二是中文文化內(nèi)涵豐富——中文承載著中華民族數(shù)千年的文明智慧,是中國貢獻給世界的重要公共文化產(chǎn)品,更加需要中文數(shù)字化傳播。三是中文使用范圍廣泛——中文是世界上使用人數(shù)最多的語言,是聯(lián)合國六種工作語言之一,190多個國家和地區(qū)開展中文教學(xué),85個國家將中文納入國家的教育體系,更加需要中文數(shù)字化學(xué)習。四是中文數(shù)據(jù)價值突出——大規(guī)模、高質(zhì)量的中文數(shù)據(jù)有利于推動中國特色大語言模型創(chuàng)新發(fā)展,更加需要中文數(shù)字化支撐。
從“信息載體”向“生產(chǎn)要素”轉(zhuǎn)型
當前,大語言模型技術(shù)對大規(guī)模高質(zhì)量語料提出前所未有的需求,賦予了數(shù)據(jù)中文化新的歷史內(nèi)涵和使命任務(wù)。北京大學(xué)王選計算機研究所所長湯幟認為,加強數(shù)字中文建設(shè)將從三個維度推動中文信息處理技術(shù)發(fā)展進入新階段。
一是從重要資源轉(zhuǎn)化為數(shù)據(jù)要素價值。語言文字將從“靜態(tài)符號”向“動態(tài)數(shù)字資產(chǎn)”、從“信息載體”向“生產(chǎn)要素”轉(zhuǎn)型,要重點推動語料庫、數(shù)據(jù)標注與評價等標準的研制,支持文本生成與理解、語言翻譯、情感分析等。
二是從廣泛存在聚焦到關(guān)鍵領(lǐng)域應(yīng)用。語言文字“日學(xué)而不察、日用而不覺”,廣泛存在于社會生產(chǎn)各個方面。新形勢下,語言文字將實現(xiàn)從符號存儲到智能建模的質(zhì)變,要聚焦關(guān)鍵垂直領(lǐng)域建設(shè)語料基礎(chǔ)設(shè)施,構(gòu)建支持大模型訓(xùn)練的高質(zhì)量中文數(shù)據(jù)集。
三是從基礎(chǔ)支撐提高到賦能全局發(fā)展。語言文字信息處理技術(shù)創(chuàng)新應(yīng)用正經(jīng)歷從“GB2312字符集”到“萬億參數(shù)大語言模型”的范式變革。語言文字將實現(xiàn)與信息技術(shù)的深度融合,要形成“技術(shù)突破—場景落地—生態(tài)繁榮”的良性循環(huán),打造數(shù)字化引領(lǐng)品牌,有力服務(wù)教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動產(chǎn)業(yè)升級、促進社會進步。
建設(shè)高質(zhì)量的語言文化語料資源
語料庫是加強數(shù)字中文建設(shè)、推進語言文字信息化發(fā)展、推動語言文字高質(zhì)量發(fā)展的基礎(chǔ)支撐,也是經(jīng)濟社會信息化建設(shè)、數(shù)字化賦能和智能化發(fā)展的基礎(chǔ)要素。
然而當前,在語言的教育教學(xué)和研究領(lǐng)域,雖然有多個語料庫,但很多語料庫還處于單一文本模式和領(lǐng)域應(yīng)用階段,在建設(shè)的理念、技術(shù)和方法、規(guī)模,以及數(shù)據(jù)多樣性、時效性尤其是與人工智能相結(jié)合的大規(guī)模應(yīng)用方面還存在不足,難以滿足多元化、動態(tài)化尤其是智能化的語言數(shù)據(jù)需求。
對此,《意見》提出,到2027年初步建成國家關(guān)鍵語料庫。劉培俊介紹,啟動實施國家關(guān)鍵領(lǐng)域語料庫建設(shè)計劃,在關(guān)鍵學(xué)科、重點行業(yè)、戰(zhàn)略區(qū)域、民生期待和社會急需領(lǐng)域,分批建設(shè)規(guī)范、安全、優(yōu)質(zhì)的國家關(guān)鍵語料庫。目前,教育部、國家語委已經(jīng)支持建設(shè)了30余項關(guān)鍵領(lǐng)域的語料庫。
據(jù)介紹,國家關(guān)鍵領(lǐng)域語料庫建設(shè)立足人工智能時代大背景,突破傳統(tǒng)語料庫單一文本模式和領(lǐng)域應(yīng)用壁壘,以大模型訓(xùn)練及性能評測、智能計算為核心,以新質(zhì)態(tài)、多模態(tài)、多語言、大規(guī)模、全域性為突出特性,為通用領(lǐng)域和細分領(lǐng)域多場景應(yīng)用及創(chuàng)新發(fā)展提供規(guī)范、可信、高質(zhì)量的語言文化語料資源。