AI賦能千行百業(yè),傳統(tǒng)文科也不例外
2023年是人工智能(AI)大模型元年。2024年,AI技術(shù)持續(xù)高速發(fā)展,在腦機(jī)接口、醫(yī)療、自動(dòng)駕駛、機(jī)器人、量子計(jì)算等領(lǐng)域取得突破性創(chuàng)新。
向外看世界,2024年諾貝爾物理學(xué)獎(jiǎng)和化學(xué)獎(jiǎng)都授予了AI大咖,其中,化學(xué)獎(jiǎng)得主利用阿爾法折疊預(yù)測(cè)了2億多個(gè)蛋白質(zhì)的可能結(jié)構(gòu),解決了“太陽(yáng)底下最難的科學(xué)問(wèn)題”之一,而且還預(yù)測(cè),10年之內(nèi)AI會(huì)協(xié)助人類攻克各種疾病。
向內(nèi)看中國(guó),AI賦能下的科技創(chuàng)新正全面爆發(fā),尤其是DeepSeek的橫空出世,極大地提升了中國(guó)科技創(chuàng)新的信心和動(dòng)力,使得AI完成了一次全民科普。當(dāng)AI重塑千行百業(yè)之時(shí),人文社會(huì)科學(xué)自然不能例外。
數(shù)字人文拓展諸多新概念
說(shuō)到AI,先要提到數(shù)字人文。計(jì)算機(jī)技術(shù)應(yīng)用于人文社科研究,可以追溯到1949年。當(dāng)時(shí),意大利耶穌會(huì)神父羅伯特·布薩率團(tuán)隊(duì)用IBM計(jì)算機(jī)花費(fèi)了30年左右,到1980年編成了56卷百科全書式的托馬斯著作索引。20世紀(jì)末,美國(guó)的一些研究機(jī)構(gòu)開(kāi)始使用數(shù)字人文,到2024年《數(shù)字人文指南》一書誕生,這個(gè)名稱正式確定。
目前,國(guó)際上的數(shù)字人文機(jī)構(gòu)已有200多家,中國(guó)有70多家數(shù)字人文專門研究機(jī)構(gòu),另有30多家高校機(jī)構(gòu)也積極開(kāi)展數(shù)字人文交叉研究。
從研究角度看,近年來(lái),數(shù)字人文拓展出很多新概念,如數(shù)字文化、數(shù)字史學(xué)、數(shù)字考古學(xué)、計(jì)算哲學(xué)等,此外還包括計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理。計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理萌芽于1940至1950年代,核心問(wèn)題是語(yǔ)言的自動(dòng)理解和生成?;A(chǔ)研究包括算法框架、知識(shí)圖譜;應(yīng)用研究也涵蓋很多種類,其中就包含有古文字信息處理。
谷歌公司2017年推出的Transformer深度學(xué)習(xí)架構(gòu)是算法框架上的突破;2018年推出的預(yù)訓(xùn)練語(yǔ)言模型BERT,在語(yǔ)言理解指標(biāo)上超越人類。另一AI巨頭OpenAI則從2018年起推出GPT系列模型。
在這樣的影響下,中文語(yǔ)言大模型也層出不窮,例如通義千問(wèn)、文心一言、智譜清言、百川等。同時(shí),在垂類領(lǐng)域,還出現(xiàn)了很多古漢語(yǔ)語(yǔ)言模型、民族語(yǔ)言模型及古籍智能平臺(tái)。
技術(shù)影響下的傳統(tǒng)文科
談到數(shù)字人文,也不得不說(shuō)說(shuō)AI與人文社科的關(guān)系。
其實(shí),文學(xué)對(duì)AI的沖擊更為敏感,文學(xué)家在AI面前越來(lái)越顯得無(wú)奈。中文逍遙大模型基于創(chuàng)作者的想法靈感,能夠一鍵生成萬(wàn)字、一張圖寫出一部小說(shuō),它能大幅提升創(chuàng)作者的效率,也具備一次讀懂100萬(wàn)字小說(shuō)的功能。雖然對(duì)文學(xué)創(chuàng)作來(lái)說(shuō),作者的個(gè)性思維是機(jī)器永遠(yuǎn)無(wú)法替代的,但是AI寫作的《機(jī)憶之地》已在第五屆江蘇省青年科普科幻作品大賽評(píng)選中獲得二等獎(jiǎng)——這是人類作家用3個(gè)小時(shí),與AI平臺(tái)前后對(duì)話66次、形成4萬(wàn)多字的稿件后,從中復(fù)制5900多字形成的作品。
再以哲學(xué)為例。中國(guó)工程院院士李德毅2023年在《人工智能看哲學(xué)》一文中提出:“人工智能的飛速發(fā)展正深刻地改變著人類的生產(chǎn)方式、生活方式以及思維方式,沒(méi)有哪門學(xué)科比人工智能更需要和哲學(xué)打交道。”2024年,日本名古屋大學(xué)團(tuán)隊(duì)利用生成式AI開(kāi)發(fā)了一款可以與古希臘哲學(xué)家們進(jìn)行對(duì)話的系統(tǒng)。
在歷史學(xué)研究中,AI也有廣泛應(yīng)用。比如,通過(guò)綜合運(yùn)用數(shù)據(jù)挖掘、指標(biāo)評(píng)價(jià)、可視化分析等技術(shù),研究人員可基于歷代《食貨志》文本研究古代中國(guó)農(nóng)作物的空間分布與集聚性特征;此外,通過(guò)AI制作復(fù)原的數(shù)字人,諸多歷史人物得以“復(fù)活”,從教材中走出來(lái),穿越到現(xiàn)實(shí)之中。
考古學(xué)對(duì)科技進(jìn)展最為敏感,有兩個(gè)案例令人印象深刻。其一是地質(zhì)學(xué)家朱利安·湯普森團(tuán)隊(duì)2016年在學(xué)術(shù)期刊《科學(xué)》上發(fā)表的《公元前1920年的洪水爆發(fā)為中國(guó)傳說(shuō)中的大洪水和夏朝的存在提供依據(jù)》。他通過(guò)建立黃河流域數(shù)字高程模型,在鄭州至開(kāi)封段發(fā)現(xiàn)寬達(dá)30公里的古河道遺跡,證明在公元前1920年的前后20年間存在一場(chǎng)持續(xù)20年以上的超級(jí)洪災(zāi),這正是大禹治水的現(xiàn)實(shí)背景。它不僅印證了《尚書》中“湯湯洪水方割”的記載,更意外觸發(fā)了關(guān)于大禹治水技術(shù)體系的全球大辯論。另一個(gè)案例是2024年2月,谷歌旗下的DeepMind發(fā)布了一個(gè)根據(jù)互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型——Genie(精靈),可從合成圖像、照片、草圖生成多種動(dòng)作可控的環(huán)境。2024年底推出的新一代世界模型Genie2,則可根據(jù)一張圖生成可供人類或AI智能體游玩的無(wú)限3D世界。這在考古發(fā)掘、歷史場(chǎng)景復(fù)原方面,有極為可觀的應(yīng)用前景。
此外,AI在繪畫、音樂(lè)、詩(shī)歌、電影、舞蹈、雕塑等藝術(shù)領(lǐng)域也展現(xiàn)出強(qiáng)大能力。2018年,首件AI生成作品《埃德蒙·貝拉米肖像》就被佳士得以43.25萬(wàn)美元拍出。
AI賦能古文字研究
再看筆者所熟悉的古文字研究領(lǐng)域,雖然我們是傳統(tǒng)得不能再傳統(tǒng)的人文學(xué)科,但近年來(lái)同樣可以看到明顯的AI賦能的進(jìn)展。
近幾年,國(guó)外在古典文字AI破譯方面有很多新的突破。比如,DeepMind與威尼斯大學(xué)人文系、哈佛大學(xué)希臘研究中心、牛津大學(xué)古典學(xué)院和雅典經(jīng)濟(jì)與商業(yè)大學(xué)信息學(xué)系合作,共同推出名為“伊薩卡(Ithaca)”的深度學(xué)習(xí)模型,并將其用于修復(fù)古希臘受損的石碑銘文。另一個(gè)轟動(dòng)學(xué)界的案例是,美國(guó)21歲的年輕科學(xué)家盧克·法里托將AI與超過(guò)陽(yáng)光亮度數(shù)億倍的X射線結(jié)合,由此成功解讀出意大利赫庫(kù)蘭尼姆古城中被火山灰掩埋燒焦的莎草紙卷軸中的第一個(gè)完整單詞“ΟΡΦΥΡΑ□”(意為“紫色”)。隨后,盧克還與其他人合作分析出超過(guò)兩千個(gè)字符,并認(rèn)為這些內(nèi)容與伊壁鳩魯哲學(xué)有關(guān)。
這些案例都給古文字研究者帶來(lái)啟示。1973年河北省定縣(今定州市)八角廊40號(hào)西漢墓中出土的竹簡(jiǎn),由于墓葬被燒,導(dǎo)致竹簡(jiǎn)嚴(yán)重碳化、變形。以往,研究者采取的是通過(guò)紅外照相和物理拉直的辦法來(lái)整理資料并辨別竹簡(jiǎn)上的文字?,F(xiàn)在,我們完全可以借用上述案例中辨別莎草紙的方式來(lái)提高整理質(zhì)量。
據(jù)筆者所知,目前全國(guó)范圍內(nèi),已有十個(gè)院校團(tuán)隊(duì)在從事古文字AI研究與開(kāi)發(fā)工作,除復(fù)旦大學(xué)、清華大學(xué)、南京大學(xué)、華東師范大學(xué)等學(xué)校外,還包括三家河南的高校,因?yàn)楹幽鲜羌坠俏牡墓枢l(xiāng)。
目前已知現(xiàn)存的甲骨片的總數(shù)大約是有16萬(wàn)片,這16萬(wàn)片當(dāng)中有很多都是殘片、碎片。那么,如何把這些碎片拼合到原來(lái)牛骨和龜甲上?必須借助于AI。
清華大學(xué)的李霜潔研發(fā)了人工智能文物拼綴系統(tǒng)“知微綴”,其與復(fù)旦大學(xué)教授蔣玉斌、博士生楊熠等人合作,以AI引導(dǎo)人類直覺(jué)的交互方式,帶動(dòng)研究者高效發(fā)現(xiàn)甲骨新綴,目前已發(fā)現(xiàn)超過(guò)50組甲骨新綴成果。蔣玉斌承擔(dān)的國(guó)家社科基金重大項(xiàng)目“人機(jī)協(xié)同的甲骨分類綴合研究”,目前甲骨綴合成果已超7000組,其中蔣玉斌綴合了500多組,楊熠綴合了400多組,兩人綴合加起來(lái)共900多組,占學(xué)術(shù)界綴合總數(shù)的近七分之一。
古文字與AI的結(jié)合還包括圖像校重、古文字單字識(shí)別、古文字圖像文字識(shí)別、知識(shí)圖譜、多模態(tài)數(shù)據(jù)集等。
當(dāng)然,AI與人文學(xué)科的融合,目前尚處于初步階段,AI生成內(nèi)容在可信度、規(guī)范性上距離高質(zhì)量的人文研究、教育和推廣的需求還有很大差距。另一方面,由于人文學(xué)科專業(yè)領(lǐng)域知識(shí)庫(kù)尚未形成規(guī)模,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,共享、整合的難度較大。加之跨學(xué)科人才培養(yǎng),更是涉及招生、教學(xué)、就業(yè)以及評(píng)價(jià)機(jī)制各方面問(wèn)題,這也帶來(lái)人文研究“AI鴻溝”的凸顯和加劇。
不過(guò),即便如此,我們還是期待更多人文學(xué)者與AI雙向奔赴,共同迎接AI賦能的人文學(xué)科研究的騰飛。
(作者為復(fù)旦大學(xué)文科資深教授,古文字研究中心主任)