當(dāng)古籍修復(fù)遇上人工智能

2022-04-20 11:23:59 光明日報韓業(yè)庭

北京大學(xué)數(shù)字人文研究中心、北京大學(xué)-字節(jié)跳動數(shù)字人文開放實驗室、北京大學(xué)人工智能研究院聯(lián)合主辦的“古籍智能信息處理”系列研討會日前在線上舉辦。

在研討會上，北京大學(xué)數(shù)字人文研究中心主任王軍算了一筆賬：我國現(xiàn)存古籍約有20萬種，從1949年到2019年，共修復(fù)整理出版了近38000種，照此速度，要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要三百年的時間。不過，若利用人工智能技術(shù)輔助修復(fù)整理，大概二三十年就能完成。

王軍所說的“利用人工智能技術(shù)修復(fù)古籍”，并非遙遠的科學(xué)設(shè)想，它正在成為現(xiàn)實中的生動實踐?！肮偶悄苄畔⑻幚怼毕盗醒杏憰谝恢v開講后不久，字節(jié)跳動宣布向北大教育基金會提供捐贈，支持北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室研發(fā)“古籍?dāng)?shù)字化平臺”，利用智能技術(shù)加速中華古籍資源的數(shù)字化建設(shè)，預(yù)計三年內(nèi)完成10000種精選古籍的智能化修復(fù)整理。

古籍文本轉(zhuǎn)化正在智能化

很長一段時間里，古籍保護主要采用原生性保護方式，即把古籍當(dāng)作“文物”保護起來。后來出現(xiàn)再生性保護方式，對古籍進行影印再造和影像保存，讓古籍得以以紙本或縮微膠片的形式存在?，F(xiàn)有的數(shù)字化古籍很多是由縮微膠片轉(zhuǎn)換而成，分辨率較低且影像多為黑白色。

即便將所有古籍用數(shù)字化手段影印出版，古籍也是“死”的，人們無法方便地使用。北京大學(xué)中文系教授楊海崢舉了個簡單的例子——影印的古籍沒有標(biāo)點符號，非常不便于閱讀。另外，這也不利于對古籍內(nèi)容進行檢索，想查閱某個內(nèi)容，得逐篇逐頁閱讀原文，很難快速找到想要的知識。因此，要提升傳統(tǒng)古籍的利用率，必須將古籍內(nèi)容轉(zhuǎn)化為數(shù)字文本。過去，這種轉(zhuǎn)化主要依靠專家人工錄入，時間成本極高。

“信息技術(shù)的發(fā)展，尤其是人工智能和大數(shù)據(jù)技術(shù)的出現(xiàn)，為古籍的修復(fù)整理帶來了革命性變化?！蓖踯娬f，近年來，包括北京大學(xué)在內(nèi)的不少高校、科研機構(gòu)在古籍?dāng)?shù)字化上開展了不少開拓性的工作，在OCR（光學(xué)字符識別）、AI句讀、實體識別等方面積累了比較成熟的技術(shù)和經(jīng)驗。以O(shè)CR應(yīng)用為例，用電子設(shè)備對紙本古籍一掃，古籍上的內(nèi)容就會轉(zhuǎn)錄到計算機中，并生成相應(yīng)的數(shù)字文檔，效率比人工錄入提升了不止千萬倍。

據(jù)了解，利用人工智能和大數(shù)據(jù)技術(shù)，北京大學(xué)數(shù)字人文中心在從先秦到明清跨時代的大規(guī)模古籍文本語料整理上，已實現(xiàn)對古文本的自動句讀，平均準(zhǔn)確率達到94%，同時還實現(xiàn)了對人名、地名、時代名、職官名、書名的自動識別，在中古史料上的準(zhǔn)確率接近98%。

在這些方面，字節(jié)跳動等互聯(lián)網(wǎng)公司也有很多經(jīng)驗和技術(shù)積累。例如，OCR技術(shù)在今日頭條、抖音等平臺的圖片文字識別、字幕翻譯，以及商業(yè)化業(yè)務(wù)中的各類卡證票據(jù)及行業(yè)文檔識別等領(lǐng)域均有廣泛應(yīng)用?！斑@些技術(shù)可以逐漸向古籍智能數(shù)字化的方向上遷移。我們在古籍?dāng)?shù)字化平臺開發(fā)中，與北大在技術(shù)上能優(yōu)勢互補，進行有效的打通與融合?！弊止?jié)跳動人工智能實驗室總監(jiān)李航表示。

王軍介紹，“古籍?dāng)?shù)字化平臺”將會進一步提升古籍整理的準(zhǔn)確率、智能化水平和開放度。一方面，可以對重點文本進行精校，滿足專家學(xué)者對資料準(zhǔn)確度的要求；另一方面，利用智能平臺上的文字識別、校對工具，學(xué)者和古籍愛好者可以在線上一站式完成古籍整理工作，而不用像以前那樣先在word文檔中進行整理編輯，再傳遞相關(guān)的文檔，在提高效率的同時，也方便公眾參與。

古籍利用有望智慧化

四川大學(xué)中國文化全球傳播大數(shù)據(jù)中心教授王兆鵬認為，技術(shù)的進步為古籍修復(fù)整理智能化帶來兩個面向：一是古籍文本轉(zhuǎn)化智能化，二是古籍利用智慧化。

把紙質(zhì)古籍上的內(nèi)容轉(zhuǎn)化成數(shù)字文本，只是古籍修復(fù)整理的第一步。在此基礎(chǔ)上，要解決的另一個問題是，如何將海量晦澀難懂的古籍內(nèi)容進行整理歸類，形成可交互、可觸摸、可視化的數(shù)字人文作品，以方便人們查閱使用。否則，錄入計算機的古籍依然會繼續(xù)“沉睡”。

基于人工智能技術(shù)，目前我國已建立多個古籍整理自動化和可視化平臺。比如，王軍主持設(shè)計和研發(fā)的“《宋元學(xué)案》知識圖譜可視化系統(tǒng)”，對240萬字的《宋元學(xué)案》進行了文本處理和分析，將2000多位宋元理學(xué)學(xué)者、近100個學(xué)術(shù)流派所涉及的人物、時間、地點、著作等提取出來構(gòu)造成知識圖譜。然而，不少平臺的智能化水平仍然較低，比如輸入關(guān)鍵詞，搜索出的內(nèi)容各自孤立、凌亂無序。王兆鵬認為，更智慧的古籍整理利用平臺，應(yīng)該從1.0版向2.0版演進，比如內(nèi)容檢索應(yīng)“以類相從”，檢索出的內(nèi)容應(yīng)彼此關(guān)聯(lián)，且由人工智能進行有機分類。

北京大學(xué)與字節(jié)跳動合作研發(fā)“古籍?dāng)?shù)字化平臺”是提升古籍整理和利用智慧化水平的一次嘗試。“我們合作的技術(shù)核心是將人工智能和大數(shù)據(jù)應(yīng)用在海量的古籍文獻上，實現(xiàn)古文本知識圖譜的自動生成和對古籍內(nèi)容的智能化整理，讓古籍能夠以文本的形態(tài)加以檢索、關(guān)聯(lián)閱讀和深度挖掘利用?！崩詈秸f，未來，“古籍?dāng)?shù)字化平臺”不僅是一個古籍智能整理平臺，還將是一個面向讀者的數(shù)字化閱讀工具，將提供免費開放的訪問服務(wù)。

王軍預(yù)計，隨著人工智能技術(shù)的運用，古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取出來，構(gòu)造成各種各樣的知識庫，并將會以知識圖譜的形式支持互聯(lián)網(wǎng)前端應(yīng)用。

由于在互聯(lián)網(wǎng)產(chǎn)品研發(fā)、設(shè)計方面存在優(yōu)勢，互聯(lián)網(wǎng)公司等社會力量的加入會進一步保障古籍?dāng)?shù)字化平臺的服務(wù)質(zhì)量?！拔覀冇袃?yōu)秀的產(chǎn)品經(jīng)理、設(shè)計師、軟件工程師，能夠不斷優(yōu)化、創(chuàng)新古籍?dāng)?shù)字化平臺的產(chǎn)品功能，提供更好的用戶體驗?！北本┳止?jié)跳動企業(yè)社會責(zé)任部產(chǎn)品總經(jīng)理唐塏鑫表示，目前今日頭條的設(shè)計團隊和抖音的開發(fā)、測試團隊已經(jīng)加入“古籍?dāng)?shù)字化平臺”的開發(fā)工作。

需要跨學(xué)科通力合作

隨著人工智能技術(shù)在古籍修復(fù)整理領(lǐng)域的廣泛應(yīng)用，作為古典文獻專業(yè)的老師，楊海崢經(jīng)常被學(xué)生們問到一個問題：“學(xué)古典文獻的同時，還要學(xué)人工智能嗎？”雖然楊海崢不能確定，但一個事實是，人工智能技術(shù)與古籍修復(fù)整理的結(jié)合，將開辟出全新的交叉學(xué)科領(lǐng)域，利用人工智能技術(shù)修復(fù)整理古籍肯定需要更多復(fù)合型人才。

王軍認為，在這種情況下，高校古典文獻學(xué)等相關(guān)專業(yè)如何培養(yǎng)兼具技術(shù)與學(xué)術(shù)能力的古典文獻學(xué)人才，如何形成多學(xué)科交叉的課程體系等，都是亟待解決的問題。

此外，人工智能并非“絕頂聰明”。在華南理工大學(xué)電子與信息學(xué)院教授金連文看來，古籍圖像增強、修復(fù)，復(fù)雜版式古籍文檔圖像版面分析等問題都有待解決。而在對古籍內(nèi)容的分析整理中，目前最大的技術(shù)難點是人工智能對古籍中人名、地名等專有名詞識別后，如何進一步實現(xiàn)關(guān)系提取，從而為古代歷史文化知識圖譜的自動生成準(zhǔn)備技術(shù)條件。

因此，楊海崢認為，在古籍整理中，人文社科學(xué)者還是要積極介入，并加強與技術(shù)人員的合作，那樣才能更好地利用機器而不是被機器牽著鼻子走，從而保證結(jié)果的準(zhǔn)確性。

人工智能技術(shù)的發(fā)展帶來了古籍整理研究方法、思路的根本改變。業(yè)內(nèi)的一個共識是，利用人工智能推進古籍修復(fù)整理需要進行跨學(xué)科、跨環(huán)境、跨文化、跨地區(qū)合作。正如王軍所言，“古籍保護需要社會各界的共同努力，應(yīng)歡迎更多古籍收藏機構(gòu)、研究機構(gòu)和熱心古籍事業(yè)的個人加入，這樣才能打造出一個開放的‘古籍?dāng)?shù)字化平臺’”。（記者韓業(yè)庭）

作者：韓業(yè)庭

責(zé)編：劉偉

來源：光明日報