《儒藏》整理手稿。
400余名學(xué)者,編纂18年,內(nèi)容近2億字,這是一套近年出版的圖書背后的數(shù)字。
而這只是這套書的“精華編”,真正的全本預(yù)計(jì)約10億字。為此,還需要多少學(xué)者,編纂多少年,卻是未知的。
這套書就是《儒藏》。
《儒藏》將收錄自先秦至清末重要儒學(xué)文獻(xiàn),是新中國成立以來最大規(guī)模地系統(tǒng)整理海內(nèi)外儒學(xué)典籍的一項(xiàng)基礎(chǔ)性文化建設(shè)工程,也是教育部迄今為止支持力度最大的哲學(xué)社會(huì)科學(xué)研究攻關(guān)項(xiàng)目。
為了《儒藏》,一代又一代學(xué)者投身其中,有的從學(xué)生做成專家,有的從中年做到老年,也有的一直做到生命最后一刻。還要做多少年才是盡頭,是很長時(shí)間里大家不敢想象的事情。
但是現(xiàn)在,隨著人工智能和數(shù)字化技術(shù)的迅猛發(fā)展,以往純手工的編纂工作也有了可以依靠的技術(shù)幫助,效率將會(huì)大大提升,《儒藏》編纂也因此迎來轉(zhuǎn)機(jī)。
提到《儒藏》,不得不提北京大學(xué)哲學(xué)系教授湯一介。
歷史上,把相關(guān)典籍收集在一起的文庫稱作“藏”,“儒釋道”三家中已經(jīng)有了《佛藏》和《道藏》,在中國歷史和文化中占據(jù)主流地位的儒家卻沒有相關(guān)文庫。
2002年,75歲的湯一介提出編纂《儒藏》的建議,得到季羨林等老先生的熱情鼓勵(lì)。次年北大成立《儒藏》編纂工作小組,又過了一年北大《儒藏》編纂與研究中心成立,負(fù)責(zé)組織實(shí)施編纂工作,《儒藏》工程正式啟動(dòng),湯一介是中心首任主任。
湯一介教授在《儒藏》編纂工作中。
因?yàn)槿寮业浼畬?shí)在過多,且儒家影響范圍不僅僅在中國,經(jīng)過研究決定《儒藏》工程分兩步實(shí)施,先選取歷史上較有代表性的典籍編為“精華編”,然后再擴(kuò)展為全本《儒藏》。
第一步將我國歷史上的500余種儒學(xué)文獻(xiàn),以及將韓、日、越三國150余種漢文儒學(xué)文獻(xiàn)編纂成冊,共計(jì)約2.3億字;第二步收書規(guī)模將會(huì)大增,初步估計(jì)收書3000余種,共計(jì)約10億字。
是否有必要編這樣一套書,當(dāng)時(shí)很多人提出過質(zhì)疑。事實(shí)上,雖然儒家典籍整理出版非常豐富,但這些典籍并不是經(jīng)過系統(tǒng)整理的大文庫,而且多以影印本的形式出版,不僅普通讀者閱讀困難,專家學(xué)者查找資料也頗為費(fèi)力。
湯一介提到過日本出版的佛藏《大正藏》。雖然中國也有不少佛藏,但大多數(shù)使用者都習(xí)慣使用《大正藏》。為什么呢?因?yàn)椤洞笳亍方?jīng)過現(xiàn)代整理,有斷句(盡管有錯(cuò)誤),有??庇?,便于使用。
有鑒于此,湯一介認(rèn)為《儒藏》的整理應(yīng)采用繁體豎排、現(xiàn)代標(biāo)點(diǎn)加??庇浀男问?,并且要能夠制作成數(shù)字化的電子文本,以便于檢索。為了要做到可以永遠(yuǎn)流傳下去,錯(cuò)誤率要低于萬分之一。
這些都讓《儒藏》編纂從一開始就困難重重。
沙志利是《儒藏》“精華編”責(zé)任編委,現(xiàn)任《儒藏》編纂與研究中心副主任,他2005年從北大中國古典文獻(xiàn)學(xué)博士畢業(yè),正趕上《儒藏》中心需要人手,便來此工作,是《儒藏》中心的第三個(gè)正式工作人員,也是最年輕的編委之一。
據(jù)他介紹,《儒藏》中心與國內(nèi)25家單位合作,有48位部類主編和項(xiàng)目負(fù)責(zé)人,組織了全國近50所高校及研究機(jī)構(gòu)的約400位專家,一起承擔(dān)“精華編”國內(nèi)部分的校點(diǎn)工作,交稿后再由《儒藏》中心把關(guān)。
編纂初期,來稿質(zhì)量參差不齊,很大比例的稿件不符合要求。為了保證質(zhì)量,《儒藏》中心慢慢摸索建立了一套細(xì)致詳實(shí)的多達(dá)十一個(gè)環(huán)節(jié)的流程,并制定了相應(yīng)的制度??杉幢闳绱?,還是有不少來稿需要反復(fù)退改,甚至更換了校點(diǎn)者。這些都大大拖延了工程進(jìn)度。
“一開始湯先生定五年編完,后來定十年編完,我們這些剛工作的更是想象不到要多久?!鄙持纠貞?。
那時(shí)他作為畢業(yè)生能進(jìn)入北大工作,滿懷壯志,可是沒想到在《儒藏》中心的工作十分枯燥。多年來,他的工作常態(tài)是面前一臺(tái)電腦,電腦里打開幾個(gè)古籍?dāng)?shù)據(jù)庫,成堆的稿子在桌子放不下就放地上,最后幾年竟堆得比人還高。他在那埋頭干,累了就揉揉眼睛,跑到樓下抽一根煙,再回來繼續(xù)干。
“年輕時(shí)候還是有點(diǎn)學(xué)術(shù)追求的”,但《儒藏》的編纂似乎沒有盡頭。每年報(bào)成果“是最失落的時(shí)候”,平均每年就發(fā)表一篇論文,想來想去報(bào)的都是成編纂成果。而古籍整理在現(xiàn)有的科研評價(jià)系統(tǒng)中得分很低,早年甚至不算分,編書不如寫論文。他懷疑,“自己是不是要一輩子做這個(gè)”?
“精華編”中國部分確定的書目有282冊,但直到2009年只出版了40冊,讓沙志利感覺“想緩口氣都不行”。后來他們開始制定五年計(jì)劃,2009年到2014年又出了60冊,總數(shù)量到了100冊,而且相關(guān)部門也加大了支持力度,才看到盼頭。
2014年6月,“《儒藏》精華編百冊發(fā)布會(huì)”在北京大學(xué)舉行,這是湯一介最后一次公開露面。他已經(jīng)病重,遵醫(yī)囑不能多講話,但仍然在發(fā)言中說:“我想,只要我活著一天,我就愿意為這個(gè)工程來盡我的力?!?/p>
同年9月,湯一介因病去世。
此后的日子里,《儒藏》中心依然努力進(jìn)行之前的工作。2022年7月,《儒藏》“精華編”中國部分終于完成出版。
已出版的《儒藏》“精華編”。
書籍出版后收獲了學(xué)界的廣泛好評,學(xué)界對書的質(zhì)量普遍給予好評,這讓沙志利感覺到了自己多年工作的價(jià)值。不久前,同事向他轉(zhuǎn)達(dá)一個(gè)漢學(xué)家的致敬,因?yàn)檫@位漢學(xué)家看到了《儒藏》里他署名校點(diǎn)的王艮全集,說整理得很好。
“那個(gè)話很難用來評學(xué)術(shù)成果,但是我很感動(dòng),我確實(shí)是下了很大的功夫去做這件事情,別人在用的時(shí)候會(huì)感覺到這個(gè)版本比已有的好,這時(shí)候作為校點(diǎn)者本人是很幸福的。”
目前,沙志利依然是《儒藏》中心最年輕的編委之一,老先生們還叫他“小沙”,可是他已經(jīng)47歲了。
面對體量更大的全本如何提高編纂效率,內(nèi)部討論過很多次。一位參與“精華編”的專家表示,全本編纂時(shí)一定要使用新技術(shù),“人工點(diǎn)校的方式,一遍一遍地來做校對,費(fèi)時(shí)費(fèi)力,這些基礎(chǔ)工作都要人手來做的話,那需要多少年?”
《儒藏》“精華編”執(zhí)行總編纂、北大哲學(xué)系教授魏常海在編纂“精華編”時(shí)就隱隱覺得,數(shù)字化勢在必行。
據(jù)他回憶,以前編纂是三方不同時(shí)間段的工作,必須是校點(diǎn)人先交稿,《儒藏》中心才能審稿,修改完成才能交給出版社,出版社錄入電腦后還要再發(fā)給編委審稿,最后校點(diǎn)者和編委都確認(rèn)無誤才出版。每一次交接都需要寄送,要等前一步做完了才能開始下一步。他曾設(shè)想,如果校點(diǎn)人直接提交電子文稿,就會(huì)省去后期再錄入電腦后還有重新檢查一遍的環(huán)節(jié)。
不僅如此,《儒藏》中心原本有一位研究員楊浩,是學(xué)哲學(xué)的,近年對運(yùn)用計(jì)算機(jī)整理古籍的感興趣,后來去了北大數(shù)字人文研究中心,參與開發(fā)了“識(shí)典古籍”。沙志利開玩笑,楊浩還是以“曲線救國”的方式又回來整理《儒藏》了。
2023年,全本《儒藏》啟動(dòng)大會(huì)上,北大數(shù)字人文研究中心主任王軍教授發(fā)言,希望結(jié)合現(xiàn)有的古文獻(xiàn)數(shù)據(jù)庫,從智能編纂平臺(tái)、數(shù)據(jù)庫發(fā)布平臺(tái)等方面,推進(jìn)全本《儒藏》數(shù)字化工程。
王軍的信心來自2022年,字節(jié)跳動(dòng)集團(tuán)與北京大學(xué)合作研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”上線了。
在“識(shí)典古籍”上線的《永樂大典高清影像數(shù)據(jù)庫》
“識(shí)典古籍”平臺(tái)源于字節(jié)跳動(dòng)在古籍保護(hù)領(lǐng)域的公益嘗試,結(jié)合了字節(jié)跳動(dòng)的人工智能技術(shù)優(yōu)勢、產(chǎn)品研發(fā)能力及北京大學(xué)數(shù)字人文研究中心的學(xué)術(shù)能力,是一個(gè)免費(fèi)開放的古籍資源平臺(tái)。
除了可以閱讀,“識(shí)典古籍”還開放了整理平臺(tái),有古籍整理需求的個(gè)人和機(jī)構(gòu),可以借助自動(dòng)古籍文字識(shí)別(OCR)、自動(dòng)標(biāo)點(diǎn)、自動(dòng)命名實(shí)體識(shí)別、自動(dòng)文言文-白話文翻譯等人工智能工具,以及配套的協(xié)作校對工具更高效地整理古籍。
據(jù)“識(shí)典古籍”的工作人員介紹,經(jīng)過兩年多的發(fā)展,智能整理已經(jīng)更加成熟,《儒藏》數(shù)字化整理的很多工作,都可以在人工智能技術(shù)的輔助下被解決和提效?!度宀亍返膶<覍⑾嚓P(guān)文獻(xiàn)的影像上傳平臺(tái)后,人工智能會(huì)進(jìn)行初步整理,當(dāng)遇到不確定的情況時(shí)會(huì)被標(biāo)注出來,并放上底本供專家檢查。這樣,專家不再需要花太多的精力在機(jī)械枯燥的對比異同上,可以把精力更好地集中在一些關(guān)鍵的內(nèi)容部位和環(huán)節(jié)上,做好更有深度的學(xué)術(shù)判斷,這將大大減少傳統(tǒng)模式下校點(diǎn)人花費(fèi)的精力,還能節(jié)省時(shí)間。
同時(shí),“識(shí)典古籍”還開發(fā)了協(xié)作整理的功能,支持以團(tuán)隊(duì)的形式開展工作,將大大節(jié)省因?yàn)闀r(shí)空展開而帶來的溝通成本。在“識(shí)典古籍”上,參與編纂工作的各方能在同一時(shí)間看到對方的進(jìn)度,完全不需要花費(fèi)交接時(shí)間,而且還能把書打散,以更小的單位進(jìn)行不同環(huán)節(jié)的輪流加工,壓縮了不少等待的時(shí)間。
12月9日下午,《儒藏》數(shù)字化項(xiàng)目啟動(dòng)儀式在北大舉行。
《儒藏》數(shù)字化項(xiàng)目啟動(dòng)儀式
北京字節(jié)跳動(dòng)公益基金會(huì)向北大教育基金會(huì)捐贈(zèng)2500萬元,用于資助北京大學(xué)《儒藏》工程,并通過識(shí)典古籍智能整理平臺(tái)支持《儒藏》整理,相關(guān)成果將在“識(shí)典古籍”上線。
北京字節(jié)跳動(dòng)公益基金會(huì)理事長張羽表示,“未來《儒藏》的相關(guān)成果也將陸續(xù)在‘識(shí)典古籍’閱讀端上線,實(shí)現(xiàn)全民共享,讓中國傳統(tǒng)文化、儒家文化,能夠被更多人以更方便的方式去檢索和閱讀?!?/p>
這背后是從2021年6月起,字節(jié)跳動(dòng)就通過公益捐贈(zèng)助力古籍修復(fù),并持續(xù)投入技術(shù)、平臺(tái)資源來開展古籍?dāng)?shù)字化與活化,讓更多古籍能夠得到更及時(shí)的修復(fù),也讓古籍里的知識(shí)能夠被更高效地檢索、利用和傳播。截至目前,“識(shí)典古籍”已上線開放一萬余部古籍。
《儒藏》“精華編”執(zhí)行總編纂魏常海表示,“我們做《儒藏》的人只有一個(gè)想法,就是把它編出來,能夠發(fā)布出去,讓全中國、全世界的人都能看到,都能把它用起來,而這個(gè)意愿的實(shí)現(xiàn)就是靠‘識(shí)典古籍’平臺(tái)。”
也許這就是幾代人編纂《儒藏》的意義。
正如湯一介生前常對身邊人說的,“中華文明之所以沒有中斷,就是因?yàn)橛薪?jīng)典存世。編纂《儒藏》,關(guān)系到中國人的文化自強(qiáng)、文化自信。將中華文化發(fā)揚(yáng)光大,是知識(shí)分子應(yīng)有的對國家、民族的擔(dān)當(dāng)與職責(zé)?!?/p>