【求索】
作者:錢玉趾(四川省科學(xué)技術(shù)協(xié)會(huì)高級(jí)工程師);陳星蒙(四川省科普作家協(xié)會(huì)會(huì)員)
當(dāng)今世界,人工智能研究方興未艾,而機(jī)器翻譯被學(xué)術(shù)界視為人工智能研究皇冠上最耀眼的一顆明珠。作為我國(guó)計(jì)算語(yǔ)言學(xué)的開拓者之一,世界上第一個(gè)“漢語(yǔ)到多種外語(yǔ)機(jī)器翻譯系統(tǒng)”的研制者馮志偉,今年已經(jīng)82歲高齡了,仍然活躍在機(jī)器翻譯領(lǐng)域。
兩個(gè)多月前,他又走上清華大學(xué)的講臺(tái),以“機(jī)器翻譯和它的四個(gè)類型”為題發(fā)表演講?;谝?guī)則的機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯、統(tǒng)計(jì)機(jī)器翻譯、神經(jīng)機(jī)器翻譯各有什么特點(diǎn),難點(diǎn)在哪,前景如何,馮志偉娓娓道來(lái)。他告誡年輕學(xué)者,不要過(guò)分迷信目前廣為流行的基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法,不要輕易忽視目前受到冷落的基于語(yǔ)言規(guī)則的理性主義方法,而是要努力綜合運(yùn)用兩種方法,把機(jī)器翻譯研究推向深入。
學(xué)人小傳
馮志偉,1939年生于昆明。1957年考入北京大學(xué)地球化學(xué)專業(yè),1967年從語(yǔ)言學(xué)專業(yè)研究生畢業(yè),后到天津、昆明的中學(xué)任教。1978年考入中國(guó)科技大學(xué)研究生院,公派至法國(guó)留學(xué),學(xué)習(xí)數(shù)理語(yǔ)言學(xué)和機(jī)器翻譯?;貒?guó)后到中國(guó)科技信息研究所工作,后調(diào)入國(guó)家語(yǔ)委語(yǔ)言文字應(yīng)用研究所(現(xiàn)屬教育部)任計(jì)算語(yǔ)言學(xué)研究室主任、研究員。研制了世界上第一個(gè)從漢語(yǔ)到多種外語(yǔ)的機(jī)器翻譯系統(tǒng)、世界上第一個(gè)中文術(shù)語(yǔ)數(shù)據(jù)庫(kù)。曾獲得奧地利維斯特獎(jiǎng)、中國(guó)計(jì)算機(jī)學(xué)會(huì)NLPCC杰出貢獻(xiàn)獎(jiǎng)。用中外文出版《現(xiàn)代術(shù)語(yǔ)學(xué)引論》《自然語(yǔ)言計(jì)算機(jī)形式分析的理論與方法》《自然語(yǔ)言處理綜論》等著作及譯著40多部。
從昆明到北大
1939年4月,馮志偉生于云南昆明一個(gè)貧困家庭。他的稚幼歲月是在跑警報(bào)躲轟炸的戰(zhàn)火中度過(guò)的。
1944年11月24日,防空警報(bào)驟響,只有5歲零7個(gè)月的馮志偉和母親一起跑向城外,慌忙奔跑的人群把這對(duì)母子沖散了。這是日軍對(duì)昆明的第140次轟炸,投彈100多枚。天黑盡了,馮志偉還沒有回家。第二天,父母在城里城外窮找了一天,也不見他的影子。母親哭得死去活來(lái),以為寶貝兒子被炸成了碎片。直到黃昏時(shí)分,馮志偉竟自己摸進(jìn)了家門。原來(lái),他在轟炸聲中跳進(jìn)了稻田里一個(gè)大炸彈坑。緊接著,近旁炸彈爆炸的泥土覆蓋住他的全身,他休克了將近一夜,直到天亮才醒來(lái)。馮志偉掙扎著爬出炸彈坑,隨后又昏倒在田埂邊。一位好心的農(nóng)民發(fā)現(xiàn)了他,把他抱回家洗浴、喂飯,直至傍晚,把他送上回家的大路。
1946年7月15日,7歲的馮志偉跟著舅舅到云南大學(xué)至公堂參加李公樸先生追悼會(huì),一位長(zhǎng)者正在那里慷慨激昂地演講:“人民的力量是要?jiǎng)倮?,真理是永遠(yuǎn)存在的……反動(dòng)派,你看見一個(gè)人倒下去,可也看得見千百個(gè)人繼起的……我們不怕死,我們有犧牲的精神!我們隨時(shí)像李先生一樣,前腳跨出大門,后腳就不準(zhǔn)備再跨進(jìn)大門!”此人就是聞一多。當(dāng)天下午,聞一多在回家途中遭國(guó)民黨特務(wù)伏擊,中彈犧牲。這場(chǎng)演講給馮志偉留下了深刻印象,對(duì)聞一多先生的崇敬之情一直伴隨著他。長(zhǎng)大之后他才知道,舅舅是中共地下黨員。
馮志偉著《自然語(yǔ)言計(jì)算機(jī)形式分析的理論與方法》
1957年,馮志偉以優(yōu)異成績(jī)考取了北京大學(xué)地球化學(xué)專業(yè)。昆明一中的校長(zhǎng)和老師都無(wú)比高興,表?yè)P(yáng)他為學(xué)校爭(zhēng)了光??苫氐郊?,父親卻不同意馮志偉到北京大學(xué)讀書,要他先工作養(yǎng)活自己,然后再多掙點(diǎn)錢補(bǔ)貼家用。父親那時(shí)是昆明市蔬菜公司的會(huì)計(jì),要用自己微薄的工資養(yǎng)活家中的7個(gè)孩子。這樣的安排,也是無(wú)奈之舉。
母親一聽,斷定這將會(huì)毀了聰明兒子的前途,和父親吵了起來(lái)。第二天一早,母親帶著馮志偉到左鄰右舍、親戚朋友家化緣、借貸,終于湊齊了從昆明到北京的路費(fèi)。
從理科到文科
從云南邊疆進(jìn)入北京大學(xué),馮志偉深知這個(gè)機(jī)會(huì)來(lái)之不易,學(xué)習(xí)非??炭?。課余時(shí)間,他喜歡鉆進(jìn)北大圖書館,探尋學(xué)術(shù)前沿。有一次,他在外文圖書室看到了美國(guó)語(yǔ)言學(xué)家喬姆斯基的論文《語(yǔ)言描寫的三個(gè)模型》。這是一篇語(yǔ)言學(xué)論文,卻發(fā)表在自然科學(xué)的信息論雜志上,馮志偉感到特別好奇,懷著極大的興趣通讀了全文,認(rèn)識(shí)到這是喬氏應(yīng)用數(shù)學(xué)中的“馬爾科夫鏈”來(lái)描述自然語(yǔ)言的生成過(guò)程,為語(yǔ)言建立了一套獨(dú)特的數(shù)學(xué)模型。
馮志偉下定決心要學(xué)習(xí)這種嶄新的語(yǔ)言學(xué)理論,于是向?qū)W校提出申請(qǐng),要求轉(zhuǎn)到中文系語(yǔ)言學(xué)專業(yè)學(xué)習(xí)。校方認(rèn)為,這種從理科到文科的跨專業(yè)轉(zhuǎn)系沒有先例,因此未予批準(zhǔn)。此后近一年,馮志偉一而再、再而三地向?qū)W校懇求,最終如愿,但條件是從理科二年級(jí)轉(zhuǎn)到文科一年級(jí),從頭學(xué)起。父親盼著他早日畢業(yè)掙錢養(yǎng)家,他卻從理科轉(zhuǎn)到文科,白學(xué)了兩年,父親氣得直罵:“愚蠢!”
馮志偉由此開始了跨學(xué)科的學(xué)術(shù)研究。轉(zhuǎn)入語(yǔ)言學(xué)專業(yè)一年之后,這個(gè)“愚蠢”的兒子寫出論文《“語(yǔ)法”定名勝于“文法”》,刊于《中國(guó)語(yǔ)文》1961年第2期?!吨袊?guó)語(yǔ)文》是語(yǔ)言學(xué)界的頂級(jí)刊物,大學(xué)二年級(jí)的學(xué)生在這樣的刊物上發(fā)表文章,實(shí)屬罕見。
馮志偉在國(guó)際會(huì)議上與外國(guó)專家討論。
1960年11月,《文匯報(bào)》刊發(fā)了陳望道、吳文祺、鄧明以撰寫的文章《“文法”“語(yǔ)法”名義的演變和我們對(duì)文法學(xué)科定名的建議》,12月又登載了傅東華的文章《“文法”定名優(yōu)勝于“語(yǔ)法”》。馮志偉讀了這兩篇文章,認(rèn)為學(xué)術(shù)界已經(jīng)使用“語(yǔ)法”多年,語(yǔ)法定名勝于文法。雙方的意見針鋒相對(duì),于是引起了一場(chǎng)學(xué)術(shù)爭(zhēng)論。這場(chǎng)學(xué)術(shù)爭(zhēng)論的結(jié)果,“語(yǔ)法”的定名取代了“文法”。馮志偉的名字在北京、上海傳開了,可是許多人不知道他只是一個(gè)大學(xué)二年級(jí)的學(xué)生。
1964年,馮志偉考取了北大研究生,師從岑麒祥教授學(xué)習(xí)現(xiàn)代語(yǔ)言學(xué)流派的理論。他仍然迷戀數(shù)學(xué)與語(yǔ)言學(xué)的跨學(xué)科研究,把畢業(yè)論文題目定為《數(shù)學(xué)方法在語(yǔ)言學(xué)中的應(yīng)用》。岑麒祥教授認(rèn)為,這個(gè)題目偏到理科方面去了,不像傳統(tǒng)的語(yǔ)言學(xué)研究,未予批準(zhǔn)。馮志偉向王力教授匯報(bào)了自己的想法,王力教授主張中文系的人也要學(xué)習(xí)數(shù)理化,認(rèn)為用數(shù)學(xué)方法進(jìn)行語(yǔ)言學(xué)研究有道理,可以大膽嘗試。睿智而豁達(dá)的岑麒祥教授改變了想法,同意了馮志偉的選題。
于是馮志偉精心撰寫這篇論文,順利完成,準(zhǔn)備答辯了。可是,1966年5月“文革”開始,答辯無(wú)法進(jìn)行。馮志偉等待又等待,最后還是不能答辯,到1967年8月下旬,他領(lǐng)到了北京大學(xué)研究生畢業(yè)證書,被分配到天津唐口三中教英語(yǔ)。
手工計(jì)算漢字的熵
在天津教了三年英語(yǔ),1970年8月,馮志偉調(diào)至昆明五中當(dāng)物理教師,他的語(yǔ)言學(xué)專業(yè)已經(jīng)沒有用武之地了。但是,他沒有放棄跨學(xué)科研究,經(jīng)常到云南省科技情報(bào)研究所和云南省圖書館,閱讀外文書刊,密切跟蹤國(guó)際數(shù)理語(yǔ)言學(xué)研究進(jìn)展,利用業(yè)余時(shí)間寫成長(zhǎng)篇論文《數(shù)理語(yǔ)言學(xué)簡(jiǎn)介》,發(fā)表在1975年第4期的《計(jì)算機(jī)應(yīng)用與應(yīng)用數(shù)學(xué)》雜志上。這篇文章猶如空谷足音,使人們認(rèn)識(shí)到,在極其艱苦的條件下,仍然有人繼續(xù)進(jìn)行著跨學(xué)科的探索。
那段時(shí)間,馮志偉還研究了漢字的“熵”。熵是物理學(xué)術(shù)語(yǔ),用于量度某些物質(zhì)系統(tǒng)的狀態(tài),英語(yǔ)字母所含信息量的大小也可用“熵”來(lái)表示。信息論的奠基人香農(nóng)使用手工查頻的方法,統(tǒng)計(jì)出英語(yǔ)26個(gè)字母在文本中出現(xiàn)的頻度,經(jīng)過(guò)復(fù)雜計(jì)算,確定英語(yǔ)字母的熵為4.03比特,奠定了信息論的理論基礎(chǔ)。
香農(nóng)又提出了“編碼定理”,他指出:在編碼時(shí),碼字的平均長(zhǎng)度不能小于字符的熵。英語(yǔ)字母采用單字節(jié)編碼,碼字的長(zhǎng)度是1個(gè)字節(jié),相當(dāng)于8比特,大于英語(yǔ)字母的熵,符合香農(nóng)的“編碼定理”。因此,采用單字節(jié)來(lái)給英語(yǔ)字母編碼,是符合數(shù)學(xué)原理的。
20世紀(jì)70年代,國(guó)外已經(jīng)廣泛使用計(jì)算機(jī)了。馮志偉想,中國(guó)人將來(lái)也要使用計(jì)算機(jī),那時(shí),就必須要給漢字編碼,使得漢字也可以在計(jì)算機(jī)上自由地輸入、輸出、傳輸。但是,漢字究竟要使用多少字節(jié)來(lái)編碼呢?根據(jù)香農(nóng)“編碼定理”,要給漢字編碼,首先就要計(jì)算漢字的熵,這是馮志偉最為關(guān)心的問(wèn)題。他想,如果漢字的熵大于8比特,那就不能采用單字節(jié)編碼了,我們就必須另辟蹊徑,研制新的編碼方式。漢字?jǐn)?shù)量龐大、筆畫繁多,漢字熵的計(jì)算特別艱難。首先要進(jìn)行字頻統(tǒng)計(jì),然后再計(jì)算漢字的熵。馮志偉動(dòng)員岳父和10位朋友一起工作,沒有計(jì)算機(jī),主要使用計(jì)算尺和算盤來(lái)手工計(jì)算。馮志偉岳父在云南省糧食廳工作,算盤打得非常熟,他打算盤,配合馮志偉拉計(jì)算尺進(jìn)行計(jì)算。最后,馮志偉根據(jù)手工統(tǒng)計(jì)得出的1萬(wàn)多個(gè)漢字的頻度,經(jīng)過(guò)精心計(jì)算,確定漢字的熵值為9.65比特。這樣,漢字只好采用雙字節(jié)(2字節(jié)=16比特)來(lái)編碼了。馮志偉的這項(xiàng)工作,為20世紀(jì)80年代漢字的雙字節(jié)編碼提供了可靠的理論基礎(chǔ)。
馮志偉始終認(rèn)為,9.65比特只是一個(gè)估測(cè)出的漢字熵值,還需要采用更加精密的手段進(jìn)行檢驗(yàn)。20世紀(jì)80年代,北京航空學(xué)院計(jì)算機(jī)系教授劉源使用計(jì)算機(jī)統(tǒng)計(jì)了漢字的頻度,并計(jì)算出漢字的熵為9.71比特,與馮志偉通過(guò)手工計(jì)算估測(cè)的結(jié)果相差不大。
1978年春,全國(guó)科學(xué)大會(huì)召開了,在“尊重知識(shí)、尊重人才”的口號(hào)聲中,北京大學(xué)開始行動(dòng),希望把遠(yuǎn)在昆明的馮志偉調(diào)入北大,而馮志偉在昆明五中教學(xué)成績(jī)優(yōu)秀,學(xué)校舍不得放他走,調(diào)動(dòng)沒有成功。
其時(shí),中國(guó)科技大學(xué)研究生院正式在北京成立,開始招生,馮志偉抓住這個(gè)機(jī)會(huì),經(jīng)過(guò)認(rèn)真準(zhǔn)備,一舉考中,昆明五中只好放他走了。1978年國(guó)慶節(jié)之后,這個(gè)39歲的壯漢又變成了學(xué)生,背著書包從昆明到北京去上學(xué)。
闖進(jìn)機(jī)器翻譯的迷宮
那一年,中國(guó)科大研究生院錄取新生1015名,決定選派其中的150名公費(fèi)出國(guó)留學(xué),馮志偉就是其中一員。
1978年12月20日,馮志偉乘飛機(jī)到達(dá)法國(guó)巴黎,在中國(guó)駐法大使館報(bào)到之后,先到維希的“嘉文瀾”語(yǔ)言學(xué)院進(jìn)修法語(yǔ)。1979年3月1日,馮志偉乘火車從維希抵達(dá)格勒諾布爾。一下火車,他就看到格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所“自動(dòng)翻譯中心”主任沃古瓦(Vauquois)教授親自來(lái)火車站迎接。沃古瓦是數(shù)學(xué)家、天文學(xué)家、計(jì)算機(jī)科學(xué)和計(jì)算語(yǔ)言學(xué)家,又是國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)議(COLING)的主席,他曾帶領(lǐng)自動(dòng)翻譯中心研制了俄-法機(jī)器翻譯系統(tǒng),達(dá)到國(guó)際領(lǐng)先水平。
馮志偉在沃古瓦的悉心指導(dǎo)下,闖進(jìn)機(jī)器翻譯的迷宮,環(huán)顧細(xì)查,借鑒創(chuàng)新。他掌握了最新的計(jì)算機(jī)編程技術(shù),學(xué)會(huì)了使用當(dāng)時(shí)最先進(jìn)的IBM4341大型計(jì)算機(jī),開始研制“漢語(yǔ)-法語(yǔ)機(jī)器翻譯系統(tǒng)”。
在機(jī)器翻譯的研究中,馮志偉提出了多叉多標(biāo)記樹形圖模型(Multiple-branched?Multiple-labeled?Tree?Model,MMT模型),用多叉樹來(lái)改進(jìn)直接成分分析法的二叉樹,首先對(duì)源語(yǔ)言的字符串進(jìn)行形態(tài)分析,把線性字符串轉(zhuǎn)換成有層次的多叉樹來(lái)表示源語(yǔ)言的句法語(yǔ)義特征,然后進(jìn)行源語(yǔ)言多叉樹到目標(biāo)語(yǔ)言多叉樹的轉(zhuǎn)換,最后把目標(biāo)語(yǔ)言多叉樹轉(zhuǎn)換為目標(biāo)語(yǔ)言的字符串作為譯文輸出。對(duì)于多叉樹中每一個(gè)節(jié)點(diǎn)上的信息,他還使用多標(biāo)記來(lái)改進(jìn)傳統(tǒng)的單一標(biāo)記,精心設(shè)計(jì)了一套復(fù)雜特征集(complex?feature?set)來(lái)描寫語(yǔ)言的形態(tài)、句法、語(yǔ)義特征,并編制了計(jì)算機(jī)可讀的形式化語(yǔ)法規(guī)則和機(jī)器詞典。
為了完成這項(xiàng)艱巨工程,他給自己規(guī)定了“887自律規(guī)則”:每天8點(diǎn)上班,晚上8點(diǎn)下班,一周7天工作?!皾h-法系統(tǒng)”試驗(yàn)成功之后,他又進(jìn)一步研究“漢-法、英、日、俄、德”多語(yǔ)種翻譯系統(tǒng)。歷經(jīng)冬去春來(lái)三個(gè)輪回,至1981年11月4日,這個(gè)系統(tǒng)終于研制成功。他在計(jì)算機(jī)上輸入漢語(yǔ),計(jì)算機(jī)立即自動(dòng)將其翻譯成五種語(yǔ)言。這是世界上第一個(gè)從漢語(yǔ)到多種外語(yǔ)的機(jī)器翻譯系統(tǒng)。研究工作結(jié)束,馮志偉立即回到北京,并把他的研究成果寫成了《自然語(yǔ)言機(jī)器翻譯新論》在語(yǔ)文出版社出版。
從軟件工程師到計(jì)算語(yǔ)言學(xué)家
從法國(guó)回國(guó)后,馮志偉被分配到中國(guó)科學(xué)技術(shù)信息研究所計(jì)算中心擔(dān)任軟件工程師。1982年,他去布拉格出席了國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)議,介紹了他研究的多叉多標(biāo)記樹形圖模型和“漢—法、英、日、俄、德”多語(yǔ)種翻譯系統(tǒng),他是第一個(gè)參加這個(gè)會(huì)議的中國(guó)學(xué)者。
1985年,馮志偉的老朋友,時(shí)任國(guó)家語(yǔ)委副主任、語(yǔ)言文字應(yīng)用研究所所長(zhǎng)陳章太登門拜訪。陳章太告訴馮志偉,語(yǔ)文現(xiàn)代化就是要在語(yǔ)言研究中鳥槍換炮,不是換舊時(shí)的加農(nóng)炮,而是要換最先進(jìn)的火箭炮,“我們國(guó)家語(yǔ)委要搞鳥槍換炮,在語(yǔ)言文字應(yīng)用研究所設(shè)置了一個(gè)機(jī)構(gòu),叫作計(jì)算語(yǔ)言學(xué)研究室?!标愓绿MT志偉重啟舊業(yè),回到語(yǔ)言學(xué)隊(duì)伍,擔(dān)任語(yǔ)言文字應(yīng)用研究所計(jì)算語(yǔ)言學(xué)研究室的負(fù)責(zé)人,這是他此行的主要目的。
馮志偉知道,語(yǔ)言文字應(yīng)用研究所是一個(gè)文科單位,資金支持和計(jì)算機(jī)設(shè)備都比中國(guó)科技信息研究所差得多,到那里肯定很難開展像現(xiàn)單位這樣的高水平研究,親戚、朋友、計(jì)算機(jī)界的老同學(xué)也都對(duì)調(diào)動(dòng)持反對(duì)態(tài)度。但馮志偉被陳章太的誠(chéng)意感動(dòng)了,更重要的是,他心里還牽掛著語(yǔ)言學(xué)。幾經(jīng)考慮,他想,自己在北京大學(xué)學(xué)習(xí)過(guò)多年的語(yǔ)言學(xué),回到語(yǔ)言學(xué)界應(yīng)該能夠?yàn)閲?guó)家做一些有意義的事情,就點(diǎn)頭應(yīng)允了。
不久之后,馮志偉調(diào)入了語(yǔ)言文字應(yīng)用研究所,擔(dān)任計(jì)算語(yǔ)言學(xué)研究室主任,同時(shí)在中國(guó)科學(xué)院軟件研究所擔(dān)任兼職研究員。同年9月,馮志偉被中科院軟件所派往德國(guó)斯圖加特的夫瑯禾費(fèi)研究院與德方合作,從事術(shù)語(yǔ)數(shù)據(jù)庫(kù)的研究,研制成世界上第一個(gè)中文術(shù)語(yǔ)數(shù)據(jù)庫(kù)GLOT-C。術(shù)語(yǔ)是科學(xué)知識(shí)在自然語(yǔ)言中的結(jié)晶,術(shù)語(yǔ)學(xué)是馮志偉從事語(yǔ)言跨學(xué)科研究的一個(gè)重要領(lǐng)域。根據(jù)術(shù)語(yǔ)數(shù)據(jù)庫(kù)的研究成果,馮志偉撰寫成《現(xiàn)代術(shù)語(yǔ)學(xué)引論》,受到國(guó)內(nèi)外學(xué)術(shù)界的高度評(píng)價(jià)。2008年6月,聯(lián)合國(guó)教科文組織奧地利委員會(huì)和國(guó)際術(shù)語(yǔ)信息中心給馮志偉頒發(fā)了維斯特獎(jiǎng),表彰他在術(shù)語(yǔ)學(xué)研究中作出的突出貢獻(xiàn)。
1998年5月退休后,馮志偉仍然馬不停蹄,退而不休。2001年他應(yīng)聘到韓國(guó)科學(xué)技術(shù)院計(jì)算機(jī)科學(xué)與電子工程系擔(dān)任客座教授,用英語(yǔ)為博士生講授“自然語(yǔ)言處理”的高級(jí)課程。在備課中,馮志偉發(fā)現(xiàn)英文版的《語(yǔ)音和語(yǔ)言處理——自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)和語(yǔ)音識(shí)別導(dǎo)論》覆蓋面廣,理論分析深入,是一本很優(yōu)秀的自然語(yǔ)言處理的教材,決定把此書翻譯成中文。他白天講課,晚上加班翻譯到深夜,連續(xù)工作了11個(gè)月,當(dāng)翻譯完14章的時(shí)候,他患了眼病,難于繼續(xù)翻譯,中國(guó)科學(xué)院軟件研究所研究員孫樂把剩下的7章翻譯成中文,幫助他邁過(guò)難關(guān)。2005年,全書翻譯大功告成,由電子工業(yè)出版社以《自然語(yǔ)言處理綜論》的書名出版。2018年,他們又合作翻譯出版了此書的第二版。
我國(guó)制定的漢語(yǔ)拼音方案,已經(jīng)在1982年成為全世界用羅馬字母拼寫漢字的國(guó)際標(biāo)準(zhǔn),標(biāo)準(zhǔn)編號(hào)是ISO-7098。進(jìn)入信息時(shí)代之后,在信息和文獻(xiàn)工作中,這個(gè)標(biāo)準(zhǔn)已難以適應(yīng)信息社會(huì)發(fā)展的需要,在2011年5月,國(guó)家教育部派遣馮志偉參加國(guó)際標(biāo)準(zhǔn)化組織第46技術(shù)委員會(huì)的會(huì)議,修訂這個(gè)國(guó)際標(biāo)準(zhǔn)。修訂一個(gè)國(guó)際標(biāo)準(zhǔn)需要通過(guò)5個(gè)步驟:工作草案階段、委員會(huì)草案階段、國(guó)際標(biāo)準(zhǔn)草案階段、最終國(guó)際標(biāo)準(zhǔn)草案階段、國(guó)際標(biāo)準(zhǔn)階段。已是古稀之年的馮志偉被國(guó)際標(biāo)準(zhǔn)化組織任命為這個(gè)國(guó)際標(biāo)準(zhǔn)的國(guó)際工作組組長(zhǎng),先后奔波于悉尼、柏林、巴黎、華盛頓等城市,用英文起草了新的國(guó)際標(biāo)準(zhǔn),在修訂的過(guò)程中,在國(guó)際會(huì)議的會(huì)場(chǎng)和會(huì)外與各國(guó)代表的交流中,馮志偉熟練運(yùn)用多種外語(yǔ),積極有效地與會(huì)議主辦機(jī)構(gòu)、與會(huì)各國(guó)代表、國(guó)際標(biāo)準(zhǔn)化組織負(fù)責(zé)人進(jìn)行溝通、協(xié)商和解釋。他認(rèn)真應(yīng)對(duì),機(jī)智處理,克服重重困難,出色完成了這項(xiàng)任務(wù)。
馮志偉還對(duì)國(guó)內(nèi)外自然語(yǔ)言處理的研究成果進(jìn)行了系統(tǒng)梳理,寫成了專著《自然語(yǔ)言計(jì)算機(jī)形式分析的理論與方法》,被納入“十三五”國(guó)家重點(diǎn)圖書規(guī)劃項(xiàng)目“當(dāng)代科學(xué)技術(shù)基礎(chǔ)理論與前沿問(wèn)題研究叢書”,于2017年由中國(guó)科學(xué)技術(shù)大學(xué)出版社出版。此書是基于規(guī)則與基于統(tǒng)計(jì)的自然語(yǔ)言處理方法的專著,分別討論了基于短語(yǔ)結(jié)構(gòu)語(yǔ)法的形式模型、基于合一運(yùn)算的形式模型、基于依存和配價(jià)的形式模型、基于格語(yǔ)法的形式模型、基于詞匯主義的形式模型、語(yǔ)義自動(dòng)處理的形式模型、語(yǔ)用自動(dòng)處理的形式模型、隱馬爾可夫模型、統(tǒng)計(jì)機(jī)器翻譯的形式模型。此書獲得中華優(yōu)秀出版物獎(jiǎng),這是中國(guó)出版界三大獎(jiǎng)之一。
2014年以來(lái),神經(jīng)網(wǎng)絡(luò)的方法成了機(jī)器翻譯的主流方法,有的神經(jīng)機(jī)器翻譯系統(tǒng)的正確率已經(jīng)接近人的翻譯水平,因而基于規(guī)則的理性主義方法受到冷落。馮志偉已經(jīng)進(jìn)入耄耋之年,他仍然密切關(guān)注著機(jī)器翻譯的最新進(jìn)展,堅(jiān)持每天閱讀和梳理國(guó)內(nèi)外文獻(xiàn),先后撰寫了多篇關(guān)于人工智能、統(tǒng)計(jì)機(jī)器翻譯、神經(jīng)機(jī)器翻譯、詞向量生成的論文。在這些論文中,他介紹國(guó)內(nèi)外神經(jīng)機(jī)器翻譯的最新進(jìn)展,在充分肯定神經(jīng)機(jī)器翻譯成就的同時(shí),明確指出,我們這一代學(xué)者有幸趕上了基于語(yǔ)言大數(shù)據(jù)的黃金時(shí)代,在機(jī)器翻譯研究中,采用神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)主義方法,那些處于機(jī)器翻譯低枝頭上的果實(shí)我們唾手可得,然而,由于神經(jīng)機(jī)器翻譯只關(guān)注語(yǔ)言大數(shù)據(jù),忽視語(yǔ)言知識(shí),很多問(wèn)題難以根據(jù)語(yǔ)言規(guī)則從理性主義的角度進(jìn)行解釋,這樣,在今后的機(jī)器翻譯研究中,我們留給下一代的將是那些最難啃的、處于機(jī)器翻譯高枝頭上的硬骨頭。在自然語(yǔ)言處理的研究中,基于語(yǔ)言規(guī)則的理性主義方法依然不可或缺,基于語(yǔ)言數(shù)據(jù)的經(jīng)驗(yàn)主義方法一定要與基于語(yǔ)言規(guī)則的理性主義方法結(jié)合起來(lái),才會(huì)通向自然語(yǔ)言處理發(fā)展的金光大道。
2018年,中國(guó)計(jì)算機(jī)學(xué)會(huì)授予馮志偉NLPCC杰出貢獻(xiàn)獎(jiǎng),表彰他在自然語(yǔ)言處理(Natural?Language?Processing,NLP)和中文計(jì)算(Chinese?Computing,CC)方面的成績(jī)。馮志偉是一個(gè)來(lái)自人文學(xué)科的語(yǔ)言學(xué)家,卻得到了中國(guó)計(jì)算機(jī)學(xué)會(huì)的嘉獎(jiǎng),這是非常罕見的現(xiàn)象。在這次頒獎(jiǎng)儀式上,他深情地說(shuō):“現(xiàn)在我已經(jīng)是近80歲的老人了,可是,我們從事的自然語(yǔ)言處理仍然是一門新興學(xué)科,她仍然顯得非常年輕,仍然充滿了青春的活力,仍然有著無(wú)比廣闊的發(fā)展前景。一個(gè)人的生命是有限的,而科學(xué)研究的發(fā)展是無(wú)限的,一個(gè)人的有限生命與科學(xué)研究這棵枝葉茂密的參天大樹相比,顯得多么短促,多么渺小,多么微不足道?。 ?/p>
(本版圖片均由作者提供)
《光明日?qǐng)?bào)》( 2021年12月20日?11版)
[ 責(zé)編:孫宗鶴]關(guān)鍵詞: 馮志偉