聽阿波姆·迪伊格坐在自家的草棚下,用Koro語哼唱著當地祖祖輩輩口口相傳的歌謠,谷歌“瀕危語言”項目經理克拉爾·瑞瓦拉·羅吉斯感慨不已。Koro是“田野語言學家”在印度東北部山區發現的一種新的瀕危語種。像阿波姆一樣,經常使用Koro語言的人口僅有4000人左右。Koro語言沒有文字,使用者絕大部分過著與世隔絕的生活。
“如果專家不及時施以援手,再過幾年,當這些說著陌生語言的人老去,我們再就也聽不到這些歌謠了。說這種語言的人所創造的文明和他們的故事,都將湮滅于歷史的塵埃之中。”用克拉爾的話來說,和拯救脆弱的生態環境一樣,拯救瀕危語種也是迫在眉睫的事情。最近,谷歌在其官方博客中宣布,推出旨在拯救3000多種瀕危語言的“瀕危語言”項目。一批像克拉爾這樣的“極客”和語言學家聯手,希望用各種互聯網技術,拯救瀕危小語種。
保護語言多樣性
“世界上現存語言大約有7000種,估計到2100年,至少有一半的語種會滅絕。差不多每兩個星期,就有一種語言從地球上徹底消失。”今年2月,在加拿大溫哥華會議中心的保護瀕危語種的研討會上,美國語言學家戴維·哈里森發表的研究結果,得到了其他語言學者的響應。
全球化浪潮和互聯網的興起,讓人類語言的多樣性受到了巨大的挑戰,尤其是那些沒有文字載體的小語種。“語言是溝通工具,也是一個信息貯藏庫。一種語言消逝的背后,不僅僅意味著族群的消亡,隨之消失的還有族群在幾個世紀以來在自然、地理、生物、醫藥、歷史、數學等各方面積累的寶貴經驗。”和坐在圖書館中鉆研古老文本的語言學家不同,自詡為“田野語言學家”的戴維和他的同事,常年穿梭于世界各地的偏僻地區,收集那些快要被世人遺忘的語言。
他們發現,世代以放養馴鹿為生的西伯利亞圖法拉爾人,在其語匯中有不少描述馴鹿皮色、花紋、頭部標記,以及生活習性、個性等綜合信息的語匯。這對研究野生動物的進化史來說彌足珍貴。“我們想購買去當地的火車票,在莫斯科工作多年的列車售票員竟然說,他從來沒有聽到過這個地方和這群人。”2007年,戴維他們在玻利維亞發現了一個神秘部落,他們所說的Kallawaya語,包含著大量草藥和醫學經驗。“我們在當地生活了很久,才弄明白這種語言是部落中懂得某種古老醫術的人,為了使他們平生所學得以代代相傳,在幾個世紀之前創造的。”在最新發現的Koro語的歌謠中,也蘊藏著當地鮮為人知的歷史、物種、草藥學的信息。
現在,人們可以通過谷歌的“瀕危語言”網站看到Koro等語言的視頻。“我們現在使用的拯救方式,就是讓戴維這樣的‘田野語言學家’在當地用高清錄音和錄像收集盡可能多的語言資料。”然后,這些視頻和錄音經過社交網絡的傳播,成為學習語言的現成資料。在戴維等語言學家看來,這種形式可能是目前最好的傳播和保留小語種的方式之一。克拉爾說:“語言學家起到了帶頭作用,我們鼓勵更多的用戶在該項目網站上,上傳瀕危語種的視頻、音頻和文本文檔。”
人工智能新用途
“互聯網的興起讓小語種處于被遺忘的弱勢地位,現在,人們卻要用互聯網技術去拯救它們。當媒體熱衷于討論互聯網的負面作用時,我們終于看到了其正面作用。”美國麻省理工《技術評論》雜志資深編輯湯姆·賽門特認為,“其實,互聯網技術巨頭可以做更多的事情。”比如,谷歌的智能翻譯技術,從某種程度上來說,它有潛質成為保護瀕危語種更為便捷的武器。
“理論上說的確如此。”谷歌翻譯科學研究員徐鵬解釋說,谷歌智能翻譯,其實是一種人工智能技術。翻譯研究員在分析出某種語言的語法和規律之后,編制出帶有特定算法的翻譯程序。加載了相關程序的谷歌服務器,會自動搜索網絡上的語言資料和翻譯文本,將其納入自己的翻譯資料庫中。用徐鵬的話來說,谷歌智能翻譯就像一個正在牙牙學語的孩子,它所掌握的語言資料和對應的翻譯資料越多,它的翻譯也就越準確。比如,經過了六年時間,隨著掌握資料的增加,谷歌的中英文互譯已經有了很大的進步。“如果我們有足夠多的小語種資料和對應的翻譯資料,我們就可以制造出專門負責翻譯某一種瀕危語種的系統。如果技術成熟了,我們非常樂意做這樣的事情。”
除了谷歌的“瀕危語言”項目和人工智能技術之外,微軟也籌劃類似的事宜。他們的微軟譯者中心也能在收集到足夠的原文和翻譯資料之后,創造出某種語言的特定智能翻譯模型。研究部經理克里斯汀·圖里說:“這等于是讓計算機學會這些瀕危語言。但是這項工作必須在語種消亡之前盡快進行,而且情況不容樂觀。目前,世界上的大約7000種語言中,大概只有100種語言擁有計算機智能翻譯系統。”
推薦閱讀
從癡迷網游的中專生,到身價千萬的網店主,宋旭蘭只用了短短4年。如今,她把打游戲的狂熱轉嫁到了工作上,一開電腦就分不清黑夜白天,最夸張的記錄是整整一個月都沒出過家門,一身藍色碎花裙的漂亮姑娘吐了吐舌頭,“>>>詳細閱讀
本文標題:谷歌瀕危語言項目欲拯救3000多小語種
地址:http://www.xglongwei.com/a/guandian/yejie/20110701/122041.html