
機器翻譯(簡稱“機譯”)一直是科技領(lǐng)域的一大難題。目前基于統(tǒng)計機譯方法的在線工具如谷歌翻譯、必應(yīng)翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其翻譯結(jié)果勉強可用,但離完美還相去甚遠。為提高在線翻譯質(zhì)量,美國谷歌(Google)公司的三名工程師最近提出一種嶄新的機譯方法:將語言翻譯變成向量空間數(shù)學(xué)問題,利用數(shù)據(jù)挖掘技術(shù)建模一種語言的結(jié)構(gòu),然后與另一種語言的結(jié)構(gòu)進行對比,從而擴充和完善現(xiàn)有的雙語語料庫。該研究成果的論文預(yù)印本于9月17日在著名網(wǎng)站arXiv.org公開后,引起了學(xué)術(shù)界的廣泛關(guān)注。
機器翻譯示意圖
新的方法依賴于一個概念,即每一種語言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數(shù)語言中都有描述相同動物的單詞,如“狗”、“貓”和“牛”,這些單詞很可能以相同的方式在句子中使用,如“貓是一種比狗小的動物”。英語與西班牙語的數(shù)字向量空間圖
數(shù)字也一樣;上圖顯示了在英語和西班牙語中數(shù)字(一至五)的向量表示法以及它們是如何相似的。
語言中單詞之間的關(guān)系集合被稱為“語言空間”(language space),可類比為一個點到另一個點的向量集合,能以數(shù)學(xué)的方式進行處理,例如“國王”減去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。
在向量空間中,許多語言都有共通之處,可以利用向量空間線性變換將一種語言翻譯成另一種語言。工程師們說,“盡管它很簡單,我們的方法出奇有效;在翻譯英語和西班牙語之間的單詞和短語時,準(zhǔn)確率可以達到幾乎90%。”
中國數(shù)學(xué)家和語言學(xué)家周海中認為,這種基于線性代數(shù)的機譯方法很有新意也有實效。不過,他對不同語系的自然語言(如英語和漢語)在線翻譯是否也有那么高的準(zhǔn)確率表示懷疑。他強調(diào):不管用什么方法來提高機譯質(zhì)量,首先要解決的是自然語言的本身問題,尤其是語義表達和語用功能,而不是計算機編程問題或數(shù)學(xué)建模問題。“在人類尚未明了大腦是如何進行自然語言的模糊識別和邏輯判斷的情況下,機譯質(zhì)量要想達到‘信、達、雅’的程度是不可能的。”周海中說。
推薦閱讀
微軟下一代游戲機Xbox src="http://static.cnbetacdn.com/newsimg/20>>>詳細閱讀
本文標(biāo)題:機器翻譯的嶄新方法:將語言變成向量空間
地址:http://www.xglongwei.com/a/05/20131008/289775.html