Wednesday, December 7, 2011

WordNet 結合辭典字典和本體論的文字百科全書

WordNet is a powerful lexical  reference system that combines aspects of
dictionaries  and thesauri  with  current  psycholinguistic theories  of
human lexical memory. It is produced by the Cognitive Science Laboratory
at Princeton University, under the direction of Professor George Miller.

In WordNet, words  are defined and grouped into various  related sets of
synonyms.  Not only  is the  system  valuable to  the casual  user as  a
powerful thesaurus and dictionary, but also  to the researcher as one of
the few freely available, lexical databases. WordNet is available via an
on-line interface and also as easy-to-compile C source code for Unix.

WWW: http://wordnet.princeton.edu/


WordNet 結合辭典字典和本體論的文字百科全書 dictionary

撰文╱張俊盛,清華大學資訊系及資訊系統與應用研究所教授


在學術界有一個好處,就是每年總會有一兩次機會到最好的旅遊景點去開會。其中,讓我記憶猶新的是1996年在美國新墨西哥州聖塔菲舉行的國際機器翻譯會議。我從台灣出發,抵美後途中停留舊金山,再搭螺旋槳飛機,飛越加州死谷到聖塔菲,才臨時找平價的汽車旅館投宿。旅館看來雖不起眼,卻靠近熱鬧的廣場。旅館到廣場的路上,兩旁都是一間間兼具西班牙與印第安風味的夢幻粉紅泥磚屋。一位與會的英國學者大嘆:「我的天呀!聖塔菲就像一座主題樂園,連加油站都是泥磚屋。」英國人對美國風,當然不是讚賞而是挖苦。

國際機器翻譯會議的會場,設在沙漠中的聖約翰學院內。沙漠中有道路,但沒有巴士可到會場,也叫不到計程車。第二天我起了個大早,健行一小時,才到會場。我先坐下來喘口氣,也趁開會前的空檔,和鄰座閒聊兩句。我們談到最近很多學者利用普林斯頓大學的WordNet做研究(你可以在www.cogsci.princeton.edu/ ~wn/免費下載)。源自心理學研究的WordNet可以說是文字的百科全書,包含了將近20萬個英文字義及其語意關係,在自然語言處理、搜尋引擎等研究中,常見WordNet的身影。我抱怨說:「美中不足的是WordNet沒有主題資訊,例如無法列出所有和西洋棋有關的辭彙。」大會看著要開始了,先打住。

這時候,主席交代過事務性報告,開始介紹主題講座的講者─心理學大師米勒(George Miller),也就是WordNet計畫的主持人。米勒由我的旁邊起身,走到台前,準備做他的大師開示。有眼不識泰山,鄰座就是WordNet之父,而我竟然當他的面挑剔起WordNet!

大師的暖場笑話沒有奏效,聽眾全板著臉:或許是時差在作祟吧。米勒嘲弄地說:「天啊!你們機器翻譯專家平常都是這麼嚴肅嗎?」這下子才打破僵局,一屋子原本正經八百的專家哄堂大笑。接下來,大家都很捧場,該笑的時候就笑。米勒接著說,心理學家想從小孩身上了解語意,於是實地去看老師的作業。老師要小學生用"eat out"造句(如「酸雨侵蝕了銅質的屋頂」),學生交回來"My family ate out a lot recently",大出老師意料之外。又是哄堂大笑。

學生很自然的以日常的脈絡下來解讀"eat out",造出句子。我們莞爾一笑之餘,可以再深入思考。我想到米勒的另外一大貢獻─語意由上下文脈絡決定的理論。米勒認為語意和上下文,是一體的兩面。至今,這個想法仍然很有啟發性,最近史丹佛大學的辛瑞奇舒茲的博士論文中,就以實驗證明了英文字"suit"的不同意思可以由7467個"suit"例句,自動分析出來!

再回頭來談WordNet有什麼好處。以自動詢答這個熱門的研究題目為例,我們可以問電腦"Who invented electric light?"電腦由WordNet中,知道"electric light"和"lightbulb"在WordNet中同屬一個同義集(synset),指的是同一個東西。因此可以在「大英百科全書」檔案中,找到發明電燈泡的一段相關文字(He [Edison]…invented…the incandescent lightbulb),來正確回答問題。WordNet還提供廣義、狹義、相似、部份、全體等18種詞彙語意關係。有了WordNet,電腦就能應付變化多端的問題。

在米勒的啟發下,此刻許多研究者都在努力建立各種語言的WordNets:Spanish WordNet、Chinese WordNet等,WordNet儼然已經成為語言研究者的必修課;因為WordNet可以透過語意關係,連接到其他相關字,社會大眾也多了一個比一般辭典更方便的工具。在認知心理領域早就立下不朽之言的米勒,為了研究語意,晚年又大膽的闖入辭典學的領域,創立結合辭典和本體論的WordNet。大師不受領域限制的貢獻,影響領域之廣,讓人敬佩!

Reference:
http://sa.ylib.com/forum/forumshow.asp?FDocNo=444&CL=16

No comments: