Return Homepage Cooltang's Box
Homepage Article Title 關於漢語信息處理的認識及其研究方略
Catalog Original URL http://artvine.com.tw/cgi-bin/board/bbsboard.pl?board_id=6&type=show_post&post=379
Backup Time 2004-3-24 5:47:54
Executor IP 212.0.138.14

關於漢語信息處理的認識及其研究方略
發表時間: 2003年12月14日 10時10分
發表作者: 語言文字應用
發表內容:
1.gif
關於漢語信息處理的認識及其研究方略
《語言文字應用》,2002/02,51~58頁
俞士汶、朱學鋒 撰(北京大學計算語言學研究所)
基金支持:國家自然基金69483003、973 項目
G1998030507-4、863 項目2001AA114040、北大985
---------------

在總結長期實踐經驗的基礎上,筆者分析了為什麼自然語言
處理是一個相當困難的研究領域,而漢語信息處理是更加困
難的研究領域。面對日益強烈的社會需求,漢語信息處理的
研究方興未艾。筆者探討了開展這項研究的技術路線,特別
強調了語言知識庫建設的重要性。

一 引言

  2001年5 月國家語委在無錫召開了語言文字應用研究“
十五”科研規劃論證會議。筆者對中文信息處理在整個會議
進程中得到的重視有相當強烈的感受。無論是領導幹部的講
話﹝1 ﹞還是國家語委提出的《語言文字應用研究“十五”
項目指南(徵求意見稿)》,以及專家們的發言與論證,都
充分表述了中文信息處理技術對我國社會的信息化進程和信
息產業發展的戰略意義。作為一名長期從事語言信息處理技
術研究的專業人員當然深受鼓舞。

二 自然語言處理──難

  語言研究確實很難。道理並不複雜。首先,人們研究任
何事物和學問總是要依靠思維。研究語言同樣離不開思維。
可是思維(至少邏輯思維)又要用語言來表達。也就是說,
語言既是研究的對象,又是研究的工具。第二,語言現像是
無限的,而從事語言研究的人所能利用的資源總是有限的。
只用有限的資源去解決無限的問題,實在太困難了。第三,
從事語言信息處理研究,最得力的工具自然是計算機。可是
,當前可以利用的通用計算機不論功能多麼強大,它的本質
功能只不過是對一種表現形式的符號串實施一連串的但總是
有限步的變換,而得到另一種表現形式的符號串。這個過程
同人的思維過程、認知過程是大相徑庭的。如果沒有跳出這
個窠臼,卻聲稱可以在這樣的計算機上再現人腦的“理解”
機制,即使充分肯定研究者的宏圖大志,也要冷靜地指出這
是對自然語言理解的困難估計不足。

  下面的例子也許可以把這個問題說得更明白一些。筆者
偶然讀到《今日民航》2001年9月號上的一篇關於“沙漠化”
的文章, 這是一篇新聞報導,應該是寫給普通人看的。筆
者讀到其中的這樣一段文字:

  幾年前由於種植籽瓜有利可圖,使大批的種植者就到過
渡帶來開墾,……。

  在這樣的綠洲和沙漠過渡帶開墾,極易造成風蝕。卻遇
到了困難。對於刪節號前的那句話,每一個字都認識,也沒
有專有名稱,可是試讀了兩遍,就是讀不通。因為運用自己
的語言知識和常識,對後半句進行切分,只能得到“就”
“到”“就到”“過”“到過”“過渡”“帶”“來”“帶
來”“開墾”這樣一些詞語,組織不成可以理解的句子。直
到讀到刪節號後面的那句話,才“頓悟”到一個並不深奧的
專業知識:在綠洲和沙漠之間存在著“過渡帶”。再返回到
前面那句話,這時自己的腦海(知識庫)中已經有了關於“
過渡帶”的知識,因而可以實現正確的切分:

  使/大批/的/種植者/就/到/過渡帶/來/開墾/
理解它也就不存在困難了。其實,機器處理這段文字的困難
還不僅限於此。像“籽瓜”這兩個字連在一起也是少見的。
筆者只是猜想大概是指一種專門用來取籽食用的瓜。在這樣
的知識或“預設”的指導下,才可能辨識出“籽瓜”這個詞
,才能正確切分前半句話。在漢語自動分析技術中,通常把
切分作為處理的第一步,正確的切分是理解的基礎。這個例
子又反過來說明,只有理解了,才能正確切分。對於這段文
字,人能理解的關鍵是“過渡帶”和“籽瓜”這兩個概念。
筆者的親身經驗說明,人即使事先並沒有學習過這些知識,
但是通過下文可以“領悟”這兩個概念。實際上人的理解能
力還不限於此。由於當代人有了“環境保護”和“防止沙漠
化”的觀念,就依據這裏所引用的兩句不連續的話還可以做
出文章的摘要:“為了防止沙漠化,要停止在綠洲和沙漠之
間的過渡帶發展種植業”。讀者不難想像,當前機器的智能
同人的智能相比,該有多大的距離!要害在於人腦的這種“
領悟”和“推理”的機制是難以形式化的,至少目前還沒有
這種形式化的成果。因此,計算機也就無法自動填補知識的
空缺。目前,人腦的認知機制還是一個謎,這是實現“自然
語言理解”的真正障礙。

三 漢語信息處理──更難

  本節從計算機處理的角度討論現代書面漢語的特點。這
個問題很多學者和筆者都曾探討過。希望這裏能談得更深入
一些。

1‧語言單位。
關於作為研究對象的語言單位,學者們有很多論述。筆者認
為,以多大的語言單位作為信息處理的對象至少要顧及3 個
因素:(1)應用目標,(2)技術與理論的發展水平,(3)
語言類型。表達完整知識或信息的語言單位應該是一篇文章
或一本書,儘管通常也認為句子是表達相對完整的意義的語
言單位。香港城市大學鄭錦全教授曾作過一個有趣的實驗
﹝10﹞:看《明報》的一則新聞的最後一句,看不懂,倒著
往回多看一句,還是不懂,再往回多看一句,如此繼續,直
到可以理解為止。實驗說明,由於漢語文本中有大量省略、
指代的句子,計算機孤立地處理一個句子,或者難以理解,
或者產生歧義,是不奇怪的。但目前的技術還不容易駕馭篇
章這麼大的單位。甚至連處理有顯式標記的段落也還困難。
當前絕大多數語言信息處理系統(如機器翻譯)是以句子作
為基本處理單位的。Chomsky 形式語法的產生式規則的起始
符就是句子S。實際應用基於統計的n元語法時,n一般不大
,實際上也是約束在一個句子的範圍內。朱德熙先生也認為
最大的語法單位是句子。有些應用研究,如信息提取和自動
文摘,固然要以篇章為對象,但也要以句子處理為基礎。

2‧句子界定。
對於英語和日語,從篇章中分割出句子是很簡單的事,而且
句子還是很清晰的語法單位。英語句子一定包含一個由限定
形式的動詞擔任的謂語,日語句子一定以終止形的動詞結束
。可是漢語中句子同句子之間的界限並不清晰。古漢語不使
用標點符號,斷句是大學問。現代書面漢語雖然使用標點符
號,但標點符號並沒有承擔界定句法單位的功能。若以句號
作為句子的結束標幟,句子可能很長。句號之前的內容可能
是一個句群或段落。若認為逗號可以作為句子的結束標幟,
則很多句子又是不完整的,有缺省的句子機器是很難分析的
。 隨手抄錄2002年1月26日《參考消息》中一句話:

  車臣武裝分子和世界其他地區的恐怖分子是一丘之貉,
應該合力打擊他們。

  可以把這句話看作是一個由兩個分句構成的復句,問題
是機器如何判斷第2個分句有省略,省略的是什麼,“他們”
又指代誰。 又如朱德熙先生舉的一個例句﹝2﹞:

  你得藏在一個你看得見他,可是他看不見你的地方。

  這裏,逗號的左右兩部分又不是分句。句號結束的只是
一個單句,但它內部卻包含了一個復句結構形式:“你看得
見他,可是他看不見你”。再從《科技術語研究》2001年4
期14頁摘錄一段文字如下:

  新一屆測繪學名詞審定委員會的主要特點是年輕化,吸
收了一些工作在教學、科研前沿的青年專家學者,充分發揮
他們接觸新知識多,對名詞工作熱情高、活力大的特長,同
中老年專家共同做好新一屆委員會的名詞審定工作。

  這段文字共有99個字,一逗到底。人讀起來,通順易懂
。可是計算機處理可就難了。其中第3個逗號的作用同其他
3個逗號的不一樣。試用幾個機器翻譯系統進行了翻譯,沒
有一個系統能給出可以使用的譯文。

  自80年代中期以來,漢語信息處理學界就將句子的詞語
切分作為一個重要的攻關方向,開發了很多軟件,發表了很
多文章,還制訂了國家標準。但卻很少有人直接提及現代書
面漢語的斷句問題。也許這個問題對人來說是不成問題的,
但對計算機仍然是個難題。

3‧詞語切分。
需要把一個句子進一步劃分更小的語言單位並不是漢語的特
殊課題。在英語中,儘管word同word之間留有空格,也是有
切分問題的。只不過由於英語的word在句子中有形態標幟,
虛詞同實詞的詞形不同,名詞前常有冠詞或介詞,專有名詞
的第一個字母要大寫,這些因素使得英語的切分相對容易些
。日語的書寫方式同漢語相同,有同漢語相似的切分問題,
但日語多種文字(漢字、平假名、片假名)混合使用以及助
詞的不可缺省,使得日語切分也相對容易些。在漢語中,標
點符號之間只是連續的漢字序列。由一個單音節的語素構成
的單純詞同不成詞的語素之間的界限不清晰,按同樣的方式
(如定中、狀中、述賓、述補、主謂等)構成的復合詞和短
語的界限也不清晰,因此,詞語切分始終是一個難題。

4‧詞性標注。
由於同一詞類中的詞呈現諸多相同的語法屬性,因此詞性
(Part Of Speech)對於語言信息處理是最便於應用的。
Chomsky形式語法的產生式規則的終極符就是詞性符號。克
服數據稀疏、使n 元語法實用化的解決方案之一是用相應的
詞性序列替換詞本身的序列。為了得到n元語法的各種參數
,需要將一定規模的語料進行切分並標注上詞性。因此,詞
性標注又成為語法分析和大規模語料庫深加工的必要步驟。
當有了一部劃分了詞類的機器詞典,詞性標注的主要工作就
是消解兼類詞在實際文本中的歧義。任何語言中起語法作用
的虛詞的數量都不多,但使用頻率卻很高。英語中像and,
by,in,of,the等虛詞同實詞是不同形的,現代日語中的助
詞“に、こ、は、を”沒有漢字標記形式,語法功能比較明確
。英語和日語的虛詞的這些特性使得詞性標注便於找到參照
點,英語和日語的實詞在句子中有形態變化,因此英語和日
語的詞性標注也就相對容易。可是漢語的情況卻不一樣,首
先,虛詞同實詞在詞形上沒有區別。“把”(讀ba3)既是
介詞也是動詞和量詞; “和”(讀he2)既是連詞、介詞,
也是動詞;“在”既是介詞和副詞,也是動詞。因此,漢語
的詞性標注缺乏最便於把握的線索。實詞中的兼類詞(如名
詞的“鎖”與動詞的“鎖”,區別詞的“共同”和副詞的“
共同”)在使用時也沒有形態上的區分(如“門鎖”與“鎖
門”,“共同利益”與“共同奮鬥”)。漢語的實詞在使用
時既沒有形態變化,又表現出多功能性(如動詞呈優勢分佈
的主要功能雖然是擔任主謂結構中的謂語和述賓、述補結構
中的述語,但也可以擔任主語和賓語,而且形態沒有任何變
化)。專有名詞同普通名詞在形態上也沒有任何差別,這些
特點給詞性標注帶來本質性的困難。

  漢語的詞語切分與詞性標注是兩件事,又常常結合起來
同步進行,在自然語言處理流程中相當於其他語言的詞法分
析,它是後續的句法分析、語義分析和語境分析的基礎。漢
語的詞語切分與詞性標注也有獨立的應用領域(如面向Web
的海量信息管理)。因此,高性能的詞語切分與詞性標注軟
件的價值是不容低估的。

5‧句子的語序。
英語是SVO型語言,日語是SOV語言。很難按照類似原則把
漢語歸類。漢語句子中詞語的排列順序是相當自由的。例如

  那位老師昨天上午看完了這本參考書。
  這句話的語序也可以改變為:
  這本參考書那位老師昨天上午看完了。
  這本參考書昨天上午那位老師看完了。
  昨天上午這本參考書那位老師看完了。

  意思沒有變化。因此詞語在句子中的位置信息對它的句
法功能的提示甚少,這當然增加了句法分析的難度。

  分析句子時,把組成這個例句的幾個短語“那位老師”
“昨天上午”“看完了”“這本參考書”各自看作一個整體
是方便的。當然這些構成成分本身也是有結構的,可以注意
到這些短語的結構是穩定的,內部順序是不能改變的。

  不過,也不能認為漢語的語序無關緊要。像漢語的時間
狀語“昨天上午”通常就不能放在謂語動詞“看完了”的後
面。又如,“她是昨天上午回的家。”這句話,其構成成分
的位置就很難移動。無論對於分析還是生成,漢語語序規律
的深入探討都是必要的。

6‧漢語的句法結構。
如果排除由一個自由的語素或詞實現的句子,漢語的單句都
是由短語實現的,因為任何類型(主謂、述賓、述補、定中
、狀中等等)的自由短語加上句調都可以實現為句子﹝2﹞
。 任何一種漢語短語結構的構成成分的順序是固定不變的
,或者說短語的結構穩定。因此,將短語結構的研究作為漢
語語法研究的中心課題是合理的。其合理性也為大規模漢語
語言工程實踐所證實。如果以數理語言學或計算語言學中廣
為流傳的理論體系作參照,將漢語短語結構研究看作漢語語
法研究的重心也是有理據的。上下文無關語法產生式規則中
的所有標識符除唯一的開始符和少量的終極符(詞性)外,
大量的非終極符代表的都是短語。當代頗有影響的GPSG和
HPSG更直接把短語結構(phrasestructure,PS)放在語法理
論的名稱中。

  漢語的短語和復合詞是按照同樣的結構規則構造的,可
以將尚未實現成句子的短語或復合詞統一叫做“句法結構”
。同時由於單音節的成詞語素同不成詞語素的界限也是模糊
的,因而短語和複合詞的界限是模糊的。

  漢語的所有句法結構規則都是允許嵌套的。其他語言的
嵌套結構也是常見的,像英語的從句也可以包含另一個從句
。不過,漢語句法結構的嵌套有兩個特點:其一是句法結構
的嵌套不需要加其他連接詞或關連詞,其二是主謂結構的謂
語還可以是另一個主謂結構﹝3﹞。 這兩個特點使得除詞語
切分的困難之外又多了一個短語定界的困難,漢語自動分析
真可謂雪上加霜。

7‧虛詞的省略。
前面已提到漢語的虛詞同實詞同形所造成的麻煩,虛詞的省
略也造成很大的困擾。同孤立的一句“雞不吃了。”不一樣
,“蘋果吃了。”在語義上不會有歧義。“蘋果”只可能是
“吃”的受事。但在句法上又有歧義:可能是被動陳述句“
蘋果被吃了。”省略了“被”,也可能是祈使句“把蘋果吃
了。”省略了“把”。

8‧漢語的時態、語態和語氣。
由於缺乏嚴格的形式標記,在一句話的範圍內辨別時態(過
去、現在、將來、進行、完成等)、語態(主動態與被動
態)、語氣(真實語氣與虛擬語氣)也是不可能的。“看電
視”可以用於回答以下任何一個問題:

  “你昨天晚上幹什麼了?”
  “你明天晚上幹什麼?”
  “現在你在幹什麼?”

  又如“你什麼時候回家?”這句話用於詢問未發生的事
,“你什麼時候回家的?”用於詢問已發生的事。兩句只差
一個“的”字。現代漢語中使用頻度最高、已經不堪重負的
助詞“的”又挑起了一個表示時態的重擔。如果認為整個句
子末尾的“的”(假定能鑒定出該“的”不是先同最近的一
個單詞或短語組合)都表示過去時態,那也不對。“我會永
遠愛你的”表述的卻是對未來的承諾。

  自然語言信息處理(更具體地說,就是機器翻譯)是當
代電子計算機在非數值領域的最早應用,已經有50多年的歷
史了。然而,無論同計算機科學技術本身一日千里的發展相
比較,還是同計算機在各個領域的成功應用相比較,自然語
言處理技術的發展都是相當緩慢的,歷經坎坷,至今未能取
得重大突破。綜合上面的分析,概括地說,漢語的形態不發
達,適用於自動分析的形式標記相對貧乏,自動分析的難度
絕不會比其他語言更低。筆者也認為中國學者研究漢語信息
處理具有天然的潛在優勢,特殊的困難也許為中國學者留下
了更有廣闊的發展空間,漢語理解的研究也許能為解開“人
類智能本質”這個世界性難題做出貢獻。

四 語言知識庫的重要地位

  認識到漢語理解研究的困難,就需要把漢語信息處理研
究看作是一項長期的任務,不宜期望一蹴而就。為了實現良
性循環與可持續發展,在今後的五到十年內,比較現實的技
術路線是將自然語言處理研究作為語言工程來實施,必須面
向應用,爭取儘快為社會做出貢獻,從而得到回報,繼續為
漢語理解研究提供支持,向最高境界前進。

  既是工程項目,就需要有規模的控制,“受限漢語”
﹝4 ﹞還是一個值得探討的題目;也要有質量的指標,要有
檢驗措施。筆者曾組織過863項目的評測,現在接受973項目
組織的評測(姚天順教授主持)。應該說評測促進了研究。
當然,評測的規模有待擴大,其規範性、權威性、公開性也
有待進一步提高。

  在語言工程實施過程中,要重視人才培養。知識經濟的
競爭歸根到底是人才的競爭。

  任何豪華、壯觀的建築都是建立在地下的堅實的基礎上
的。語言工程也有應用與基礎之劃分。由於語言工程的價值
體現在它的應用上,人們重視應用研究是理所當然的。不過
,在20年的發展過程中,漢語信息處理基礎研究的薄弱制約
了應用研究的發展這一事實已經為越來越多的學者所認識。

  基礎研究要做的事情很多。在語言工程中,筆者認為最
重要的基礎研究是語言知識庫的建設。為了提高語言信息處
理系統的智能水平,最容易想到的就是給計算機裝備足夠龐
大的知識庫,知識庫包括各種形式和內容的機器詞典、規則
庫、語料庫等。假設,機器詞典中收錄了“籽瓜”和“過渡
帶”這兩個詞,對第2節中的例句, 至少機器實現正確切分
的可能性就存在了。不過,最容易想到不等於最容易做到。
自然語言處理系統的研究者應當把語言知識庫作為自然語言
處理系統的基礎設施,下大力氣建設好,因為語言知識庫是
自然語言處理系統的必要組成部分,語言知識庫的規模與質
量是自然語言處理系統成敗的關鍵。

  筆者自1986年北大計算語言學研究所成立以來,就與全
所同仁一道為建設語言信息處理綜合知識庫而努力。十六年
來,積累了一些成果和經驗。

  《現代漢語語法信息詞典》是北大計算語言所綜合語言
知識庫的第一塊基石﹝5﹞。這部電子詞典的研製歷史已有
16年。收錄詞語超過7‧3萬。依據語法功能分佈,建立了詞
語分類體系,完成了這7‧3 萬個詞語的歸類。在分類的基礎
上,更進一步按類詳細描述每個詞語的多種語法屬性。朱德
熙先生的詞組本位語法體系對本詞典的研製起了指導作用。
因為詞典中描述的語法屬性基本上就是詞語之間的組合關係
以及詞語擔當句法結構中的成分的能力。筆者之所以首先研
製這部語法知識佔主體的電子詞典,是由應用系統開發的需
求驅動的。足夠大的規模、合理的結構、豐富的信息、準確
的描述、廣泛的適用性都是這部詞典影響日益擴大的內在因
素。

  在《現代漢語語法信息詞典》的基礎上,北大計算語言
所又著手大規模標注語料庫的建設﹝6﹞。到2002年2月底完
成2700多萬字的語料的切分和標注,其中包括1998年全年《
人民日報》。標注集除了《現代漢語語法信息詞典》中的26
個詞性代碼外,還包含人名、地名、團體機構名稱等專有名
詞標記;對語素g劃分了子類,如Ng,Vg,Ag; 對動詞和形
容詞,標示了他們的名詞用法和副詞用法;總共約有40個標
記。除了在詞語的層次上進行標注外,還對短語型的地名、
團體機構名稱也加注了特別的符號。這個語料庫是一個現代
漢語語言知識的寶庫。

  《現代漢語語法信息詞典》與大規模標注語料庫相結合
,又得到新的有價值的資源。如帶詞性的詞頻統計可以填補
漢語學界的空白。進而可以將詞語的各種語法屬性值從定性
的“可否”型改造為定量的概率型﹝7﹞。

  當要求提高對語言信息處理的智能水平時,必須將詞語
層次的直接匹配與變換提升到概念的層次。基於概念的文獻
檢索與信息提取就需要一部反映同義關係、反義關係、上下
位關係、部分─整體關係、成員─群體關係等內容的中文概
念詞典(Chinese Concept Dictionary,CCD)。國際上已經有
了這種架構的在線詞典Wordnet。 開發CCD 應當保持同
Wordnet兼容,這樣既可以參照已有成果,避免重覆, 還可
以為跨語言的信息處理架設橋樑。北大計算語言所正在開發
這樣一部Wordnet─likeChinese Concept Dictionary﹝8﹞,現在
已取得階段性成果。

  除了上述成果外,北大計算語言所的語言知識庫目前還
包括面向漢英機器翻譯的語義詞典、漢語短語結構知識庫、
不同級別對齊的英漢雙語語料庫等資源,也包括為構造知識
庫所開發的工具軟件,如詞語切分與詞性標注軟件、語料庫
精加工軟件、自動注音軟件、CCD 可視化輔助開發軟件。很
多工具軟件都有獨立的應用價值。

  北大計算語言所在從事包括語言知識庫建設在內的基礎
研究時,始終既注意把握基礎研究的內在發展規律,又注意
順應科學技術的歷史潮流,滿足客觀需要。以《現代漢語語
法信息詞典》為主體的系列成果已轉讓到世界各地:美、德
、法、日、韓、瑞典、新加坡、香港、臺灣以及境內。包括
Microsoft,IBM,Intel,Xerox,Fujitsu,Toshiba,Matsushita
,NTT,Canon,Sail─Labs(德國),Enpia(韓國),聯想
,青鳥等IT界著名企業在內的約50多所大學、研究所和公司
在使用北大的這些成果。

  作為綜合型語言知識庫,當然還有很多工作要做。北大
計算語言所的規劃如下:
(1)
語言單位的多樣化。以詞為基礎, 向短語與語素兩個方向擴
展。句子與篇章的知識也是需要關注的。
(2)
語言知識的多樣化,由句法知識向語義知識、概念、 語用知
識和構詞知識等多方向輻射。
(3)
語種的多樣化,由單語言(漢語)向多語言發展。 除英語外
,考慮到為“數字奧運”服務,也要適當擴充其他語種。
(4)
領域的擴充。除包括常識等通用語言知識外,還要增加專業
領域知識。專業術語庫是必要的補充。目前首先考慮信息科
學技術領域。
(5)開發方法的多元化。
專家知識是必須依賴的。大規模深加工的語料庫將成為獲取
語言知識的新源泉。建立單個知識庫之間的連接,形成一體
化的知識庫。
(6)
支援應用系統的開發以檢驗知識庫的適用性和質量。目前矚
目於機器翻譯系統和信息提取系統。開發應用程序接口,優
化查詢、統計等應用界面,讓更多的人使用並檢驗這個知識
庫。
(7)
以知識庫為基礎,探索、創建新的語言模型。可以在可靠的
語言資源的基礎上驗證結合統計方法與規則方法的概率語法
模型。

五 結語

  中國西部大開發的戰略已經開始實施。2001年,中國成
為國際貿易組織WTO的正式成員,中國申辦2008年奧運會也
獲得成功。中國社會與國際接軌的信息化進程明顯加快,對
語言信息處理技術提出了強烈的需求。中國著名語言文字專
家、97歲高齡的周有光先生對漢語、漢字在新世紀的發展寄
予熱望。他在20001年9月份的《中國語文現代化學會通訊》
上發表文章,認為“21世紀,華語(筆者注:周先生指的就
是“漢語”)將在全世界華人中普遍推廣”。同月在南京召
開的“首屆華文傳媒論壇”也認為,“中文極有希望成為世
界上第二大媒體語言”。在這樣的形勢下,獻身漢語信息處
理事業已不再局限於中華兒女的民族自豪感和拳拳愛國心,
潛在的巨大經濟利益已經驅使IT行業的眾多跨國公司躋身這
個新的熱門研究領域。

  由於語言信息處理技術需要語言學、數學、認知科學、
計算機科學等多學科的相互融合,現在最缺乏的是文理兼通
的人才。北京大學計算語言學研究所除了從事語言信息處理
的基礎研究和應用研究﹝9﹞,也在人才培養方面作了一些
工作。但在漢語信息處理的宏偉事業中,北大計算語言學研
究所的工作只是滄海一粟。國家“十五”計劃執行伊始,教
育部和國家語委組織制訂並論證今後五到十年語言文字應用
研究的規劃,確實是及時的。北大計算語言所非常高興能使
自己的局部研究融入總體規劃,並在主管部門的指導下為規
劃的實施奉獻綿薄的力量。
-------------------------

【參考文獻】

﹝1﹞
袁貴仁‧以規範標準建設為核心,開創語言文字應用研究新
局面﹝J﹞‧語言文字應用,2001,(3)
﹝2﹞
朱德熙‧漢語語法講義﹝J﹞‧北京:商務印書館,1982
﹝3﹞
陸儉明‧漢語句法成分特有的套疊現象﹝J﹞‧中國語文,1990,(2)
﹝4﹞
俞士汶,朱學鋒‧受限漢語研究的必要性﹝A﹞,王均‧語
文現代化論叢(第三輯)﹝C﹞
﹝5﹞
俞士汶,朱學鋒,王惠‧《現代漢語語法信息詞典》的新進
展﹝J﹞‧中文信息學報,2001,(1)
﹝6﹞
俞士汶,段慧明,朱學鋒等‧大規模標注漢語語料庫開發的
基本經驗﹝A﹞‧Proceedings of ICCC2001﹝C﹞‧56─60
﹝7﹞
俞士汶,段慧明,朱學鋒‧漢語詞的概率語法屬性描述﹝J﹞
‧語言文字應用,2001,(3)
﹝8﹞
Yu Jiangsheng, Yu Shiwen, Liu yang, Zhang Huarui,Introduction to CCD﹝A﹞‧ Proceedings of ICCC2001﹝C﹞‧
361 ─366
﹝9﹞
俞士汶‧計算語言學的應用研究與基礎研究﹝A﹞‧中國中
文信息學會二十周年學術會議﹝C﹞‧北京:清華大學出版
社,2001

Visit Cooltang's Homepage TOP