-
日期: 2016-04-20 | 來源: 李維博客 | 有0人參與評論 | 字體: 小 中 大
白: 字在字面上是什麼單位,跟字在語流中是什麼單位,可能不是壹回事。
我: 語流裡沒有字啊,只有音節,語素音節。書面文裡面沒有音節,只有字,語素字。單音節語素 or 漢字語素。贰者的統稱都是語素(morpheme)。
劉: 單字詞和成詞語素有區別,還涉及什麼是“詞”的問題。
我: 單字詞就是單語素詞。成語肯定是多語素單位了(多為合成詞,或短語,或小句)。還是舉例說比較好。
白: 機器字符流在沒有付諸顯示之前,是廣義的語流。沒付諸顯示的字符也是字。
我: 字符串很客觀,就是決定於 encoding,漢字字符串,還是 ascii 字符串,或者其他。
白: 所以,在字符傳輸、字符流線性處理的場景,字符流是語流,字符是字,贰者不互斥。
我: 無礙,看怎麼解釋這個 “語” speech or script,or both
白: both
我: 語流 可以 both,字壹般人不認為能 both,不過也無妨了,白老師要說的是什麼論點呢?
劉: 在《現漢5》中,是這麼處理的:對於單字義項,若有詞類標簽,視為單字詞,反之則為成詞語素。
我: 後者語言學叫 bound morpheme,不能獨立成詞。前者叫 free morpheme 既能單獨成詞,也不妨礙進入合成詞做構詞語素。
劉: 沒錯,實際合不合理不好說,還涉及究竟什麼是“詞”的認定。
我: 什麼是詞,掐了好多年了。其實大的方面有共識,細節求同存異,根據應用場景靈活就好了,這是學界。對於工程師和老百姓,最大的誤解是分不清詞匯的詞 vocabulary word 和語法的詞 grammar word,我博士論文專門用了壹章來梳理這個,因為它在形式化文法中足夠重要。語法的詞就是 X bar 中的 x,詞匯的詞就是垃圾。凡是進入詞典垃圾箱的都是詞匯表中的條目,伍花八門,是死記的,強盜綁架給語義和語法 features 和結構的。句法的基礎應該是 grammar word,可是我們卻不得不從查詞典出來的 vocabulary word 開始。這就是壹切爭吵的總根源。90%+ 的時候無爭議,因為詞匯詞與文法詞相重合。可是遇到不壹致的時候,就開始掐。語言學家愛大嘴仗。其實到了計算學界,其實也沒的可掐,就是系統內部的協調,不足為外人道。
好的NLP設計師,會把詞典的數據結構與語法分析過程中倚賴的數據結構同質化,這樣贰者可以合壹(unify),也就可以完全避免關於詞的沖突和爭吵了。壹個大於 grammar word 的單位今天扔進了詞典成為 vocabulary word,與昨天沒扔進詞典,從系統角度,是完全壹致的。換句話說,以前是根據規則合成的單位,與今天根據詞典強盜綁架出來的單位,可以同質了,那就沒有了爭吵的基礎。大同世界,詞民同此涼熱。
呂叔湘關於文法詞和詞匯詞有過很精到的論述。
董:
漢語中什麼是詞?是詞本位還是字本位?可以祖祖輩輩、壹代又壹代爭論下去。我說過,我們可以去問問普羅眾生,我們來問問壹個美學過語法和外語的人,問問他什麼是詞?翻譯、寫書算稿費用的單位是字。計算機中文詞頻統計,有許多不明不白的地方。既然西文什麼是詞的金標准是空格,United States是MWE,那我們為何不就管“搶劫”也叫MCE?HowNet說到漢語時,只說“字”和“詞語”,而不說“詞”(除了為了遷就別人)。
我: 字為基礎單位在漢語沒問題,而且無疑義。不過,根本的問題還是,壹個詞典不會只收“字”,即單字詞,我們還必須收多字詞。我們可以 argue 說,多字詞在英語對應的是成語詞(MWE),也壹樣進詞典,譬如 in fact,並不因為有了空格就不進詞典了。
白: “壹個叫董事的董事長大後做了董事長”
我: 這樣壹來,不僅僅根據空格斷英語的詞(詞典成語除外)可以成為清晰無誤的標准,根據漢字的編碼可以斷“詞”也是清晰無誤的標准。同時,根據詞匯表斷詞其實也是清晰無誤的標准,無論中外。這個詞匯表在任何壹個系統的任何壹個給定的時間點,它是靜態的,邊界清晰的。到了共同體,就人為指定壹個靜態的詞匯表,大家遵守而已。系統內部協調自然仍然是自家事兒,各自為政,不為外人道。
白: 詞典的收錄標准是耍流氓(無來由捆綁)。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見