跳去內容

詞庫

出自維基百科,自由嘅百科全書
(由Lexicon跳轉過嚟)
2005 年一本拉丁文詞典;詞典想做嘅,就係要列出晒隻語言嘅 lexicon 入面嘅詞語
  提示:呢篇文講嘅唔係詞彙

詞庫粵音:ci4 fu3;參見英文lexicon),係指某隻語言或者某套知識裏面嘅詞彙嘅總和。例如粵語嘅詞庫包晒所有粵語口語會用嘅詞彙——語言jyu5 jin4)呢隻詞粵語口語會用,算係粵語詞庫嘅一部份[1][2];除此之外,一門知識都可以有佢哋嘅詞庫,例如係 AI 噉,做 AI 相關嘅工作會用到好多概念同埋行話,呢啲嘢入面包含嘅詞彙,可以算係 AI 呢個領域嘅詞庫,形成所謂嘅 AI 詞彙

語言學上,詞庫係一個重要嘅概念:一隻語言可以大致睇做詞庫同文法結合埋一齊而成嘅總體[3] ——詞庫包括咗大拃嗰隻語言裏面嘅詞彙,用語言嘅人要攞住啲詞彙,跟文法將啲詞彙砌埋做句子,達致表達佢哋想表達嘅意思;例如攞住粵語嘅詞彙[4]

bei2動詞)、bun2量詞)、syu1名詞)、ngo5代名詞

再跟粵語嘅文法規則砌成「畀本書我。」噉嘅句子[註 1]。因為詞庫咁基本,對佢哋嘅研究喺語言學同自然語言處理等語言相關嘅工作上相當受到重視。

詞彙學就係語言學嘅子領域,顧名思義專研究詞庫。

概念基礎

[編輯]
粵語詞庫其中一個 item
語音Maau1粵拼
漢字:貓
意思名詞,指一種動物,人成日養嚟做寵物或者幫手捉老鼠
例句:呢隻貓真係人見人愛,等我影佢嘅相再 share 畀朋友先!
内文:詞語語言詞彙lexeme
睇埋:構詞學

對於詞庫嘅具體定義,學界有幾套唔同嘅睇法[5]:2.6。根據某啲觀點,詞庫嘅最基本組成部份係詞語,而某啲觀點就認為詞庫嘅基本組成部份係形態素至啱。首先,而家淨係考慮口語,唔諗文字點寫住,詞由音素同埋形態素組成,當中

  • 音素:指令用隻語言嘅人能夠分辨兩隻詞嘅最細嘅單位;攞粵語做例子,粵語有元音輔音,噉想像以下嘅音[註 2]
    bou1(可以對應嘅漢字:煲)、dou1(可以對應嘅漢字:都、刀)——聽嘅人正路聽得出兩個聲唔同;
    bou1(可以對應嘅漢字:煲)、bo1(可以對應嘅漢字:波、玻)——聽嘅人都係會聽得出兩個聲唔同;
    ——「改變個元音或者輔音」呢吓舉動,能夠令吓聲唔同咗,而且仲係能夠做到「令吓聲唔同咗」嘅最細可能改動,所以呢啲元音同輔音就係粵語嘅音素[6]
  • 形態素:指可以有意思嘅最細可能單位,唔一定能夠自成一隻字詞;攞英文做例子,想像以下呢啲詞[7]:"Prefix"
    Redo動詞再做過噉解)
    Reappear(動詞再出現噉解)
    ——當中嘅 re- 本身唔能夠自成一隻詞,但帶有再... 噉嘅意思,同時 re- 再斬細件啲就唔會再有咩意思可言。所以 re- 係英文入面嘅一嚿形態素[8]

一隻詞會由若干嚿音素同若干嚿形態素組成。是但搵一個會用語言嘅群體,佢哋用嘅語言裏面有嘅詞擺埋晒一齊嘅整體,就係嗰個群體嘅詞庫,當中「群體」可以係[9]:講同一隻話嘅人,例:粵語嘅詞庫、閩南話嘅詞庫、英文嘅詞庫... 呀噉;做同一行嘅人——是但搵一門工作,嗰門工作都會有外人(講同一隻語言但唔係做嗰範嘅人)聽唔明嘅行話,所以一個行業可以有佢哋嘅詞庫,例:電腦科學嘅詞庫、工程學嘅詞庫、芭蕾舞嘅詞庫... 呀噉;用同一隻語言而且年齡差唔多嘅人——年齡唔同嘅人講嘢方式可以幾唔同,有陣時可能齋係聽一個人講嘢啲用詞就可以知佢年齡,例:粵語老人家嘅詞庫、粵語後生仔女嘅詞庫... 呀噉。

詞彙化

[編輯]
内文:詞彙化

詞彙化語言演變嘅重要一環,指「將新嘅詞(或者慣用語等使用詞嘅方法)加入去一隻語言嘅詞庫度」噉嘅過程[10]。詞彙化嘅過程可以係透過好多唔同嘅機制嚟做:

  • 合成詞(compound):技術化噉講,合成詞係指一個 lexeme 可能由多個詞幹組成,簡化講即係兩隻各有意思嘅詞砌埋一齊做一隻自成個新意思嘅詞;例如粵人史上第一次見到雪糕嗰陣,就攞住呢兩隻本身喺粵文入面可以獨自存在嘅形態素,砌埋一齊變成雪糕呢隻新詞,隻詞嗰兩橛對隻詞整體嘅意思嚟講都係必要嘅[11][12]
    • 粵語同普通話等嘅漢語出晒名多合成詞,例子有粵語入面嘅[13]
      hoi1 sam1(漢字:開心V-N
      ceot1 maau1(漢字:出貓;V-N)
      faa1 jyun2*4(漢字:花園;N-N)... 等等。
  • 頭字語:淨係適用於寫起上嚟會攞字母寫嘅語言,指將隻詞用字母寫低,再攞隻詞每個詞開頭嗰個字母,砌做一隻新詞,例如北大西洋公約組織個名噉,北大西洋公約組織嘅英文名叫
    North Atlantic Treaty Organization
    • 個全名咁長,啲人覺得吓吓都要講或者寫晒佢好煩(睇埋揳夫簡潔定律),所以就攞住嗰 4 隻詞開頭嘅字母—— N、A、T 同 O ——做隻新詞 NATO,用呢隻詞指北大西洋公約組織[14]
  • 借詞:指由第啲語言度借詞語嚟用[註 3][15]

... 等等。

語料分析

[編輯]

從事語言相關工作嘅人,成日都會靠住分析語料嚟研究一隻語言嘅詞庫。例如協氏定律就好出名:協氏定律係語言學上一條靠實證[註 4]得出嘅定律;根據協氏定律,以下呢條式實會成立[16]

,當中

指一份 隻詞咁長嘅文件入面有幾多隻唔同款嘅詞——我我係兩隻同款嘅詞,我係係兩隻唔同款嘅詞, 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6(睇附圖)。用日常用語講嘅話,協氏定律講嘅嘢即係「一份文件嘅長度愈長,愈難搵到新鮮嘅詞」。協氏定律講嘅嘢畫做圖嘅樣如下,當中打戙軸打橫軸

睇埋

[編輯]

註釋

[編輯]
  1. 而「給本書我」噉嘅句子喺中文書面語(原則上文法要跟普通話)入面文法會唔啱。
  2. 如果唔識睇呢度啲拼音,可以去參考吓粵拼
  3. 不過「借詞語碼轉換之間嗰條界線喺邊」係條大問題。
  4. 即係話語言學家都唔肯定點解會有噉嘅現象,但總之實際睇數據嗰陣就係睇到噉嘅規律。

引咗

[編輯]
  1. Lai, R., & Winterstein, G. (2020, May). Cifu: a frequency lexicon of Hong Kong Cantonese. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3069-3077).
  2. CC-Canto beta.
  3. Dominiek, Sandra; Taft, Marcus (1994). Morphological structure, lexical representation, and lexical access. Lawrence Erlbaum Associates, Publishers.
  4. Matthews, Stephen; Yip, Virginia (2011). Cantonese: A Comprehensive Grammar (2nd ed.). London: Routledge.
  5. Aronoff, M., & Fudeman, K. (2022). What is morphology?. John Wiley & Sons.
  6. Phoneme. Encyclopedia Britannica.
  7. Master List of Morphemes: Suffixes, Prefixes, Roots (PDF). Florida Department of Education.
  8. Haspelmath, Martin (2010). Understanding Morphology. Andrea D. Sims (2nd ed.). London: Hodder Education.
  9. [1]
  10. Lipka, Leonhard (January 1992). "Lexicalization and Institutionalization in English and German" (PDF). Linguistica Pragensia: 1-13.
  11. ice-cream (n.). Online Etymology Dictionary.
  12. 7.2 Compound Words. Essentials of Linguistics. Open Library.
  13. Kin-chung, C. H. I. N. (2003). On the Interface Properties of Cantonese Verb-Object Compounds (PDF) (Doctoral dissertation, The Chinese University of Hong Kong).
  14. What Is an Acronym? Definition and Examples. Grammarly.
  15. Kang, Y. J. (2013). Loanwords. Oxford Bibliographies.
  16. Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).