自然語言處理在低資源語言中的挑戰與機會 (二)

大型語言模型 (LLMs) 在自然語言處理 (NLP) 領域取得了顯著的技術突破。然而,在其廣泛應用的背後,存在著一個核心問題:LLMs 是否能在所有語言中保持一致的表現?特別是對於「低資源語言」而言,LLMs 的表現及困境仍然是亟待探討的重要課題。

自然語言處理在低資源語言中的挑戰與機會 (二)

文:李恬甄(國立陽明交通大學外文所語言學組碩士生)

LLMs 在低資源語言中的局限

Zhong 等人在 2024 年則從更廣泛的視角,探討了 LLMs 應用於低資源語言的機遇與挑戰 [1],其內容與 Hasan 等人在 2024 年以及 Lin 等人在 2025 年的實證發現相互印證。包含以下重點:

1.         語料稀少與品質問題:低資源語言普遍缺乏足夠的文本語料庫,不僅數量不足,品質也常不穩定,且缺乏標準化,導致模型難以有效學習。另外,語料收集本身涉及資金有限和文化敏感的議題,使語料累積速度緩慢。

2.         模型能力與適應性限制:由於訓練資料以英語等高資源語言為主,LLMs 對低資源語言的詞彙、語法與語義缺乏充分的先驗知識,因此表現明顯落後。面對方言差異或古老語言,模型的泛化能力不足,往往難以捕捉獨特語法與語境特徵。在文學或宗教文本中,模型對隱喻、多層次意涵的理解亦有限。

3.         語言複雜性與多樣性挑戰:低資源語言往往呈現高度的方言差異與地區變體,即使在同一語系內也存在顯著差異。部分語言缺乏標準化寫法,或採用難以數位化的文字系統,增加了文本處理難度。口語與書面語的不一致性以及語言隨時間演變的變異,進一步增加了建模的複雜性。

4.         文化敏感性與偏見:由於 LLMs 的訓練資料主要來源於高資源語言與主流文化,模型往往傾向於將主流文化的視角投射到低資源語言,從而忽略其獨特的文化與語言特徵,使得模型在處理俚語、諺語或隱喻時表現不足,亦缺乏對跨文化語境的深層理解能力,最終導致輸出結果產生偏差或失真。

5.         技術與基礎設施限制:低資源語言缺乏完善的 NLP 工具,如詞性標註與高品質的語料庫。現有技術多針對高資源語言設計,效率有限。許多低資源語言地區也缺乏運算資源與基礎設施,高昂的成本使在地研究難以推進。此外,光學字元辨識技術 (Optical Character Recognition, OCR) 在古籍與非標準文字處理上表現不佳,進一步限制了模型的應用。

6.         人力資源與倫理考量:精通低資源語言的專家人數稀少,使資料建構與模型驗證困難重重,若未能及時保存,不僅語言本身將面臨消亡,與之相伴的文化與歷史知識也可能隨之流失。此外,LLMs 也可能無意間加劇語言邊緣化,將多數語言規範強加於少數語言,進而造成語言同質化。

低資源語言 NLP 的潛在解決方案

從上述三篇文獻回顧可以看出,現今主流的 LLMs 在處理低資源語言時,仍存在諸多困難與挑戰。以圖 5 為例,我針對 ChatGPT 進行了測試,圖的右側為提示詞,左側為 ChatGPT 的回覆,測試內容為「西拉雅語 ka 句法功能判讀」。測試結果顯示,LLM 雖能依照提示詞正確判別 ka 的句法功能,但其句法分析建立於錯誤的詞彙分析之上,因此整體結果並不具可靠性 ,該測試句「ni-kit-an tin ta atakuan ka ait」的正確詞彙標記應為「past-see-lv he.gen nom place ka linen」,而 ChatGPT 在這個例子中,錯誤地分析了每個詞彙。這個結果也告訴我們,光看 LLM 正確率是不能夠斷言「LLM 懂句法結構」。

在低資源語言僅存在少量語料的前提下,我作為語言學研究生所提出的解決思路,是運用語言學知識,透過有限的語言結構,涵蓋語料中可能出現的句型,從而建立可行的 NLP 模型。

圖 5. ChatGPT-5 對西拉雅語 ka 的判讀表現 (測試日期:2025 年8 月 30 日)

測試連結:https://chatgpt.com/share/68b26bd5-a304-8000-adca-c12bff09c494

西拉雅語的 NLP 解決方案

我的碩論便是在研究台灣的低資源語言——西拉雅語,研究聚焦於西拉雅語中的功能詞 ka,該詞具有多種句法功能,不僅能引介關係子句、補語子句,還能作為連接詞使用,研究旨在探討 ka 在不同語法功能中所出現的句法環境,並提出可行的 NLP 方案。

首先,我先透過語言學的知識,分析 ka 在不同用法的句法環境:當 ka 引介關係子句時,主句謂語的論元結構已經完整,因此論元不需包含 ka 子句;當 ka 引介補語子句時,主句謂語的論元尚未滿足,論元需要包括 ka 子句才能滿足;而當 ka 作為連接詞使用時,ka 所連接的子句,各自具有獨立完整的論元結構。

接著,我的研究結果則可以利用 Loki NLU (https://nlu.droidtown.co/document/#Loki) 系統做出「透過句法分析轉為底層論元結構」的操作,如圖 6,三個句子分別對應到 ka 的三種用法:complementizer、relativizer 以及 coordinator。不同的語言在表層的句法表現不一樣,但語意層的論元結構是全人類共有的。因此,我利用英文版 Loki NLU 系統,搭配西拉雅語語料中的英文詞彙翻譯,幫我處理語意層的論元結構計算,再依此反推 ka 在不同語法功能中所出現的句法環境,最後得出 ka 在該句子裡的功能。例如圖 7,箭頭左側為測試句,箭頭右側為該測試句比對到在圖 6已建立的第二個句型,透過程式碼抓取主句謂語 (測試句中為 see) 的論元,論元已滿足時 (測試句中論元為 he 和 place),回傳 ka 為 relativizer,即其作為引介關係子句的用法。以語言學知識為基礎建立的 NLP 工具,給出這樣的正確答案,才是知其然,亦知其所以然。

圖 6. 將句型建立至 Loki 介面中的 Utterance。

圖 7. 檢驗主句謂語的論元,並回傳 ka 句法功能的結果。

註解

[1] Zhong, Tianyang, Zhenyuan Yang, Zhengliang Liu, Ruidong Zhang, Weihang You, Yiheng Liu, Haiyang Sun, Yi Pan, Yiwei Li, Yifan Zhou, Hanqi Jiang, Junhao Chen, Peng Shu, Shaochen Xu, Zihao Wu, Huaqin Zhao, Wei Ruan, Xinliang Li, and Tianming Liu. 2024. Opportunities and challenges of large language models for low-resource languages in humanities research. arXiv preprint arXiv:2412.04497.

文章分類

作者介紹

陽明交通大學外國語文系

陽明交通大學外國語文系

國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。

本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。

在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。

相關文章

<< 上一篇