自然語言處理在低資源語言中的挑戰與機會 (一)
大型語言模型 (LLMs) 在自然語言處理 (NLP) 領域取得了顯著的技術突破。然而,在其廣泛應用的背後,存在著一個核心問題:LLMs 是否能在所有語言中保持一致的表現?特別是對於「低資源語言」而言,LLMs 的表現及困境仍然是亟待探討的重要課題。

文:李恬甄(國立陽明交通大學外文所語言學組碩士生)
低資源語言是什麼?
低資源語言 (Low-Resource Languages) 是指缺乏充分數位語言資源的語言,語言資源通常包括語料庫、詞典以及經過人工標註的資料集。而低資源語言普遍缺乏大量的數位化文本,並對 NLP 研究與應用構成了嚴峻挑戰。
LLMs 在不同語言中的表現是否一致?
以下回顧了兩篇探討 LLMs 在低資源語言表現的研究,結果均顯示,LLMs 在低資源語言上的表現明顯落後於高資源語言。
南亞的低資源語言研究
Hasan 等人在 2024 年為了探討 LLMs 在不同語言中的表現,針對高資源語言英語,以及三種南亞的低資源語言——孟加拉語、印地語和烏爾都語,進行了一項比較研究 [1]。
該研究選用了三種主流 LLMs,包括 GPT-4、LLaMA 2 和 Gemini Pro,並採用零樣本學習 (zero-shot learning) 方法。零樣本學習方法是指模型在沒有針對特定任務進行訓練的情況下,透過自然語言指令來描述任務及預期輸出,從而建立上下文,以生成更合適的結果。
該研究在自然語言推斷 (Natural Language Inference, NLI)、情感分析 (Sentiment Analysis),以及仇恨言論偵測 (Hate Speech Detection) 三項任務中進行系統性評估。三項任務的的提示詞 (prompt) 分別呈現於圖 1至圖 3。以下將分別說明這三項任務的定義與範例。
圖 1. 用於自然語言推斷任務的零樣本學習提示詞 [1]。
圖 2. 用於情感分析任務的零樣本學習提示詞 [1]。
圖 3. 用於仇恨言論偵測任務的零樣本學習提示詞 [1]。
NLI 為一個判斷某個自然語言假設 h,是否能夠合理地由某個自然語言前提 p 推導出的問題,以 (1) 為例 [2]。
(1) NLI 中的前提 (p) 與假設 (h):
a. Several airlines polled saw costs grow more than expected, even after adjusting for inflation.(接受調查的幾家航空公司發現,即使經過通貨膨脹調整後,成本成長仍超過預期。)
b. Some of the companies in the poll reported cost increases. (一些受調查的公司報告成本增加。)
在 NLI 的問題設定中,(1) 會被認為是一個有效的推論,因為一般人在聽到 (1a) 中的 p 之後,很可能會接受 (1b) 中的 h 是合理的結論。然而,h 並不是 p 的嚴格邏輯結果,例如,「seeing」並不必然意味著「report」,有可能調查中的每家公司都對成本上升保持沉默。
情感分析任務通常涉及判斷一段文字表達的是「正面」、「負面」,還是「中立」 的情感;而這種情感既可以是一般性的,也可以針對特定主題,例如某個人、某個產品,或某個事件,以 (2) 為例,整體情感為「中立」,針對 Apple 這個主題的情感也是「中立」。
(2) Apple releases a new update of its OS.(蘋果發布了作業系統的更新)
仇恨言論雖然沒有明確的正式定義,但普遍共識認為,它是指針對弱勢社會群體,並可能對其造成傷害的言論 [3]。
在語料來源方面,該研究針對三個核心任務分別選用了不同資料集:自然語言推斷使用跨語言自然語言推斷 (XNLI) 測試集 [4],涵蓋英語、印地語與烏爾都語,而孟加拉語測試集,則是採用 Bhattacharjee 研究團隊 2021 年的翻譯版本 [5]。情感分析與仇恨言論偵測任務中,分別採用了 SemEval-2017 task 4 [6] 與 Davidson 等人 2017 年研究中的英文測試集 [3],並將其翻譯為孟加拉語、印地語和烏爾都語。值得注意的是,這些翻譯是依賴 Google 翻譯產生,且未經人工驗證,這也為實驗結果的可靠性帶來一定限制。
實驗結果顯示,所有 LLMs 在英語任務中的表現均顯著優於低資源語言,除了 Gemini 在情感分析任務中的表現,在所有語言中幾乎相同。在 NLI 任務中,GPT-4 在英語上的準確率比孟加拉語、印地語和烏爾都語分別高出 18.04%、17.38% 和 22.81%;LLaMA 2 在英語上的表現也比這三種低資源語言高出約 30%。情感分析任務方面,GPT-4 在英語上的表現平均比其他語言好約 13%;Llama 2 在英語上的表現平均比其他語言好約 11%。仇恨言論檢測任務中,GPT-4 在英語上的表現平均比低資源語言好約 22%。LLaMA 2 和 Gemini 在英語上的表現也分別比低資源語言好約 17% 和 18%。
此外,三項任務中以 NLI 的表現最佳,因為 NLI 任務具有明確的規則和結構模式,其語境主要存在於句對中,LLMs 能夠更好地理解;相對之下,情感分析與仇恨言論偵測更依賴對語境的理解以及主觀判斷,對 LLMs 來說更具挑戰性。
綜合分析顯示,LLMs 在高資源語言與低資源語言之間的表現差異,主要源於訓練語料比例、文化語境以及語料品質等因素。首先,當前 LLMs 的訓練資料中約有九成為英語,而低資源語言的語料極為有限,導致模型在不同語言間的學習不平衡。其次,文化與語境差異在情感分析與仇恨言論偵測等任務中特別顯著,模型往往無法正確理解隱含於特定語言與文化脈絡中的語意。最後,低資源語言的語料大多透過機器翻譯,且未經人工驗證,容易造成語意偏差,並進一步影響模型表現。
這項研究不僅揭示了當前 LLMs 在處理多樣化語言方面存在的顯著差距,也強調了針對低資源語言改進 LLMs 的必要性。研究指出,若要提升 LLMs 在低資源語言中的應用性,需要克服語料稀少、計算成本高昂,以及相關研究不足等限制。
台灣的低資源語言研究
Lin 研究團隊 2025 推出了 FormosanBench [7],針對低資源南島語言設計的多任務基準測試 (multi-task benchmark),旨在評估 LLMs 在低資源南島語言上的表現,特別是針對台灣的三個瀕危南島語言——阿美語、泰雅語和排灣語,這些語言的選擇是基於其語言多樣性、總使用人數超過十萬,以及現有數位資源的可用性。
研究評估了多種最先進的 LLMs (如 LLaMA 3.1, Gemma-1.1, Mistral-7B v0.3, NLLB-200, GPT-4o, Whisper, SeamlessM4T, MMS-1b-all),採用了零樣本、10 樣本上下文學習 (10-shot in-context learning) [8] 和微調 (fine-tuned) 等設定,並使用 BLEU、WER 和 ROUGE 等標準指標進行評估。
BLEU (Bilingual Evaluation Understudy),主要用於機器翻譯任務,衡量模型輸出與參考翻譯之間的 n-gram 精確度(通常計算至 4-gram),分數越高表示翻譯品質越好 [9]。WER (Word Error Rate),主要用於自動語音識別任務,量化了語音轉錄中的詞彙層級錯誤比例,WER 越低表示語音識別的準確性越高。ROUGE (Recall-Oriented Understudy for Gisting Evaluation),用於評估摘要品質,根據生成摘要與參考摘要間的重疊單位計算,ROUGE 分數越高通常表示摘要品質越好 [10]。
該研究涵蓋了三個核心 NLP 任務,分別為機器翻譯 (MT)、自動語音識別 (ASR) 和文本摘要,語料分別來自台灣原住民族語言線上辭典、FormosanBank 與 Klokā 數位語言學習平台,以及以台灣南島語言撰寫的維基百科文章。三項任務描述呈現如圖 4。
圖 4. FORMOSANBENCH 資料集的任務描述。所有提示皆以中文撰寫,但在此提供英文版本以便說明。至於摘要任務,括號內的文字則表示以台灣南島語撰寫的內容 [7]。
研究結果顯示,現有最先進的 LLMs 在台灣南島語上的表現顯著落後於高資源語言,凸顯低資源語言處理的瓶頸。於機器翻譯任務中,所有模型在零樣本情境下,所有模型的 BLEU 分數幾乎為零,尤其是從台灣南島語翻譯成華語時,翻譯幾乎完全失敗,這表示模型未能理解和翻譯這些低資源語言。
在自動語音辨識任務中,MMS 模型在三種台灣南島語中,零樣本情境下,皆取得較低的 WER,歸因於其大規模的多語言訓練,及其專為低資源語言環境優化的架構。
至於文本摘要任務,模型輸出多混雜華語詞彙,ROUGE 分數偏低,這表示模型在理解和生成目標語言內容方面存在困難。僅 GPT-4o 在十樣本學習中,表現有相對改善,但人工評估指出其改善源於「表層模式複製」,模型從範例中重現結構和詞彙模式,而非真正的「語義理解」,且常伴隨事實錯誤。
總體而言,研究強調當前 LLMs 在處理台灣南島語言時,面臨巨大挑戰,迫切需要針對這些低資源語言進行更多專門研究和模型開發。
註解
[1] Hasan, Md. Arid, Tarannum Prerona, Krishno Dey, Imran Razzak & Usman Naseem. 2024. Do large language models speak all languages equally? A comparative study in low-resource settings. arXiv preprint arXiv:2408.02237.
[2] MacCartney, Bill. 2009. Natural language inference. Stanford University.
[3] Davidson, Thomas, Warmsley, Dana, Macy, Michael, Weber, Ingmar. 2017. Automated hate speech detection and the problem of offensive language. In Proceedings of the 11th International AAAI Conference on Web and Social Media (ICWSM ’17), pp. 512–515.
[4] Conneau, Alexis, Rinott, Ruty, Lample, Guillaume, Williams, Adina, Bowman, Samuel R., Schwenk, Holger, Stoyanov, Ves. 2018. XNLI: Evaluating cross-lingual sentence representations. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.
[5] Abhik Bhattacharjee, Tahmid Hasan, Kazi Samin, Md Saiful Islam, Anindya Iqbal, M. Sohel Rahman & Rifat Shahriyar. 2021. Banglabert: Combating embedding barrier in multilingual models for low-resource language understanding.
[6] Rosenthal, Sara, Farra, Noura, Nakov, Preslav. 2017. SemEval-2017 task 4: Sentiment analysis in Twitter. In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval ’17), Vancouver, Canada. Association for Computational Linguistics.
[7] Lin, Kaiying, Hsiyu Chen & Haopeng Zhang. 2025. FormosanBench: Benchmarking low-resource Austronesian languages in the era of large language models. arXiv preprint arXiv:2506.21563.
[8] 10 樣本上下文學習是指在輸入提示中,提供 10 個任務相關的示範範例,讓模型依照這些例子推理並產生新輸入的答案。
[9] Papineni, Kishore, Roukos, Salim, Ward, Todd, Zhu, Wei-Jing. 2002. BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pp. 311–318.
[10] Lin, Chin-Yew. 2004. ROUGE: A package for automatic evaluation of summaries. In Text summarization branches out, pp. 74–81.
文章分類
作者介紹

陽明交通大學外國語文系
國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。
本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。
在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。
相關文章

自然語言處理在低資源語言中的挑戰與機會 (二)
大型語言模型 (LLMs) 在自然語言處理 (NLP) 領域取得了顯著的技術突破。然而,在其廣泛應用的背後,存在著一個核心問題:LLMs 是否能在所有語言中保持一致的表現?特別是對於「低資源語言」而言,LLMs 的表現及困境仍然是亟待探討的重要課題。

語料庫,語料酷: 讓數據替人文議題說話
在過去,人文學科往往依賴於小規模文本的精讀與詮釋。研究者透過細膩的閱讀、比較與理論架構來理解語言與文化。然而,隨著數位化與科技發展,語言學研究也迎來了新的可能性。大量文本能以「語料庫」的形式被蒐集、整理,並透過電腦工具進行處理與分析。這樣的轉變不只是技術性的革新,更是人文研究的一次「進化」。