從生成語言學到自然語言處理(二):LLM 的推理 v.s. 人類的推理

掌握母語知識後,幼兒便能開始創造其「一生中從沒看過或聽過」的句子。反觀 LLM,以 Meta 開發的 Llama 3.1 405B為例,根據官方給出的數據,其訓練資料包含超過 15 兆個字元,這幾乎可以說是網際網路出現以來所有的文本資料了,並且其訓練用的硬體設備不論在記憶體大小還是執行速度上,都遠超幼兒大腦。集大量軟硬體資源於一身的 LLM 在「語言知識」上仍與普通人類有基本的差異,甚至在某些特定情境下,不及那個每天早上只靠一杯咖啡保持頭腦清醒、侃侃而談的你。

從生成語言學到自然語言處理(二):LLM 的推理 v.s. 人類的推理

文:陳畯田(國立陽明交通大學外文所語言學組碩士生)

LLM與人類大腦處理語言方式的不同,也導致兩者在「理解語言」乃至「邏輯推理」方面有落差。舉數學推理為例,此項能力對於解決科學和實際應用問題尤為重要,而 GSM8K [1] 是一個評估 LLM 數學推理能力的資料集,資料集中包含簡單的數學應用問題和相對應的詳細解題過程,近期由一眾 Apple 研究人員所發表的文章提及,LLM 在面對相同的數學應用問題時,會因為題目的敘述方式或者數值的改變,而給出不同的推論過程。

比如說,在數學應用問題的「蘋果加總」問題裡,加插一句無關蘋果數量變化的「這些蘋果都是小明的媽媽昨天在水果市場特別買的」,就足以使得LLM 產生不同的推論過程和計算結果;然而,人類學童在語言能力典型的情況之下,應能理解題目文句背後的邏輯概念而不受表達方式的影響。

Apple研究人員的文章中亦提及,雖然 LLM 可以模擬抽象的推理表達過程,但其推理過程其實只是機率樣式匹配,而不是形式邏輯推理 [2]。形式邏輯推理的缺乏導致 LLM 在邏輯推理方面表現得敏感和脆弱,可能因輸入的符元中有微小的變化,而生成非常不一樣的結果。此外,在需要正確預測多個符元的任務中,LLM 得出準確答案的機率,會隨著涉及的符元數目或步驟的數量呈指數下降,使得其在複雜推理場景中不大可靠。   

雖然從實用工具的角度看,LLM 的答覆是很有幫助的,LLM在這些無關緊要的日常問答上表現是否和人類一樣,並不是那麼重要,但是別忘了,對於認知科學家而言,我們想知道的是「LLM 和人類在語言方面的不同」。任何一個具備華語母語知識的人,面對前一篇文章中關於麵包與貓咪的提問,都不會出現類似於LLM的答覆行為,揭露人的語言知識與運用與 LLM 的語文字串生成有本質上的差異。

此處會特別強調母語是有原因的,如果仔細思考,便會意識到「習得(acquire)」母語和「學習(learn)」外語的過程是不一樣的。比如文章之前提到的功能詞,絕大多數母語者並不會在幼兒時期就接受過任何系統性教學,告訴小孩母語功能詞的使用規則,然而,幼兒卻能在大腦發展尚未成熟時,僅僅靠著與家人重複性極高的日常對話和少量如兒童讀物、卡通等外部刺激,快速掌握甚至到成年後都無法具體說明的母語語法。

此外,掌握母語知識後,幼兒便能開始創造其「一生中從沒看過或聽過」的句子。反觀 LLM,以 Meta 開發的 Llama 3.1 405B為例,根據官方給出的數據,其訓練資料包含超過 15 兆個字元,這幾乎可以說是網際網路(Internet)出現以來所有的文本資料了,並且其訓練用的硬體設備(16,000 個NVIDIA H100 Tensor Core GPUs,價格超過六億美元)不論在記憶體大小還是執行速度上,都遠超幼兒大腦。集大量軟硬體資源於一身的 LLM 在「語言知識」上仍與普通人類有基本的差異,甚至在某些特定情境下,不及那個每天早上只靠一杯咖啡保持頭腦清醒、侃侃而談的你。

在這樣的事實前提下,你可能會疑惑,人類幼兒為什麼不需要大量語言刺激,便可以這麼有效率地發展出母語知識?若是這樣,你則和生成語言學家(generative linguists)一樣,思考著柏拉圖問題(Plato's problem)——「我們如何能夠在接受這麼少的前提下,知道這麼多?」(How we can know so much given our limited experience?)

針對這個問題,現代生成語言學之父 Noam Chomsky 從 1957 年起便倡議普通人類嬰兒在出生時,心智都是準備好發展語言的(language-ready),而所有人類嬰兒的心智都有那麼一個「普遍語法」(Universal Grammar),一套所有人類語言所共有的原則和參數體系(Principle and Parameters),協助嬰幼兒過濾與處理有限的語言刺激,逐步發展成為特定語言的完整語法知識。

舉「詞組中心語方向參數(head-directionality parameter)」為例,在像華語一樣「名詞中心語在後」的語言(head-final language)裡,要指涉一棟「紅色的/房子(中心語)」,我們會說「紅/房子(中心語)」,而在像義大利語一樣「名詞中心語在前」的語言(head-initial language)中,會被表示為「房子(中心語)/ 紅」(casa rossa)。而任何一個根本聽不懂這些說明的幼兒,卻能依循相同的詞組規則,創造出不存在卻又合理的名詞組(phrase),比如「蜂蜜/蟲 (中心語)」(指蜜蜂)或是「刷牙/醬 (中心語)」(指牙膏)。相較之下, LLM 不具備此類能力,LLM無法依據既定名詞組規則,產出創新名詞組。因為上述的名詞組,不管是「蜂蜜蟲」或是「刷牙醬」,在我創造它們之前,並不存在於 LLM 的訓練文本資料中。

當然,我們也可以試著假設,人類的語言能力是像 LLM 那樣「從零開始,藉由萃取海量資料的機率分佈而來的」,但是這麼一來,要解釋上述「憑空創造合理名詞組」的現象會較為困難,因為在幼兒的生活環境中,從大人口中聽到如上述「不存在卻又合理的詞組」的機率非常低。

值得一提的是,不同於刻板印象中對不同語言的「文法」描述,1957 年後的現代理論語言學是一門專注在運用形式語言(即 formal language,如數學與邏輯符號)進行系統化分析的科學。定義上,科學研究從觀察、假設、實驗、分析到結論,每一個步驟都必須經過驗證和試誤,而理論語言學則在普遍語法的框架下,用數學與邏輯符號這類客觀中立的形式工具,將人類語言的運作機制模型化(modeling),理論語言學家用樹圖(tree)來演示詞組的「成對融接 (binary merge)」 的過程、用邏輯式來分析與計算語意,在一個嚴謹的理論框架下進行推演,研究人類語言的運作機制。

這麼做的好處在於能夠跳脫 GOFAI(Good old fashioned artificial intelligence)時期,提出的龐雜、細碎、缺乏統整性的語言規則,譬如英語課時,老師常常要同學背誦的「在…的時候動詞要加 “s”;在…的時候,動詞要加 “es”;在…的時候,動詞要加 “ed”」

如果能用中立的形式工具分析,並將所有人類語言的根本差異參數化、模型化,我們將不再需要關心這麼繁雜的敘述性規則,而是更系統性地,從觀察「為什麼英語的動詞會有這樣的時態變化而華語卻沒有?」,到做出「人類語言對於時態的表示,可能反應在句法上(如華語),或是構詞上(如英語)」這種「原則性」的假設,之後用這樣的差異在參數系統下形式化。

而對於語言科學的研究進展來說,這個研究脈絡的貢獻是「在全人類語言的範圍內,系統性的參數差異是有限的」,相比於對文法的規則描述,在數量上也會從無限多條,大幅收斂到有限且可預測。

至此,我們可以觀察到生成語言學家在探究的計算方法(Computation Approach)具有以下特點:

(1)    

a.    最小的資料條件下(嬰兒只接觸了有限的語言刺激)。

b.   最低需求的運算能力(嬰兒、幼兒的大腦尚未發展完成)。

c.   僅憑每兩個小時補充幾 CC 的奶水,便能高效運作,理解複雜指示(「把你昨天放到爸爸鞋子裡的第二個藍色樂高積木拿出來」)的語意。

與之對比,LLM 的計算方法(Calculation Steps of Transformer)則具有以下的特徵:

(2)    

a.    資料愈多愈好,品質愈高愈好!

(但ChatGPT3.5 需要人類九千輩子才能讀得完的文本量才能訓練完成,人類嬰幼兒)可沒有機會與時間接觸過這麼多語料! 

b.   運算力愈高愈好!

(Nvidia 因大量的訂單,使得股價在 1 年內漲了 3 倍,而 AI 大廠們仍然覺得運算力不足。)

c.   耗電量的問題!

(2023 年,單就 OpenAI 的 ChatGPT 的耗電量,就足以供全美家庭用電兩年之久。Apple 於 2024 年由Mirzadeh等人發表的的研究論文指出消耗了這麼多能源的 LLM 仍然無法處理 GSM(國小數學應用問題)中的語意。)

註解

[1] Cobbe, Karl & Kosaraju, Vineet & Bavarian, Mohammad & Hilton, Jacob & Nakano, Reiichiro & Hesse, Christopher & Schulman, John. (2021). Training Verifiers to Solve Math Word Problems. 10.48550/arXiv.2110.14168.

[2] Mirzadeh, Iman & Alizadeh, Keivan & Shahrokhi, Hooman & Tuzel, Oncel & Bengio, Samy & Farajtabar, Mehrdad. (2024). GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. 10.48550/arXiv.2410.05229.

作者介紹

陽明交通大學外國語文系

陽明交通大學外國語文系

國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。

本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。

在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。

相關文章

<< 上一篇