
從生成語言學到自然語言處理(一):LLM和人類一樣嗎?
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
在人工智能與語言科技迅速交匯的時代,語言學正展現前所未有的活力與挑戰。本集我們特別邀請到周昭廷副教授,與我們深入探討語言學與人工智能交融的學術新局。從生成語言學的啟蒙歷程到回台後的跨界創新,周教授以幽默而富有前瞻性的視角,帶領聽眾穿梭在理論與實踐之間,揭示語言科技背後那些耐人尋味的故事與啟示。
我們常聽到像「台積電雇了30%的本地人」這樣的句子,乍聽之下語意清楚,實則存在歧義。這句話可以理解為(1)台積電的員工有30%是本地人,或(2)所有本地人中有30%被台積電雇用。這樣的語意歧異來自於「百分比」表達與語句中其他成分的轄域互動。新加坡南洋理工大學的李昊澤教授的研究針對這類語句進行語意層面的深入剖析。
所謂的言語就是許多的句子,又或者更正確地說——命題。而命題,就是可以判斷其真假的句子,例如:「會死的都是人。」這句話我們可以明確地給出一個反例(例如狗、貓也會死),因而否定其真值。
本場演講題為「再一次,再一次:『連鎖』再現——恢復性解讀與狀態變化謂語」,深入探討 "again" 一詞背後的語意解讀機制,講者Andrew Weir教授曾分別在愛丁堡、倫敦大學學院、馬薩諸塞大學深造,並於比利時根特大學完成博士後研究,現任挪威科技大學首席副教授。
而要從學習上得到成就感,我覺得最大的因素之一就是學以致用。當我們要說一個「法國的英文老師」會說 “a French English teacher”,而非 “an English French teacher”。你有沒有想過為什麼呢?
我們進行這個實驗並不是想表達 LLM 不好,而是想實際應用簡單的語言學知識,驗證這些形式化的分析是否真的能實現「在接受這麼少的前提的情況下,知道這麽多」的效果。我們的實驗成果顯示 pyLiteracy 在文法檢查這類小型 NLP 任務中的表現十分出色。最重要的是,仰賴更貼近人類對語言的理解方式,它能用相比於 LLM 而言,非常非常少的資源就完成任務,在這個專案中,我們用非常非常少的語言學知識就省下了非常多的資源。
掌握母語知識後,幼兒便能開始創造其「一生中從沒看過或聽過」的句子。反觀 LLM,以 Meta 開發的 Llama 3.1 405B為例,根據官方給出的數據,其訓練資料包含超過 15 兆個字元,這幾乎可以說是網際網路出現以來所有的文本資料了,並且其訓練用的硬體設備不論在記憶體大小還是執行速度上,都遠超幼兒大腦。集大量軟硬體資源於一身的 LLM 在「語言知識」上仍與普通人類有基本的差異,甚至在某些特定情境下,不及那個每天早上只靠一杯咖啡保持頭腦清醒、侃侃而談的你。
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
本文為一系列作者對於語言學與自然語言處理活動及實習的心得紀錄,包含參與Python自然語言處理工作坊,以及林融與王文傑的演講紀錄