從生成語言學到自然語言處理(一):LLM和人類一樣嗎?
句法語意 科技應用
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
我們進行這個實驗並不是想表達 LLM 不好,而是想實際應用簡單的語言學知識,驗證這些形式化的分析是否真的能實現「在接受這麼少的前提的情況下,知道這麽多」的效果。我們的實驗成果顯示 pyLiteracy 在文法檢查這類小型 NLP 任務中的表現十分出色。最重要的是,仰賴更貼近人類對語言的理解方式,它能用相比於 LLM 而言,非常非常少的資源就完成任務,在這個專案中,我們用非常非常少的語言學知識就省下了非常多的資源。
掌握母語知識後,幼兒便能開始創造其「一生中從沒看過或聽過」的句子。反觀 LLM,以 Meta 開發的 Llama 3.1 405B為例,根據官方給出的數據,其訓練資料包含超過 15 兆個字元,這幾乎可以說是網際網路出現以來所有的文本資料了,並且其訓練用的硬體設備不論在記憶體大小還是執行速度上,都遠超幼兒大腦。集大量軟硬體資源於一身的 LLM 在「語言知識」上仍與普通人類有基本的差異,甚至在某些特定情境下,不及那個每天早上只靠一杯咖啡保持頭腦清醒、侃侃而談的你。
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
前半段時間我專注於南島語資料的預處理,包括資料的讀取和寫出,以及學習使用「正規表達式」來抓取語料。後半段時間則著重在將處理好的語料套入字典內,並針對搜尋功能做調整,包括最基本的詞彙配對,以及 C 為所有子音、V 為所有母音、N 為所有鼻音的配對方式等等,便能以音結結構查詢詞彙。
我參與了卓騰語言科技的實習計畫,在這段兩個月的實習過程中,我不僅加深了對語言學理論的理解,還學習到如何利用自然語言處理(NLP)和自然語言理解(NLU)技術來解決現實中的問題。這次實習不僅讓我拓展了技術技能,更讓我體會到語言科技如何跨越學術和產業之間的界限。
本文為一系列作者對於語言學與自然語言處理活動及實習的心得紀錄,包含參與Python自然語言處理工作坊,以及林融與王文傑的演講紀錄
在這場講座中,Markl 博士討論了一些有關流行語言技術再現的語言意識的工作進展。她最近完成的博士研究聚焦於語言變異和自動語音識別中的算法偏見。在這項工作的基礎上,她實證了商業自動語音識別工具如何再製現有的語言等級制度,並考慮了用於評估自動語音識別工具的流行資料庫中存在的差距。Markl 博士正在探索對語音識別、生成式人工智慧和機器翻譯對我們思考和談論社群及其語言方式的影響進行理論化的方法。通過將有關技術和語言在社會中的功能的研究結合起來,Markl 博士的目標是澄清「新」技術——或者更確切地說是我們如何社會地構建它們——如何通過我們可能稱之為「演算法語言管理」的過程來放大舊的論述。