語言、邏輯與計算:語言學學生眼中的形式語意學與 Wolfram|Alpha (一)

在本月 (以及下一個月)〈言來如此〉科技應用專欄中,本篇文章將先簡要介紹作者於書中第一篇〈ChatGPT 在做什麼?它為何能做到這些?〉中,針對 ChatGPT 運作本質及隨機性的核心觀察。而因為本文重點放在ChatGPT與語言學的關聯,內容將會略過有關大型語言模型訓練原理、過程以及神經網路技術相關的內容。接著,我會分享對於書中所提到「將自然語言轉換為計算語言」這個過程的想法並進一步討論它如何與語言學產生有意思的呼應。同樣地,此節內容將聚焦於Wolfram | Alpha 和語言學之間可能產生的連結,而不深入涉及語言學相關的理論和技術。

語言、邏輯與計算:語言學學生眼中的形式語意學與 Wolfram|Alpha (一)

文:陳畯田 (國立陽明交通大學外文所語言學組碩士生)

電腦科學、數學與理論物理學家 Stephen Wolfram,是計算軟體 Mathematica(後來發展成 Wolfram 語言)與知識型計算引擎 Wolfram | Alpha 的主要開發者。2023 年,他發表了一篇長文What Is ChatGPT Doing... and Why Does It Work?[1](簡中翻譯版書名為〈這就是 ChatGPT〉;註:因此譯本僅有簡中版本,故引用原文時若有與台灣慣用譯詞不同之處,將另外註記。),以科普的角度解釋 ChatGPT 背後的運作本質與相關原理、機制。

我特別感興趣的是譯本中的第二篇〈利用 Wolfram | Alpha 為 ChatGPT 賦予計算的超能力〉(內容源自另一篇長文[2],可參考這裡)。作者在其中提到,「Wolfram | Alpha 接受自然語言,並將其轉換成精確的計算語言(即 Wolfram 語言)」(P.114)。身為語言學學生,我覺得這個過程與人類理解語言的方式,以及語言學中的「形式語意學」,有著非常有趣的呼應。

在本月〈言來如此〉科技應用專欄中,本篇文章將先簡要介紹作者於書中第一篇〈ChatGPT 在做什麼?它為何能做到這些?〉中,針對 ChatGPT 運作本質及隨機性的核心觀察。而因為本文重點放在 ChatGPT 與語言學的關聯,內容將會略過有關大型語言模型訓練原理、過程以及神經網路技術相關的內容。接著,我會分享對於書中所提到「將自然語言轉換為計算語言」這個過程的想法並進一步討論它如何與語言學產生有意思的呼應。同樣地,此節內容將聚焦於 Wolfram | Alpha 和語言學之間可能產生的連結,而不深入涉及語言學相關的理論和技術。

第一篇〈ChatGPT 在做什麼?它為何能做到這些?〉--「它只是一次添加 (台灣或譯作「新增」) 一個詞」

針對篇名所提出的問題,作者概述:「ChatGPT 的基本概念在某種程度上相當簡單:首先從互聯網 (台灣或譯作『網際網路』)、書籍等獲取人類創造的海量 (台灣或譯作『大量』) 文本樣本,然後訓練一個神經網路來產生『與之類似』的文本。特別是,它能夠從『提示』開始,繼續產生『與其訓練資料相似的文字』。」(P.102)。我們將在此節中依據作者針對 ChatGPT 運作本質的說明,討論此運作本質下,其生成內容的隨機性,並延伸討論大型語言模型在這種隨機性下的表現。

作者在本篇第一章開頭提到:「ChatGPT 從根本上始終要做的是,針對它得到的任何文本產生『合理的延續』,(…),它實質上只是在一遍又一遍地詢問,根據目前的文本,下一個詞應該是什麼並且每次都添加一個詞。」(P.3)。此外,作者也指出:「更準確地說,它是每次都添加一個『標記』 (token,台灣或譯作『符元』),而標記可能只是詞的一部分」(P.4),以及:「嚴格來說,ChatGPT 並不處理詞,而是處理『標記』 (token)。」(P.63)。

關於token (符元) 的切分方式及依據,可以參考先前的文章 〈從生成語言學到自然語言處理(一):LLM和人類一樣嗎?〉 以及 OpenAI Tokenizer。事實上,token 雖然是詞的一部分,但它並不一定是一個「語意上合理」的單位,也未必是一個完整的詞綴。有些token只是在機率分布上較常連在一起出現的字元 (character) 所組成的字串 (string),譬如:unergativization 會被切分成 un/erg/ativ/ization。該篇文章亦討論了大型語言模型以 token 為處理單位,與人類以「詞」作為語意理解單位的不同之處,本篇文章將不再贅述。

接著,作者進一步說明:ChatGPT「在每一步都會得到一個帶概率 (台灣或譯作『機率』) 的詞列表,(…),有人可能認為應該選擇『排名最高』的詞,即分配了最高『概率』的詞。然而,(…),出於某種原因——也許有一天能用科學解釋——如果我們總是選擇排名最高的詞,通常會得到一篇非常『平淡』的文章,(…),有時甚至會一字不差地重複前文。」(P.4,如圖1)





圖1:ChatGPT 根據目前文本預測並加上下一個 token


到目前為止,從以上引用內容中可以看出,ChatGPT 生成文本的過程,實際上是根據使用者輸入的 token 序列,透過事先以網路上數十億頁文本資料訓練而成的神經網路函數,依據訓練資料的token分佈模式預測下一個可能出現的 token。具體而言,模型會先根據當前的序列,生成一個如圖一所示的 token 機率表,而實際上,作者有提到此機率表是一個包含約 50,000 個數值的陣列,這些值代表各個可能token的出現機率,而當中只有約 3000 個 token 是完整的詞,其餘的則只是片段 (P.65)。模型會將機率表中一個特定的token加入原先的序列;接著,再以更新後的序列為基礎,重新預測下一個 token,這樣的過程不斷循環往復,直到模型預測生成的token是EOS (End of Sequence) 為止。

有些人在使用 ChatGPT 時,可能會覺得其像人類一樣,在「理解」使用者輸入 (prompt,或稱提示詞) 的語意之後,經過「思考」(或根據某個可依循的過程回想或查找、引用資料) 才給出最適切的回應,而不只是單純地以「一次新增一個詞」的方式生成文本。然而,從上述內容可知,ChatGPT所做的其實很類似「接龍」。這種運作所造成的擬人化錯覺,就如同我們觀看影視或動畫時的經驗:螢幕上不過是像素不斷變化與消失,但透過視覺暫留及光影變化,我們卻感受到連貫而真實的動態(甚至是立體)影像。

在 ChatGPT 不斷預測與新增 token 的過程中,隨機性最為明顯的環節,應當是從 token 機率表中選擇下一個要生成的 token 之時。由於模型是根據一個被稱為「溫度」 (temperature) 的參數,來決定選擇出現機率較低之token的頻率。作者亦於同一段落中指出:「值得強調的是,這裡沒有使用任何『理論』」(P.65)。既然我們知道模型會依據某個「頻率」而非固定的規則或是具體的語意相關性去選擇機率排名較低的 token,則代表模型在每一次生成時,都可能選擇不同的 token,換言之,我們可以預期 ChatGPT 生成的內容將存在著一定程度的隨機性。

那麼,這樣的隨機性會在哪些模型表現中體現呢?作者於文中提及:「這裡存在隨機性意味著,如果我們多次使用相同的提示 (prompt),每次都有可能得到不同的文章。」(P.5),或許這種隨機性是 ChatGPT 作為一個工具的有趣特徵。對某些使用者而言,即使輸入相同的提示,模型仍可能生成不同版本的回應,這種隨機性可能在某種層面上提供使用者多樣化的參考。然而,作者也於隨後章節中指出:ChatGPT 「可以表達連貫的內容 (…) 產生的內容始終是在統計學上合理的,它的表現非常出色,但這並不意味著他自信給出的所有事實和計算都一定是正確的。」(P.111) 。(相關資訊亦可參考 AI hallucination 等相關議題討論。)

換句話說,ChatGPT「只是在根據訓練材料中內容『聽起來像什麼』來說出『聽起來正確』的話」 (P.65)。模型在生成過程中所展現的「流暢」與「合理」,只是在統計分布下的結果(此外,如前所述,token 並不一定是一個詞,故在此隨機性下,模型生成不合理的詞彙或語句的機率也並非為零),而非真實理解或推理的產物。這樣的特性在創意應用中或許是優勢,但若未來我們試圖在容錯率極低、需要精確判斷的專業場域(例如法律、醫療或學術研究)中使用大型語言模型輔助,潛在的「隨機偏差」與「統計合理性錯覺」就可能帶來相當棘手的問題。

註解:

[1]   Wolfram, S. (2023). What Is ChatGPT Doing … and Why Does It Work? Writings by Stephen Wolfram. https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/?utm_source=chatgpt.com

[2]   Wolfram, S. (2023). Wolfram|Alpha as the way to bring computational knowledge superpowers to ChatGPT. Writings by Stephen Wolfram. https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/

文章分類

標籤

作者介紹

陽明交通大學外國語文系

陽明交通大學外國語文系

國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。

本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。

在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。

相關文章

<< 上一篇