語料庫,語料酷: 讓數據替人文議題說話
在過去,人文學科往往依賴於小規模文本的精讀與詮釋。研究者透過細膩的閱讀、比較與理論架構來理解語言與文化。然而,隨著數位化與科技發展,語言學研究也迎來了新的可能性。大量文本能以「語料庫」的形式被蒐集、整理,並透過電腦工具進行處理與分析。這樣的轉變不只是技術性的革新,更是人文研究的一次「進化」。

文:蘇洪寬(國立台灣師範大學英語系博士生)
在過去,人文學科往往依賴於小規模文本的精讀與詮釋。研究者透過細膩的閱讀、比較與理論架構來理解語言與文化。然而,隨著數位化與科技發展,語言學研究也迎來了新的可能性。大量文本能以「語料庫」的形式被蒐集、整理,並透過電腦工具進行處理與分析。這樣的轉變不只是技術性的革新,更是人文研究的一次「進化」。
「語料庫語言學」(Corpus Linguistics)正是在這樣的背景下誕生的。它的核心精神並不是要讓科技取代人文,而是讓人文思考能夠借助數據與工具,更清楚地回答我們關心的語言問題。如果用接地氣一點的表達方式,語料「庫」語言學裡就是要善用現代工具與較大量的資料去探索那些語言「酷」議題。
接下來我必須跟大家證明:這些酷議題不只有趣且十分貼近我們的生活。但是在此之前我必須先建立起這些議題的學術代表性,本文所使用的研究案例,都來自於International Journal of Corpus Linguistics。這本期刊在語料庫語言學領域享有高度聲望,許多人可能覺得這樣的學術論文相當嚴肅,甚至和日常生活距離遙遠。然而,正如我們將看到的,即使是在這麼專業的學術場域裡,我們依舊能發現語料庫語言學如何回應社會議題,甚至揭示許多和我們息息相關的現象。
為了幫助大家更快掌握語料庫到底有多酷(很堅持要諧音),我們會從三個生活化的例子切入,讓大家看到語料庫語言學如何與我們的日常緊密連結。首先,我們談「黑」這個字,它在中文裡有許多不同的意思,那麼語料庫語言學如何透過工具來釐清這些語義之間的脈絡?接下來,我們會談到疫情期間,不同身分背景的人,例如記者與學者,在討論新冠疫苗時語言風格的差異,以及我們如何用量化方法來衡量這種語言差異。最後,我們會轉向線上會議的世界。疫情之後,線上會議與課程逐漸成為日常,那麼它們與面對面的互動有什麼不同呢?透過分析「點頭」這個小小的動作,我們也能一窺線上互動的獨特之處。
語料酷議題一:你說的「黑」是什麼「黑」?
想像一下,如果有一天你的朋友突然對你說:「這個運動員實在很黑。」你會怎麼理解這句話呢?第一個可能的解釋是,他的膚色比較黑。另一個可能是,他比賽的手段不太光明正大,甚至有作弊的嫌疑。還有一種理解方式是,他運氣特別不好,常常倒楣,所以才會說「臉黑」。同樣一句話,竟然可以有這麼多不同的意思。那麼問題來了:這些不同的「黑」究竟是怎麼形成的?它們之間有沒有某種規律?
事實上,在中文裡,「黑」真的有非常多的延伸語意。我們會聽到「黑幫」、「背黑鍋」、「黑科技」,甚至最近健身圈裡,也有人用「黑科技」來形容新奇又厲害的訓練方法。那麼,為什麼「黑」能夠衍生出這麼多不同的意思?而這些意思之間又有什麼樣的邏輯關係?這正是語料庫語言學感興趣的問題。
研究者 Liu 和 Dou 在 2024 年發表的研究,就蒐集了 800 個包含「黑」的語料,逐一進行標記與統計分析,試圖從龐大的語料中抽絲剝繭,找出語義背後的系統性。但要注意,這裡的關鍵在於:這麼龐大的資料,如果單靠人力來處理,其實是非常困難的。想像一下,要在短時間內讀完並分類 800 句甚至更多的語料,幾乎是不可能的任務。這就是科技的角色所在。
Python 提供了許多自然語言處理的工具,其中的 聚類分析(Clustering Analysis) 能根據語境與標記,把龐大的資料進行初步的分群。研究者接著就能根據這些自動化的分群結果,回到語言學的角度,去檢視這些分群是否真的符合我們對語義的觀察。
透過這樣的結合,我們既能利用電腦快速處理大規模資料,又能保留語言學家在解釋上的專業判斷。他們的分析結果顯示,「黑」的語義大致可以分為三大類。第一類仍然保留顏色詞的本義,代表不透明、非主流或難以預測,例如「黑馬」或「黑科技」。第二類轉向心理與道德隱喻,用來描述人的內在狀態,例如「黑心」或「臉黑」。第三類則將「黑」用作動作的代號,表示抹黑、入侵或陷害,例如「被黑」或「黑掉」。這樣的研究不僅幫助我們分類,更重要的是,它顯示了語料庫語言學如何透過人文與科技的結合,揭示語義背後的共通邏輯 [1]。
語料酷議題二:學者跟記者口中的新冠疫苗
再舉一個例子,這次我們來看新冠疫情。Zou 和 Hyland 在 2024 年的研究比較了新聞與學術部落格在討論新冠疫苗時的語言策略,並蒐集了 120 篇文章進行分析。在開始介紹研究結果之前,我們先看看這句話:“It is definitely not a new concept to vaccinate pregnant women, and they have been shown to be safe and protective.”(為孕婦接種疫苗絕對不是一個新概念,而且已經證明是安全並具有保護作用的。)如果單純看到這句話,你覺得它比較可能出自於學者,還是記者呢?
有些人可能會直覺認為這是媒體的說法,因為裡頭用了 definitely (絕對)這樣的強化語氣詞,聽起來有點堅定甚至絕對。但也有人會覺得這其實更像是學者的語氣,因為學者常常需要透過「自我強化」來增加說服力,讓讀者相信他們的研究結果是可靠的。
那麼,該怎麼驗證我們的猜測呢?這就是語料庫語言學的強項所在。光靠幾個例子是不足以說服人的,因此研究者需要統計工具來幫忙。作者們使用了「對數似然比檢定」(log-likelihood test),來檢查不同語料中語言策略的分布差異是否顯著。換句話說,統計在這裡的角色,不是單純的數字遊戲,而是幫助我們回答:「這些差異只是偶然,還是背後真的有規律?」
結果顯示,學術部落格的確更常使用強化語氣詞(certainty boosters,如 definitely, clearly),也更常用自我指涉(self-mention,如 I, we)來凸顯專業性與可信度。相較之下,新聞文章則語氣更為中立,較少出現這些策略 [2]。這樣的結果甚至和我們的直覺相反——我們以為媒體會比較誇張,學者應該更保守,但數據卻告訴我們事實並非如此。這正是語料庫語言學的價值所在:它讓我們超越直覺,用實證來理解語言背後的模式。
語料酷議題三:跳脫文字走入影像!
語料庫不僅限於文字,它還可以納入聲音、影像與動作,形成所謂的「多模態語料庫」。這樣的語料能幫助研究者理解語言與行為之間的交互關係。在介紹研究之前,我想先問你一個小問題:從讀到這篇文章開始到現在,你有沒有在某個時刻點過頭?也許是在看到一個讓你覺得合理的解釋時,或是在認同某個觀點時,你下意識地點了一下頭。那麼,你覺得這個點頭是點給我看的,還是點給你自己看的?
換個場景,如果這不是一篇文章,而是一場會議,你在聽我講話時點頭的頻率會不會更高?如果換成在課堂上,坐在我正前方,你又會不會更頻繁地點頭呢?在這些不同情境下,點頭的功能是否都一樣?它只是單純表達「同意」或「認可」嗎?還是其實還有更多細緻的功能?
這正是 Knight 等人 2024 年的研究切入點。他們利用語料庫,分析了八段會議片段,標註了超過五百筆「點頭」的資料。結果發現,大約三成的點頭屬於「自主性」,並不是回應他人,而是在自己講話時發生。此外,會議主持人的點頭頻率顯著高於一般參與者,顯示點頭也具有身份與角色上的差異。這些結果讓我們看到,語料庫語言學不只是研究「說了什麼」,更能探討「怎麼說」,以及「說話時同時做了什麼」,讓我們能更全面地理解人類互動 [3]。
結語:在科技中更需要人文思辨力
如果有人再次問你,語料庫語言學是什麼?希望看過文章的你能腦海閃過你覺得有趣的地方,這也是我這篇文章最大功能,我不是要去證明或是說服你去學程式或是統計,我僅是想跟你分享,語料庫語言學是有趣的!
如果真的能打動你一點點,我想更近一步推銷這個語料庫的「酷」:語料庫語言學是一門兼具實證與詮釋的學科。它的價值在於突破直覺與經驗的限制,進入可量化、可驗證的層次,同時又保留人文學科的核心關懷,也就是語言背後的人、文化與社會。在今日這個數據驅動的時代,語料庫語言學不僅是語言學家的研究方法,更是所有關心語言與文化者的一座橋樑。它讓我們能在數據與意義之間找到新的理解方式,並開啟更多探索語言世界的可能性。也歡迎你一起加入一起探索這個有趣的世界!
參考文獻
Liu, M., & Dou, J. (2024). Metaphorical polysemy of the Chinese color term hēi 黑 “black”: A corpus-based cognitive semantic analysis with Behavioral Profiles. International Journal of Corpus Linguistics, 29(1), 1-33.
Zou, H., & Hyland, K. (2024). “People should get their booster”: Stance towards Covid vaccination in news and academic blogs. International Journal of Corpus Linguistics, 29(4), 447-471.
Knight, D., O’Keeffe, A., Mark, G., Fitzgerald, C., McNamara, J., Adolphs, S., Cowan, B., Fahey Palma, T., Farr, F., & Peraldi, S. (2024). Indicating engagement in online workplace meetings: The role of backchannelling head nods. International Journal of Corpus Linguistics, 29(3), 389–416.
文章分類
標籤
作者介紹

特約作者
由我們邀請擔任特約作者的語言學者。