語言科技如何助力瀕危語言復振?以西拉雅語 NLP 專案為例
前半段時間我專注於南島語資料的預處理,包括資料的讀取和寫出,以及學習使用「正規表達式」來抓取語料。後半段時間則著重在將處理好的語料套入字典內,並針對搜尋功能做調整,包括最基本的詞彙配對,以及 C 為所有子音、V 為所有母音、N 為所有鼻音的配對方式等等,便能以音結結構查詢詞彙。
文:李恬甄(國立陽明交通大學外國文學暨語言學研究所碩士生)
在碩一下學期期間,我參與了系上周昭廷教授的「自然語言處理實驗室」舉辦的 NLP / Python workshop,從 Python 零基礎開始,學會如何透過團隊程式協作,完成每次課程指派的任務。然而我知道一個學期幾堂的社課時間只是讓我具備了「能夠開始去做 NLP 的基本能力」,而非一個學習的終點。
在周昭廷教授的課堂上,我得知了卓騰語言科技是一間語言學為本的 NLP 公司,並且每年暑假都會招募實習生(每年招募於五月底開始),實習生可以藉由實作累積 NLP 經驗,還能夠在實習結束時有一個自己的作品。我認為這個實習機會是我延續校內NLP / Python workshop 學習成果的機會,於是投遞了書面資料、參與了程式碼考核以及線上面試,不過遺憾地,最後我並沒有順利的得到實習機會。
雖然無法藉由實習在暑假提升 NLP 的實戰經驗,我於學期末直接向周教授詢問如果想以NLP 為碩士論文的研究方向,如何適當地安排暑假的學習。周教授除了給我一些建議外,直接推薦我與卓騰語言科技執行長王文傑(Peter)一起進行西拉雅語 NLP 專案。
Peter 向我說明了實習與專案的異同處:兩者雖然都能磨練 NLP 相關的知識技能,實習活動受限於暑期時間,像是上戰場前的模擬演練,而做專案像是直接上戰場,是長期性的成長計畫,需要高度自律與要求,並每週為自己訂一個小目標,肯花時間肯努力,才能跟得上步調並有所成長。
學習過程與NLP專案內容
在參與專案前,不僅要具備堅韌不拔的心態,還需願意傾注大量的時間,除了每週固定 meeting 兩小時,以及參與一個月一次實體見面的衝刺開發,我還需要自己每週額外花費至少八小時在專案上。
參與專案過程初期,其實一些基礎的 Python function 我都還不太熟練,我投注時間鞏固程式設計基礎功能後,接著就是從做中學。而我得到了兩個目標是:首先將網站上的西拉雅語聖經語料轉換成一個電子辭典,接著將其與其他南島語語言辭典進行跨語言比對。
關於建立西拉雅語電子辭典的動機,則要回溯到西拉雅語文字系統的發展歷史,西拉雅語已是聯合國教科文組織(UNESCO)列為「滅絕」的語言之一,早在兩百年前就被認為是已經消失的語言,不過在 17 世紀時,荷蘭傳教士曾以中古荷蘭語拼音系統,將聖經翻譯成西拉雅語,西拉雅語的詞彙才得以藉由《馬太福音》、《約翰福音》及《海德堡教理問答》保存下來,只是當時荷蘭人因戰敗退出台灣,而未在台灣出版聖經書籍,西拉雅語文字也未能流傳。
直至19世紀,西拉雅語聖經書籍的存在才被發現,為西拉雅語的復振帶來極大的助力,然而保存下來的西拉雅語受到當時荷蘭語拼音系統不成熟而有拼音不一致的問題。清華大學語言所林宗宏教授所架設的網站則針對拼音問題進行重新整理,書寫系統使用易於電腦打字輸入的羅馬字母,這也是本專案使用此網站語料的主要原因。如此一來,不僅能提高書寫及電子辭典查詢的便利性,亦增進日後西拉雅語研究的可行性。
進行專案的過程中相當要求自律,Peter 每週都給我一個「我還不會」的學習目標,他提供給我參考的連結,一週後就 meeting 驗收成果。前半段時間我專注於南島語資料的預處理,包括資料的讀取和寫出,以及學習使用「正規表達式」(regular expression,簡稱regex)來抓取語料。正規表達式為Python的字串操作工具,用於匹配特定模式的字串;後半段時間則著重在將處理好的語料套入字典內,並針對搜尋功能做調整,包括最基本的詞彙配對,以及 C 為所有子音、V 為所有母音、N 為所有鼻音的配對方式等等,便能以音結結構查詢詞彙,例如西拉雅語的「二」為 “ruha”,如果想搜尋該詞彙的重疊現象(reduplication),可以嘗試輸入 “CVruha” 做搜尋,另外還有「?」代表匹配任意字母的功能,可以進行模糊搜尋。
任務最後的目標,就是把做好的字典打包成 exe 檔案,將檔案公開於網路上開放單機下載,提供一個電子辭典為工具使用,不管是以南島語語言研究的目的使用也好,或是在語言的復振上,希望透過如此電子化的方式作為語料保存,日後其他南島語語言只要將語料檔案放入現有的程式碼中,也能使用電子辭典做搜尋。
結語
在整個專案過程中,我學習到兩件事。一是提問和溝通在協作專案是很重要的,不然會自己耗費很多時間,多做很多事。二是面對挑戰的韌性與成長心態,專案的成功一定來自於面對挑戰的痛苦,但面對挑戰的痛苦不是為了專案成功,而是為了自我成長。
在這兩個多月的學習過程中,我接收了很多幫助,在此感謝給予我機會並提供很多技術上指導的 Peter、介紹我踏入專案的周昭廷教授、提供西拉雅語聖經網站的清華大學語言所的林宗宏教授、提供建議和幫助的畯田、孟軒學姊和宜蓁學姊、經常參與線上討論的 Gibson 和凱西,以及寫不出程式碼時被我纏著問問題的哥哥。
最後,我相信在勇於提問與嘗試的前提下,身邊的人都會很熱於提供協助和建議,正如保羅·科爾賀在《牧羊少年奇幻之旅》中所言:「只要真心渴望某件事,整個宇宙都會聯合起來幫你。」
成果(2024/09/27)
作者介紹
陽明交通大學外國語文系
國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。
本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。
在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。
相關文章
從生成語言學到自然語言處理(一):LLM和人類一樣嗎?
句法語意 科技應用
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
平衡醫療觀點和社會語言學視角:可能嗎?
社會應用 醫療關懷
社會語言學視角側重於展現個體的神經多樣性和探討造成失能的社會障礙,但有時它未能捕捉到社會現實。有些失能者因為在生活中遇到的一連串的現實需求,而希望放棄他們的多樣性並融入主流社會結構中。即便醫學模型已經解決了其與語言正常化的負面聯繫,並正面的協助失能者擁有更多的自主權來實現他們的個人需求,社會上的條件和現實對失能者來說仍然具有挑戰性。