外文系數位時代的戰略與戰術
本文為一系列作者對於語言學與自然語言處理活動及實習的心得紀錄,包含參與Python自然語言處理工作坊,以及林融與王文傑的演講紀錄
文:陳奕安
NLP / Python workshop
我在大一下學期的時候,在「大一英文(二)」這堂課上遇到周昭廷教授,周教授告訴我們他的研究室有提供 Python 相關的訓練工作坊,我當時覺得這是一個不錯投資自己的機會,而且這個工作坊標榜零基礎也沒有關係,畢竟我真的是零基礎。
在學習期間,通常都會是學長姊在台上講這周要學習的程式是什麼、語法要怎麼打,接著就是有點挑戰性的部分了, 學長姐接下來會出題(都是上課過的內容去做延伸),要在接下來一周內試著把程式寫出來。
在這一周內,我通常都是跟我組員討論大致架構分工,接下來就是上網找資料、問機器人, 整個過程就是做中學,而且在上課的過程中可以學習到其他人是怎麼寫的,可以學到其他人的想法(為甚麼有些人可以寫那麼少行程式碼),印象深刻的是同一個題目我寫了快要 20 行的程式碼,可是別人只用短短 10 行就結束了。來這個工作坊除了可以學習到 python 的技巧外,我覺得最重要的是讓我知道我在大學裡學到的知識(語言學概論)可以運用在甚 麼地方。
林融:從英語系到自然語言處理的跨域學習與成長 (20240522)
擔任應用工程師的林融,至國立陽明交通大學外文系的演講中,先是介紹應用工程師的工作內容與本質,所包含的領域有行銷、語言學與程式語言,並分享如何培養這些能力,以及應該要在大學修什麼相關課程,而當中最重要的還是語言學的課程跟 python 的精通。
林融原先是國立台灣師範大學英語系畢業,並取得正式教師執照,但她選擇先離開教育界,嘗試一條與她原科系沒太大關聯的職業道路,透過看影片、相關書籍與動手實作,最後成功發展出專業的語言程式能力,並成為一位自然語言處理(NLP)工程師。林融分享的學習成長經驗,讓現正就讀外文系的學生,看到一個新的職涯選擇。
此外,林融也分享她在日常工作中是如何結合語言學與程式能力,例如要檢查「在」 與「再」的錯字分析,因為「在」跟「再」後面的詞組結構是不一樣的,這時若對語言學的應用得心應手的話,即可減少運算量,更快完成預定的任務,這消除了許多外文系學生對語言學實用性的懷疑。
林融的工作經驗分享讓學生對語言學更好奇且有興趣。對我個人而言,我更了解語言學是有業界實用性的一門知識,可以靈活應用於不同場域,也打破對外文系或英文系畢業只能從事補教業或翻譯的既定印象。
更重要的是,陽交大外文系上的語言學課程本身,便對於成為 NLP 工程師很有幫助, 這讓我未來會更認真上語言學的相關課程,並主動積極找資源與機會學習並鍛鍊程式語言。
王文傑:理論語言學的人才前景與錢瞻應用 (20240529)
卓騰科技的創辦人王文傑在這場演講中分享了他的創業過程跟理論語言學的應用。
在一開始,王文傑就分享自己的經歷跟成功所需的要素,除了要有豐富的經歷和紮實的知識外,還要可以解決業界客戶的需求,以及無法取代的專業。
他靈活運用語言學於電腦語言程式的領域, 打破語言學只能拿來教學與研究的刻板印象,例如他介紹一個可以隱藏客戶個資的實際應用,透過語言學的句法樹將詞組分類,可以讓 AI 辨識要替換掉的隱私資料(如姓名或住址)。
在演講中,他除了提到創業的辛酸史、營利的方向,也讓我們更了解這塊很少人會聯想在一起的跨領域職業,如何將看似很學術的語言學實際與其他專業結合,提醒我們這方面依然是極需探索的一塊藍海,而要邁向這條路的第一步便是使自己配備紮實的語言學知識與程式語 言實戰力。
作者介紹
陽明交通大學外國語文系
國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。
本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。
在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。
相關文章
從生成語言學到自然語言處理(一):LLM和人類一樣嗎?
句法語意 科技應用
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
語言科技如何助力瀕危語言復振?以西拉雅語 NLP 專案為例
社會應用 科技應用
前半段時間我專注於南島語資料的預處理,包括資料的讀取和寫出,以及學習使用「正規表達式」來抓取語料。後半段時間則著重在將處理好的語料套入字典內,並針對搜尋功能做調整,包括最基本的詞彙配對,以及 C 為所有子音、V 為所有母音、N 為所有鼻音的配對方式等等,便能以音結結構查詢詞彙。