語言科技的跨域實踐:從語言學理論到卓騰科技實習經驗
我參與了卓騰語言科技的實習計畫,在這段兩個月的實習過程中,我不僅加深了對語言學理論的理解,還學習到如何利用自然語言處理(NLP)和自然語言理解(NLU)技術來解決現實中的問題。這次實習不僅讓我拓展了技術技能,更讓我體會到語言科技如何跨越學術和產業之間的界限。
文:陳奕安(國立陽明交通大學外國語文系學生)
今年暑假在師長的鼓勵下,我帶著我大一學到的語言學知識,跟一點點的 Python coding 技巧,參加卓騰語言科技的暑期實習生計畫。我知道有這個實習機會的主要原因是因為我參加學校教授開辦的 Python 工作坊,學習如何將語言學知識轉化成程式碼實作,從工作坊得知有這個實習機會,抱持著想繼續鑽研怎麼實際運用所學,鼓起勇氣申請面試。
面試過程主要分為第一階段的書審、程式能力測試,以及第二階段的視訊面試。書審就是使用卓騰科技公司旗下的產品「自傳仙貝」輔助寫一篇自傳,程式能力測驗需要 debug(除錯)一個 Python 問題,問題本身不難,面試官主要是為了看你的邏輯思緒(不用害怕)。在視訊面試時,面試官會問會不會畫句法樹(因為我是外文系),現場出一題請我畫出來,接著會詢問未來規劃之類的問題。如果有通過第一階段的挑戰者,我建議在視訊面試階段就放開來講不需緊張。
實習過程:語言學理論和科技理論
實習有兩個月,第一個月主要是跟著卓騰語言公司的負責人 Peter 學習語言學理論、程式設計基礎、卓騰產品背後原理、社會上的科技趨勢,以及大型語言模型(LLM)的科技迷思。
在實習的第一天,Peter 以「語言是什麼?」開啟話題讓我們去討論、刺激我們思考,再接著延伸自然語言處理的背後理論,過程中 Peter 會一直提出問題,然後根據你的回答去挑戰你,主要目的是為了培養「真的知道語言是怎麼一回事」的實習生,在實習的期間我深刻感受到這一點。
在第一個月裡,我學習到卓騰的核心產品技術「Articut 斷詞系統」和「Loki 自然語言理解系統」。Articut 是一個根據生成句法規則的斷詞系統,提供使用者「詞性標記」、「自定義詞彙」功能進行斷詞。Loki 則是使用三種結構 project, intent, utterance 來實現語意理解,此外還可以搭配正規表示法輔助使用 Loki 達到事半功倍的效果,這兩個核心技術在實際使用上非常強大,可以很精確地處理語意。
舉個實例,今天有個專案要開發「小七店員聽到客人講什麼話會知道客人要買飲料」,Project指的是專案的名稱,這時就可以取「711」之類的;Intent是意圖,這時就可以取「drink」;Utterance是開發者預設在intent裡的句子。今天開發者如果寫了一個小七店員買飲料的專案,裡面有X句utterance,其中一句是「五杯大冰拿」;使用者輸入「三杯小冰奶」,經過斷詞處理後,這句話會對到Utterance「五杯大冰拿」,屆時系統會知道使用者是要買飲料(intent意圖就對到了)。
實習過程:專案開發
第二個月開始利用學到的 NLP/NLU 知識搭配 Articut/Loki,開發自己的專案。NLP是Natural Language Processing,自然語言處理(包括詞類辨別以及斷詞)。NLU是Natural Language Understanding,自然語言理解(整合閱讀以及展現推理能力)。
我跟學姊 Jennifer 一組,開發一款餐廳訂位服務聊天機器人,首先要有一個 Loki 專案輸入有可能出現有關訂位的句子、接著開始寫程式讓機器人,開始多輪對話,正確抓到所需要的資訊,並且回覆使用者、在餐廳業者方面,可以儲存成一個包含客人所有訂位資訊的表格。以下舉例:
我:HI
Robot:嗨嗨,我是餐廳預約小幫手~請留下您的姓名,讓我協助您進行預約。
我:陳奕安
Robot:請問您想預約什麼時候?
我:明天晚上八點
Robot:請問預約人數是多少?(O大O小)
我:兩大
Robot:請提供您的聯絡電話。
我:0900000000
Robot:
Hello 陳奕安,您已訂位成功!
跟您確認您的訂位資訊
電話:0900000000
人數:2人
時間:2024-09-07 20:00
Thank you!
以上是多輪對話,聊天機器人所回覆的句子是開發者要去設定的,當使用者輸入了某某句子給聊天機器人,他就會去對到某個utterance接著對到某個intent,根據對到的intent再依照所設定的句子回覆使用者。
在專案開發過程中,我學會怎麼結合使用自然語言科技來解決實際問題,並理解到一個專案開發真的不容易,在怎麼讓機器人可以正常的多輪對話上,我卡關了好久,但是我的夥伴 Jennifer 給了我很大的幫助,在我不知道要怎麼做的時候,跟我一起解決問題。
這次的實習讓我學到很多在校園裡學不到的東西,不管是知識方面還是在實際應用上。實習過程沒有我一開始想像的可怕,實際上就是像一個圓桌會議。實習生們和 Peter 坐在一起,輕鬆愉快地交換彼此的想法,讓我學到很多常常有「原來是這樣」的感覺!我非常推薦對語言學有興趣的學弟妹,積極修課學習基本的 coding 技巧,勇敢嘗試申請這個業界實習機會,感受語言學與資工跨域的成長經驗。
2024卓騰語言科技公司實習夥伴們
作者介紹
陽明交通大學外國語文系
國立陽明交通大學向以理工、醫學及管理見長,有鑒於科技的發展宜導以人文的關懷、博雅的精神,而資訊的流通則取決於語文的運用,因此於民國八十三年八月成立外國語文學系。
本系發展著重人文與科技之深層多元整合,以本系文學、語言學之厚實知識素養為底,再廣納本校資訊理工、管理、醫學以及其他人社領域等豐厚資源,創造多元與融合的學術環境,開拓具前瞻性及整合性之研究與學習,以培養兼具系統性思考及人本軟實力的學生,使其成為兼具在地及國際性多層次觀點與分析批判能力的未來領導者。
在研究所的規劃上,語言學方面主要是結合理論與實踐,特別重視學生在基本語言分析及獨立思考能力上的訓練。除語言各層面的結構研究外,本系也尋求在跨領域如計算機與語言的結合及語言介面上之研究 (如句法語意介面研究)能有所突破,並以台灣的語言出發,呈現出台灣語言(台灣閩南語、台灣華語、南島語)多樣性,融入社會觀察,如自閉語者聲學、聽障相關研究、社會語音學研究以及台灣語言的音變等。
相關文章
從生成語言學到自然語言處理(一):LLM和人類一樣嗎?
句法語意 科技應用
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
語言科技如何助力瀕危語言復振?以西拉雅語 NLP 專案為例
社會應用 科技應用
前半段時間我專注於南島語資料的預處理,包括資料的讀取和寫出,以及學習使用「正規表達式」來抓取語料。後半段時間則著重在將處理好的語料套入字典內,並針對搜尋功能做調整,包括最基本的詞彙配對,以及 C 為所有子音、V 為所有母音、N 為所有鼻音的配對方式等等,便能以音結結構查詢詞彙。