外文系數位時代的戰略與戰術
句法語意 科技應用
本文為一系列作者對於語言學與自然語言處理活動及實習的心得紀錄,包含參與Python自然語言處理工作坊,以及林融與王文傑的演講紀錄
現在的生成式人工智慧能做到的事情越來越多,也越做越好。像是ChatGPT這樣的大型語言模型應用,從一般的問答、文章翻譯、摘要到檢查,甚至程式碼的撰寫,都能幫上忙。而身為語言學研究所的學生,我對於機器和資訊系統學習人類語言這件事情感到驚奇之餘,也很好奇 LLM 和人類在「語言知識的儲存表徵與運用機制」的差異究竟在哪裡?
前半段時間我專注於南島語資料的預處理,包括資料的讀取和寫出,以及學習使用「正規表達式」來抓取語料。後半段時間則著重在將處理好的語料套入字典內,並針對搜尋功能做調整,包括最基本的詞彙配對,以及 C 為所有子音、V 為所有母音、N 為所有鼻音的配對方式等等,便能以音結結構查詢詞彙。
我參與了卓騰語言科技的實習計畫,在這段兩個月的實習過程中,我不僅加深了對語言學理論的理解,還學習到如何利用自然語言處理(NLP)和自然語言理解(NLU)技術來解決現實中的問題。這次實習不僅讓我拓展了技術技能,更讓我體會到語言科技如何跨越學術和產業之間的界限。
本文為一系列作者對於語言學與自然語言處理活動及實習的心得紀錄,包含參與Python自然語言處理工作坊,以及林融與王文傑的演講紀錄
在這場講座中,Markl 博士討論了一些有關流行語言技術再現的語言意識的工作進展。她最近完成的博士研究聚焦於語言變異和自動語音識別中的算法偏見。在這項工作的基礎上,她實證了商業自動語音識別工具如何再製現有的語言等級制度,並考慮了用於評估自動語音識別工具的流行資料庫中存在的差距。Markl 博士正在探索對語音識別、生成式人工智慧和機器翻譯對我們思考和談論社群及其語言方式的影響進行理論化的方法。通過將有關技術和語言在社會中的功能的研究結合起來,Markl 博士的目標是澄清「新」技術——或者更確切地說是我們如何社會地構建它們——如何通過我們可能稱之為「演算法語言管理」的過程來放大舊的論述。