全面啟動語料研究的智慧引擎 – 國家教育研究院

2024-08-07 10:58 文 | 聯合知識庫

圖/Canva
圖/Canva

「語言現象透過社會觀察與語料庫資料分析,可以清楚爬梳社會現象的轉變過程。」本文由聯合知識庫採訪國教院語文教育及編譯研究中心而來。媒體新聞資料庫長期以來作為國人社會的紀錄者,在語言分析的文本也提供了一部份面向的語料基礎。

生活裡的報紙、書籍、YouTube影片、不同類型電視節目與影集,無論文字與聲音,單一語言或包括多種語言,皆是語料資料庫收錄範圍,作為龐大且有組織架構的語言資料庫,不僅做為語言學研究成果,也是語言統計分析與相關學術研究用途,更是餵養AI學習模型重要的資料。

作為教育部智庫的國家教育研究院(以下簡稱國教院),長期專注教育議題與專題計畫研究,動輒上千萬到億為單位的語料資源,如何通過研究團隊的「慧眼」,成為有趣又有前瞻性的調查成果?國教院語文教育及編譯研究中心副研究員吳鑑城與助理林韋均與我們分享一二。

研究成果分享–《常用語詞調查報告書》與《解讀新聞字詞》

語料庫的應用範圍廣泛,尤其在語言學研究尤其重要,語言是一種不斷變化的現象,從語言變異到詞彙的實際使用,這些變化都能在語料庫中察覺流變狀態。例如,五十年前「機車」代表交通工具,如今在新世代間卻多了一層「惹人厭」的語意變化。關於字詞使用,可以從疫情嚴峻期間不時出現的「新冠肺炎」、「防疫」、「居家」…等詞高頻率的出現,當然也隨著疫情變化有所消長,這樣的語言現象透過社會觀察與語料庫資料分析,可以清楚爬梳社會現象的轉變過程。

回到教育本質,以語料持續建構語文教育的基礎知識,國教院現已出版:《九十九年常用語詞調查報告書》、《一○○年至一○四年常用語詞調查報告書》、《解讀新聞字詞-新聞媒體常用語詞調查》等著作。以2020年的新聞媒體常用語調查為例,新聞語料納入:《聯合報》、《中國時報》、《蘋果日報》、《大紀元時報》、《國語日報》、《中學生報》等六家新聞內容,年總字數都超過1億字以上,內容包括社會時事、經濟議題、時尚生活、運動新訊、娛樂新聞等主題領域,將電腦自動分詞系統結果進行分析,可以觀察媒體用字遣詞變化。這些出版成果資源都可在「國家教育研究資訊網」瀏覽或下載使用。

《解讀新聞字詞-新聞媒體常用語詞調查》一書   圖/國教院
《解讀新聞字詞-新聞媒體常用語詞調查》一書 圖/國教院

流行語檢視考驗–「新詞查詢&共編平台」

談到國語辭典編撰工作,辭典的基本收詞準則,需要考慮詞彙的穩定性和流行度。針對一些短暫流行的詞彙,即使原本一百萬個詞中平均出現一千次,仍要持續每年觀察高頻率出現的穩定度,評估是否將其收入辭典。許多詞彙出現很快但是消失的也迅速,有趣的例子是「藍瘦香菇」,曾一度風靡,但隨著時間推移使用頻率銳減,如此便不急著列入收錄範圍。編纂辭典的過程中需要平衡普羅大眾的需求和語言學研究的嚴謹性。辭典不僅是語言學習的工具,也是一個文化的載體。因此在選詞的過程中,需要綜合考慮詞彙的實用性和價值。

因應語言流變快速,流行詞彙不時新生,為了讓民眾適時跟上社會的新興詞彙,國教院2023年1月起上線「新詞查訊&共編平台」,目前收錄超過360詞條,若想知道新聞媒體及網路常見的新詞或流行語,例如:「森七七」、「上車」…,隨時上網就能滿足求知慾還可以成為新詞編輯者,線上登入後依照填寫規則,只要通過基本審查,就能在平台上與所有人分享新發現。

「新詞查訊&共編平台」已完成詞條(局部)  圖/國教院
「新詞查訊&共編平台」已完成詞條(局部) 圖/國教院

沒有語料庫就沒有AI

因為AI的盛行,餵養AI學習模型背後的語料庫關注度自然增加不少,透過大量多元語料庫對AI進行深度學習,幫助更好的理解和生成自然語言。過去,Google翻譯的結果往往讓人摸不著頭腦,但現在透過AI訓練模型,翻譯結果已經變得更加準確和自然,這對於語音助理、智能客服等應用也具有重要服務進化與革新意義。例如,當用戶詢問某一特定問題時,AI可以通過檢索語料庫中的相關資料,提供準確且具體的回答。

AI技術進一步發展,讓語料庫發揮關鍵作用,例如,幫助自動生成新聞報導、學術論文摘要,進行創作,教科書編寫也能透過語料庫訓練語言模型,透過用字數與成語數該有的比例原則,讓電腦直接生成課文還能提供測驗題,大幅提高作業效能。

成為基礎研究擴散的智慧引擎

國教院從開展華語文語料庫建構計畫,到持續進行國語文教科書研究,全台灣的語音調查研究…等,不僅研發教育工具開放給需要相關教育研究者使用外,也持續關注AI對未來教育與課綱納入的議題,與政府的教育政策緊密對接。國教院豐富的基礎教育研究資源是作為語料庫深度轉化應用,不可或缺的智慧引擎。

相關網站連結:

🗺️國家教育研究資訊網

🗺️新詞查詢&共編平台

🗺️聯合知識庫 | 新聞授權

最新文章

中研院資訊科學研究所副研究員馬偉雲博士 圖/作者提供

對話司馬遷、打造專屬美妝顧問--中研院馬偉雲博士讓AI更接地氣

2024-11-14
圖/Canva

微笑徜徉的夢想配備——兼論《臺灣詩學學刊》的典範形

2024-10-25
「台灣文學知識庫」新收錄詩學三刊物-《台灣詩學季刊》、《台灣詩學學刊》與《吹鼓吹...

站在世紀之交的風口 --台灣詩學三刊物上線的時代意涵

2024-10-09
「臺灣文學知識庫」新收錄《臺灣詩學季刊》、《臺灣詩學學刊》與《吹鼓吹詩論壇》(圖...

臺灣詩學庫 | 數位工具帶來詩學新視野

2024-09-23
1964年東京舉辦奧運,以及那年的國慶閱兵轉播,都大大刺激了民眾購買電視的意願,...

從收音機、電視機到洗衣機 伴隨台灣家庭半世紀的聲寶與台灣三洋

2024-09-02
圖/Canva

全面啟動語料研究的智慧引擎 – 國家教育研究院

2024-08-07
《聯合文學》歷年封面設計(圖/聯合知識庫)

文獻寶塔:我與《聯合文學》知識庫

2024-08-02
由大日本除蟲菊株式會社生產的金鳥蚊香雖然商標不變,但在戰後一度名為「雞冠蚊香」。...

請享受沒有蚊子的夏天! 蚊香為什麼都是螺旋型?

2024-06-24
《書評書目》歷年封面設計(圖/聯合知識庫提供)

台灣第一本閱讀指南《書評書目》:克服選擇障礙,在書海中找到知音作品

2024-05-23
左至右:高陽《李娃》,《風塵三俠》,《少年遊》(圖/聯合知識庫提供)

副刊的前世今生 | 長篇小說連載的美好時光

2024-05-10
《風月》報版(圖/聯合知識庫提供)

用文字談一場戀愛吧:《風月報》裡的曖昧筆尖

2024-04-25
本物件為壯陽藥海報。海報上一位西方女子跪坐在地,僅著紅色內褲,上半身罩著黑色薄紗...

只可意會,不可言傳?文宣廣告中的情慾世界

2024-04-22
他們不再老去

靈魂最大的煎熬──5部戰爭電影介紹

2024-04-02
〈健素〉,《聯合報》,1965年1月1日,11版

改善國民營養年代的補給品:健素糖

2024-04-01
圖/ 原版報紙 | 《好讀周報》資料庫 (圖/聯合知識庫提供)

《好讀周報》「補腦算算鍋」是教學好幫手!

2024-03-29
原版報紙 | 《好讀周報》資料庫 (圖/聯合知識庫提供)

維繫知識戰鬥力–建構好讀資料 打敗閱讀偏食

2024-03-29
方瑞娥的成名曲〈最後的火車站〉同名專輯唱片(臺史館藏號 2003.009.061...

歌曲中雋永「聲」響!回味百年來火車歌謠中的聲與情

2024-03-25
〈真山真水〉專文插圖 (圖/聯合副刊2010/2/3)

文字手藝人──一位副刊主編的知見苦樂

2024-03-15
xxx廣告