打造針對小型社群/個人的內容資料庫：基於微調預訓練語言模型的自動標記方案

YouTube

Description

PyCon Taiwan 2023｜Talk 演講｜Day 2, R1 13:45–14:15

🪄 說明 Description 🪄 ChatGPT爆紅後，大模型似乎成爲一切自然語言處理問題的解方，坊間各種呼叫OpenAI的API和使用ChatGPT的教學層出不窮。然而，ChatGPT不論有多優秀的表現，都不如專門為任務目的訓練的模型更懂你、更懂你的資料。另外，面對來勢洶洶的AI生成内容趨勢，網路資訊爆炸勢必更加凶猛，如何保存優質的内容建立資料系統也將變得越來越重要。

本演講將介紹如何使用NLP技術（更具體地說，微調預訓練語言模型）建立一個全自動的智慧化内容資料庫。內容資料庫指的是為特定目的而建立的具有完整分類、層級系統的資料庫，現實中的例子包括新聞報紙資料庫、法規資料庫等都是這種資料庫的例子，它們為相關領域的工作者提供便利，是許多研究、寫作、倡議的基礎資源。藉助AI方法，我們將不再需要大量手工整理、編輯，更多缺乏資源的小型社群、獨立媒體、NGO也可以建立屬於自己的資料庫。演講重點放在與Python最相關的微調預訓練語言模型方法部分。我將提出一種簡單、高效的多任務訓練方法，用來解決個人或小型社群面對的計算資源不足問題。同時，我還會介紹一些人工標記訓練資料和ChatGPT自動標記訓練資料的方法和可能遇到的問題，因爲優質的資料是成功的一大半。

🚀 講者介紹 About Speaker - James Chen 🚀 來回走跳於資料科學、社會運動等領域的學徒工。

Follow “PyCon Taiwan” ⭐️ Official Website: https://tw.pycon.org ⭐️ Facebook: https://www.facebook.com/pycontw ⭐️ Instagram: https://www.instagram.com/pycontw ⭐️ Twitter: https://twitter.com/PyConTW ⭐️ LinkedIn: https://www.linkedin.com/company/pycontw ⭐️ Blogger: https://conf.python.tw/

PyVideo

打造針對小型社群/個人的內容資料庫：基於微調預訓練語言模型的自動標記方案

Description

Details