Contribute Media
A thank you to everyone who makes this possible: Read More

打造針對小型社群/個人的內容資料庫:基於微調預訓練語言模型的自動標記方案

Description

PyCon Taiwan 2023|Talk 演講|Day 2, R1 13:45–14:15

🪄 說明 Description 🪄 ChatGPT爆紅後,大模型似乎成爲一切自然語言處理問題的解方,坊間各種呼叫OpenAI的API和使用ChatGPT的教學層出不窮。然而,ChatGPT不論有多優秀的表現,都不如專門為任務目的訓練的模型更懂你、更懂你的資料。另外,面對來勢洶洶的AI生成内容趨勢,網路資訊爆炸勢必更加凶猛,如何保存優質的内容建立資料系統也將變得越來越重要。

本演講將介紹如何使用NLP技術(更具體地說,微調預訓練語言模型)建立一個全自動的智慧化内容資料庫。內容資料庫指的是為特定目的而建立的具有完整分類、層級系統的資料庫,現實中的例子包括新聞報紙資料庫、法規資料庫等都是這種資料庫的例子,它們為相關領域的工作者提供便利,是許多研究、寫作、倡議的基礎資源。藉助AI方法,我們將不再需要大量手工整理、編輯,更多缺乏資源的小型社群、獨立媒體、NGO也可以建立屬於自己的資料庫。演講重點放在與Python最相關的微調預訓練語言模型方法部分。我將提出一種簡單、高效的多任務訓練方法,用來解決個人或小型社群面對的計算資源不足問題。同時,我還會介紹一些人工標記訓練資料和ChatGPT自動標記訓練資料的方法和可能遇到的問題,因爲優質的資料是成功的一大半。

🚀 講者介紹 About Speaker - James Chen 🚀 來回走跳於資料科學、社會運動等領域的學徒工。

Follow “PyCon Taiwan” ⭐️ Official Website: https://tw.pycon.org ⭐️ Facebook: https://www.facebook.com/pycontw ⭐️ Instagram: https://www.instagram.com/pycontw ⭐️ Twitter: https://twitter.com/PyConTW ⭐️ LinkedIn: https://www.linkedin.com/company/pycontw ⭐️ Blogger: https://conf.python.tw/

Details

Improve this page