Description
Day 1, 10:05-10:35
Abstract
如何效率地從龐大的非結構化文字資料,萃取重要的結構化資訊是大數據分析的基礎。本次演講以結合金融業務與精準醫療為出發點,藉由智能理賠(醫囑分析)作為案例,探討如何透過自然語言處理技術,將瑣碎且重複性極高的作業流程逐步化繁為簡。 就技術而言,此乃自然語言處理領域中的命名實體識別任務。在現今預訓練與微調兩階段模式盛行之下,以Transformers為基調的模型在此任務已達一定水準。但是,當資料具有多含義實體(同一實體具有兩個以上含義,e.g. 急診日期通常也隱含了入院日期的含義)時,模型僅僅具備七成至八成的辨識水準,而多含義實體在醫囑資料或醫療文獻尤為常見,因此,我提出一種深度學習應用框架-自問自答,同時處理單含義與多含義實體。 以一篇醫囑來說,模型自問多個問題(e.g. 請找出入院日期。),根據這些問題,回答相應的實體答案。而多含義實體的各個意義,可被不同的獨立問題所切分開來,因而巧妙解決多含義實體問題。 演講過程中,我會以知名的Python套件(Transformers)與Pytorch為實作核心,輔以介紹,透過Transformers套件可快速套用許多預訓練模型,並實現在自身資料集裡。最後,搭配實際展示引導聽眾了解整個問題與解法的脈絡。
Description
使用的第三方工具: transformers 為自然語言處理領域中熱門的Python套件,提供許多方便好用的API,且提供完整tutorial與免費pretrained model資源。 seqeval 為處理序列框架的常見評估工具。
Slides not uploaded by the speaker. HackMD: https://hackmd.io/@pycontw/2021/%2F%40pycontw%2FHkTtQkYfF
Speaker: 江侑倫
NLP Engineer at CTBC bank