第27屆專業實習競賽

工作內容

Word error rate

計算OCR辨識文本和正確文本的編輯距離,算出模型預測錯誤率,然後再用編輯距離反推就能得到錯誤的地方是少字、錯字、多字,呈如下面的結果,我使用網頁來呈現,並用不同顏色清楚標出錯誤情況

n-gram文本修正

n-gram 是以n個連續單詞構成的序列,當n-1個連續單詞出現時,推測第n個單詞,修正文本提高正確性,以下是修正紀錄檔的部分截圖,X的地方就是修改字的位置,通常會分別從中間、後面、前面三方向進行修正

讀NLP相關論文

主管有時候會給NLP的論文,或他之後要面試的碩博士論文,讓我看有沒有實驗過程或方法有問題,提出來一起共同討論

機器學習模型

BERT BiLSTM Transformer

架設模型API

用CKIP的古文與現代文的模型做WS(分詞)、POS(詞性標註)任務,預先載入四種模型,並用Flask架設API,給研究人員使用

平行運算加速模型

Multi-GPU Multithreading Multiprocessing
底下用四張GPU訓練

Show more