工作內容

Word error rate

計算OCR辨識文本和正確文本的編輯距離，算出模型預測錯誤率，然後再用編輯距離反推就能得到錯誤的地方是少字、錯字、多字，呈如下面的結果，我使用網頁來呈現，並用不同顏色清楚標出錯誤情況

n-gram文本修正

n-gram 是以n個連續單詞構成的序列，當n-1個連續單詞出現時，推測第n個單詞，修正文本提高正確性，以下是修正紀錄檔的部分截圖，X的地方就是修改字的位置，通常會分別從中間、後面、前面三方向進行修正

讀NLP相關論文

主管有時候會給NLP的論文，或他之後要面試的碩博士論文，讓我看有沒有實驗過程或方法有問題，提出來一起共同討論

機器學習模型

BERT BiLSTM Transformer

架設模型API

用CKIP的古文與現代文的模型做WS(分詞)、POS(詞性標註)任務，預先載入四種模型，並用Flask架設API，給研究人員使用

平行運算加速模型

Multi-GPU Multithreading Multiprocessing
底下用四張GPU訓練