研究目的 研究方法 技術架構 結果 效能 app實作 優勢


研究方法與實作架構

結合CLIP ViT-H/14 與 LLaMA-3模型之白血球分類系統設計

研究目的

本研究旨在建立一套結合多模態深度學習技術之白血球影像分類系統,藉由 CLIP 與 LLaMA 架構實現語意驅動的分類方式。 透過與傳統純影像分類模型之比較,驗證語意配對技術在醫療影像辨識中之可行性與優勢。 此外,本研究亦嘗試解決醫療影像資料樣本不足問題,提升在臨床應用上的實用性與推廣潛力。

研究方法

本研究主要分為以下步驟:

技術架構

14 白血球類別
89% 分類準確率
3 超越專家數量

核心技術

研究結果與討論

生成影像品質評估

本研究透過真實性與多樣性兩個面向,對14種白血球類別的生成影像進行品質評估。

細胞種類 FID指標 CMMD指標
Smudge Cells34.330.0634
Promyelocyte43.130.1591
NRBC35.880.1467
Neutrophilic Myelocyte37.520.1598
Neutrophilic Metamyelocyte35.310.1491
Neutrophil Segment34.500.1235
Monocyte32.320.1220
Lymphocyte31.120.1518
GIANT PLT38.510.1661
Eosinophils34.770.1392
Blast31.440.1321
Basophils35.890.0878
Band35.230.1234
Atypical lymphocyte37.430.1678
重要發現: 大多數細胞類型的FID值集中在30到40之間,顯示生成影像與真實影像具有良好相似度。Smudge Cells在多樣性方面表現最優異(CMMD值0.0634),證實生成模型能夠產生高品質、多樣化的白血球影像。

模型效能與專家比較

CLIP模型

89%

14類白血球分類準確率

檢驗人員1

87%

年資5年以上

檢驗人員2

81%

年資5年以上

檢驗人員3

86%

年資5年

本系統分類準確率達89%,超越所有參與測試的國家認證細胞型態分類臨床專家

LLaMA模型生成敘述評估

透過Soft Cosine Similarity評估生成文字描述與標準答案的語意相似度,分數高於0.7視為正確,本系統在醫學描述生成方面表現優異,能夠提供準確的分類依據說明。

Android App 實作成果

為了讓白血球分類系統更貼近實際應用,我們設計並開發了 Android 應用程式,讓使用者可以透過手機進行白血球影像辨識。 App 提供拍照、影像上傳、分類結果查看與紀錄瀏覽等功能,操作簡單、流程清晰,方便使用者快速完成分析。

主要功能特色

影像拍攝與上傳

使用者可透過手機相機拍攝白血球顯微影像,App 將照片傳送至後端伺服器進行分析處理。

分類結果展示

系統回傳分類結果(共 14 類白血球),並搭配 LLaMA 模型生成的說明文字,協助使用者理解判斷依據。

人工結果確認

使用者可檢視與修正 AI 分類結果,提供回饋機制以強化模型準確度。

分類紀錄瀏覽

以白血球類別進行分類,並以卡片形式呈現過去影像與拍攝時間,方便比對與回顧。

使用流程展示

1

拍照上傳

拍照上傳截圖

透過手機拍攝顯微影像後,自動上傳至後端進行分析

2

分類結果

分類結果截圖

顯示模型預測的白血球類型與文字說明

3

結果確認

結果確認截圖

使用者可確認或修改系統預測結果,回饋系統提升準確性

4

分類紀錄

歷史紀錄截圖

依照白血球類別瀏覽過去影像,並顯示對應的拍攝時間

系統優勢與貢獻

設備成本降低

僅需檢驗人員使用手機結合顯微鏡拍照,大幅降低傳統昂貴設備的建置成本,促進偏鄉醫療發展。與傳統高價儀器DI-60相比,本系統在六類白血球分類上已超越該設備效能。

教育訓練功能

採用創新的Text as Hub框架,同步生成細胞醫學描述,幫助資淺檢驗人員或醫學生快速掌握細胞特徵和分類原因,在提升效率的同時促進學習。

解決人力不足

有效解決各醫院國家認證細胞型態分類臨床專家人員不足的問題,減緩資深檢驗人員的工作負擔,提供24小時不間斷的專業級分類服務。

AI輔助診斷

結合大型語言模型輸出分類依據,通過多項指標評估達標,為醫療決策提供可靠的AI輔助支援,提升診斷品質與一致性。

創新突破: 本研究首次將CLIP與LLaMA結合應用於白血球分類,創新的Text as Hub架構突破傳統僅依賴影像特徵的限制,透過語意理解實現更精準的分類結果,為醫學影像分析領域開創新的技術路徑。