display

在成癮風險評估系統開發過程中，模型於多輪測試階段出現若干回應偏差與邏輯異常。為釐清問題來源與後續優化方向，將主要觀察結果歸納如下：

模型對部分語意的數量詞與時間詞判斷不精確，例如「一天喝一瓶」的描述在語義分析中被誤判為中低頻率，導致分數低估。此問題反映出模型在中文日常語境下對「頻率單位」與「量詞」的語意理解能力不足，造成加權總分無法準確反映實際行為強度。

系統在多輪互動過程中出現「分數逐漸下降」的情形。推測主因為模型在後續回合重新評估時傾向保守化推論，加上未採取上次結果校正機制（last_score），導致風險評分逐輪減少。此現象影響了結果一致性與臨床可信度。

部分回覆雖已具備足夠資訊（例如高頻率且明顯影響生活），但模型仍重複產生「資訊不足」類回應，未進入最終結論階段。問題主因為 prompt 結構中未明確規定「風險判斷門檻」或終止條件，導致模型預設選擇安全回應路徑（持續補問）。

早期版本中，模型在資訊不足情況下的「補問」常出現語意偏差或語氣不合邏輯，例如對已明確陳述的行為再度追問「您是否有這樣的情況？」。此現象顯示模型未能正確辨識已知與未知資訊，導致提問冗餘、體驗不佳。後續版本已透過明確輸出模板及禁用提問關鍵詞（如「請問」「是否」「進一步了解」）加以改善。