4. 實驗結果或系統展示

4.1 面向詞抽取標註的實施方法

本研究以刊載於樂天旅遊網站之日文飯店評論作為資料來源,進行 Aspect-Based Sentiment Analysis(ABSA)的基礎工作,並將重點放在 面向詞(Aspect Term)之人工標註作業。評論內容由實際住宿的顧客撰寫,語言自然、表達方式多元,具有高度真實性。本次標註作業由兩名成員共同執行,針對 100 筆評論文本進行人工標註。
標註作業主要聚焦於以下四項元素:
1. 面向詞(Aspect Term)
作為評價對象之名詞或名詞片語,如:「房間」、「溫泉」、「早餐」等。
2. 評價詞(Opinion)
表達情感傾向之詞語,包括形容詞、副詞、形容動詞等,如:「美味」、「乾淨」、 「遺憾」等。
3. 面向分類(Aspect Category)
依照屬性將面向詞劃分為七類(如:HOTEL、ROOMS、FACILITIES 等)。
4. 評價詞分類(Opinion Category)
依屬性將評價詞劃分為八類(如:GENERAL、PRICE、COMFORT 等)。

4.2 評價詞(Opinion)標註規則之制定

為提升標註一致性,本研究制定以下統一規範:
1. 連體形保持原樣
例:「楽しくて」保留為「楽しくて」,維持語境自然結構。
2. 敬語去除,採用基本形紀錄
例:「楽しかったです」→「楽しかった」,以抽象化形式提升客觀性。
3. 副詞修飾一併保留
例:「とても楽しい」→「とても楽しい」,保留強調語氣之分析價值。
藉由此規範,可避免人為表述差異,提升後續自動處理與模型訓練之資料品質。

4.3 抽取結果之範例與觀察

以下列出實際進行標記的評論句,以及從中所抽取出的面向詞(Aspect)與評價詞(Opinion)的範例:

4-1
4-2

從標註結果中,我們觀察到:
● 面向詞多集中於「早餐」、「房間」、「地點」、「服務」等評價重點。
● 單一句子同時包含多個面向詞之情況相當普遍,如:「房間很乾淨,溫泉也很不
錯」。
● 評價詞的表現形式多樣,包括形容詞(「方便」、「乾淨」、「滿意」、「狹窄」、
「失望」)及副詞結構(「非常」、「有點」、「超級」)。
此類語言特徵可作為後續建立 情感強度(Valence/Arousal)分析 的重要基礎資訊。

4.4 標註作業之課題、反思與解決策略

4.4.1 克服多人標註一致性

期中階段遭遇以下挑戰:

  • 面向詞/評價詞邊界模糊
  • 抽象面向分類標準不明確
  • 類別依賴語境而變動
  • 中立、委婉表達難以判讀

對策:

  • 暑期每週召開會議,逐條釐清 Miscellaneous、Comfort、Quality、Style & Options、Design & Features。
  • 導入 QC:逐批量測一致率、分析原因、低一致率組別強制討論。

結果:一致性顯著提升,已能達到直接提交標準。

4.4.2 導入 Valence/Arousal(VA)

為解決中立、反諷、多層次情感難以標註的問題,我們加入 Valence(V:愉悅—不快)Arousal(A:覺醒—鎮靜) 兩軸量表。

  • 補強傳統 ABSA 僅二元情感的限制
  • VA 標註同步檢查並修正多處 Aspect 錯誤

4.4.3 技術挑戰與流程改善

  • 資料處理自動化(高田):開發 JSON→Excel/CSV、JSON→JSONL 轉換工具,提升批次處理效率。
  • 標註程式改善(溝上):修正 NULL、套用 Quad→Quadruplet、Category 名稱統一等規格。
  • 標註環境升級:教授提供 VA 專用網站,支援大規模標註任務。

4.5 最終成果:高品質日文 ABSA + VA 資料集

  • 完成規模化的日文 ABSA 資料集
  • 每句皆含 Valence / Arousal 強度標註
  • 支援 Triplet / Quadruplet 結構,直接對應 DimABSA 任務需求

透過系統化流程與 QA 管控,資料集具備高度實用性並成為後續模型訓練核心資產。

4.6 最終結果(Final Results)

本系統提交至 Codabench(SemEval-2026 Task 3 Track A),以下為 Dev Set 評估摘要與各子任務表現。

4.6.1 評估概述與分數

子任務 課題名稱 排名指標
Subtask 1(DimASR) 情感回歸(VA 預測) Normalized RMSE
Subtask 2(DimASTE) 三元組提取 Continuous F1(cF1)
Subtask 3(DimASQP) 四元組提取 Continuous F1(cF1)

(1) Subtask 1:情感回歸

模型 使用的模型名稱(ID) RMSE VA PCC V (↑) PCC A (↑)
日文(單詞級別) cl-tohoku/bert-base-japanese-whole-word-masking 1.9908 0.1026 0.0761
多語言 bert-base-multilingual-cased 2.0561 0.0198 0.0850
日文(字符級別) cl-tohoku/bert-base-japanese-char-v3 2.0866 0.0610 0.0219

考察:

  • 多語模型因需兼顧 100+ 語言,語義表徵較分散。
  • 日文單詞級別模型直接輸入 Mecab 切詞結果,能聚焦情感預測。
  • 字符級別模型需先重建詞彙語意,造成誤差累積。

(2) Subtask 2:三元組抽取

模型 使用的模型名稱(ID) cF1 (↑) cPrecision (↑) cRecall (↑)
Qwen (8B) unsloth/Qwen3-8B-unsloth-bnb-4bit 0.4359 0.4273 0.4449
Qwen (4B) unsloth/Qwen3-4B-Instruct-2507-bnb-4bit 0.4027 0.3679 0.4447
Gemma (9B) unsloth/gemma-2-9b-it-bnb-4bit 0.1078 0.0613 0.4485

考察:

  • Qwen 擴展至 8B 後,cF1 提升約 0.033。
  • Gemma 雖找回率高,但 FP 暴增(精確率僅 0.0613)。

(3) Subtask 3:四元組抽取

模型 使用的模型名稱(ID) cF1 (↑) cPrecision (↑) cRecall (↑)
Qwen (4B) unsloth/Qwen3-4B-Instruct-2507-bnb-4bit 0.3342 0.3360 0.3323
Qwen (8B) unsloth/Qwen3-8B-unsloth-bnb-4bit 0.2942 0.3155 0.2756
Gemma (9B) unsloth/gemma-2-9b-it-bnb-4bit 0.1144 0.0978 0.1378

考察:

  • 四元組任務更複雜,8B 版反而降低召回率並增加 FN。
  • Gemma 再度因 FP 過高而不適用此任務。

4.7 小結:系統優勢與限制

最佳模型

  • Subtask 1:cl-tohoku/bert-base-jpn-whole-word-masking
  • Subtask 2:unsloth/Qwen3-8B-unsloth-bnb-4bit
  • Subtask 3:unsloth/Qwen3-4B-Instruct-2507-bnb-4bit

限制與課題

  • Subtask 1:缺乏趨勢相關性,需改良模型結構
  • Subtask 3:Category 複雜度高,易造成漏檢

未來方向

持續優化標註規則、降低 FP/FN,並探索多模態與跨語言增益策略,以進一步提升 DimABSA 表現。