3. 研究方法

3.1 研究設定

本研究在使用飯店評論資料以訓練情感分析模型的過程中,依據指導教授的建議,採用 ABSA(基於面向的情感分析) 方法。透過 ABSA,模型得以自評論文本中抽取面向詞 (Aspect Term),並判斷其所對應的情感極性。 原先本研究向樂天提出資料集使用申請,希望能取得官方飯店評論資料。然而,由於未獲 得正式回覆,故改以自製網路爬蟲蒐集樂天旅遊網站上所公開的評論內容。最終共取得約 4,500 則飯店評論。

資料前處理

在資料蒐集後,本研究進行 面向(Aspect)、評價詞(Opinion)、情感極性 (Sentiment) 等標註之資料前處理作業。此外,為進行句子層級分析,我們使用 Python 進行評論句子切分及屬性標註。

・原始資料

原始資料

・前處理後的資料

前處理後資料

透過前處理,我們成功為每句評論新增 aspect(面向)、opinion(評價詞)、sentiment(情感極性)、entity(實體)、sentence(句子)、hotel_id(飯店編號)等資訊。然而,指導教授指出資料仍存在下列問題:

(1)Aspect(面向)與 Opinion(評價詞)的對應不穩定

・原始資料

原始資料

・處理後的資料

前處理後資料

如例所示,「車站(location)」的面向在標註後被錯誤歸類為「美味」這類評價詞,顯示僅依賴詞語共現容易造成錯誤分類。

②未確定 Entity 與 Attribute

本次初步標註並未明確界定評論中的 Entity(評價對象)與 Attribute(評價角度)。教 授因此要求:
● 重新定義并統一 Entity/Attribute
● 情感極性(Sentiment)須人工標註
● 根據教授提供之先行研究 Python 工具重新調整程式
研究方針之調整
Entity、Attribute 依教授指定之論文分類方式

原始資料

● 調整教授提供之程式,作為手動 ABSA 標註工具
● 兩人一組,個別標註 50 筆,並相互比對一致性
● 一致率(相符率)目標至少為 70%

標記作業

使用改良後的工具,我們對評論資料逐句進行人工標註並比較兩名成員之結果。

・工具輸入畫面

工具輸入畫面

標記結果 A

標記結果 A

標記結果 B

標記結果 B
比較後發現下列不一致情形: 新增標註規則
第二次標註後一致率變化
此結果顯示,標註規範的統一能顯著提升一致性。

3.4 全體標註流程與一致率提升策略

研究團隊以「分階段回饋 → 工具優化 → 規則再統一」的節奏推進 ABSA 標註工作,以下依 時序整理三階段重點。

3.4.1 第一次全體標註與配對組形成

在教授指示下,全員共同標註相同的 100 句評論,依一致率分組為 7 組;高田整合 7 組 JSON 結果轉為 CSV,完成首次一致率分析。

小笠原與甲斐在 Category 標註較弱,需再練習。

本階段發現之問題

  • 資料 ID 重複或遺漏
  • Aspect 欄位空白(未填 NULL)造成欄位位移
  • 手動輸入造成表達不一致與錯誤
  • 應拆分為多個 Aspect 卻被誤合併

→ 立即再確認標註規則並修訂作業流程。

3.4.2 暑期會議與第二次標註

暑假期間每週召開會議,逐條統一標註規範,並重新檢視一致率計算方式避免重複計數。

統一規範

  • 不使用「Miscellaneous」分類
  • 明確定義「Comfort」
  • 區分「Quality」與「Style & Options」
  • 釐清「Design & Features」與「Comfort」差異

再標註後 Category 一致率改善有限,教授要求重新設計演算法。
第二次結果:

3.4.3 工具改良與規則追加

工具/規則強化

  • 排除「ありがとう」「グレードアップ」等非 Opinion 評價詞
  • 高田開發 JSON→Excel、JSON→JSONL 轉換工具
  • 溝上新增自動輸出一致率 CSV 功能

教授新指示

  • 每組標註 300 句,先進行 50 句試標註
  • 一致率 <70%:討論後重標;≥70%:每次續標註 100 句

後續調整

  • 「Quad」改為「Quadruplet」
  • Category 命名全面統一
  • 一致率較低之組別需追加召開會議

3.4.4 進階標註與 Final 準備

教授新要求

  • 計算刪除後剩餘句數
  • 計算全組一致率(F1 分數)
  • 計算 7 組加權平均

高田調整 JSONL 結構,溝上分發 8 月資料集並整併 7 月成果。教授於例會中示範 Final (兩人交叉產生正解資料)的作業流程並明確分派任務。

Final 準備流程圖
Final 準備:作業流程一覽

3.4.5 Final 作業與修正

Final 期間陸續偵測到資料錯誤,團隊依教授回饋「即查即修」,歷經多輪疊代後完成 7 名成員全部 Final 標註,正式產生正解資料集。

3.4.6 Value Annotation(VA)作業

教授講解 Value Annotation(VA)並開放專屬網站,全員註冊後先進行 35 句試標註,再依 時間表執行大量任務。

作業里程碑

  • 142 句 + 額外 15 句
  • 修正後每日 115 句 × 9 日
  • 追加 50 句
  • 每日 100 句 × 7 日

最終每人完成 550 句 VA 標註;高田依教授指示於 Notion 記錄錯誤樣態。

VA 專屬網站畫面
專屬 VA 平台介面

3.5 DimABSA 競賽提交與評估方法

團隊將最終標註資料整理為 JSONL,提交至 SemEval-2026 主辦之 Codabench 平台,參加 Task 3:Dimensional Aspect-Based Sentiment Analysis(DimABSA)Track A。

DimABSA 特點

  • 不使用傳統「正面/負面」標籤
  • 以 Valence(愉悅—不快)與 Arousal(覺醒—鎮靜)連續值表示情感

本研究對應子任務

  1. Subtask 1(DimASR):情感回歸(預測 VA 分數)
  2. Subtask 2(DimASTE):三元組抽取(Aspect, Opinion, VA)
  3. Subtask 3(DimASQP):四元組抽取(Aspect, Category, Opinion, VA)

Subtask 1:回歸模型配置

以 Transformer(如 BERT-base)為基礎,添加迴歸層進行微調:

  • cl-tohoku/bert-base-japanese-whole-word-masking
  • bert-base-multilingual-cased
  • cl-tohoku/bert-base-japanese-char-v3

Subtask 2/3:LLM 指令微調

採用 Instruction Tuning 之大型語言模型,強調多語多任務能力:

  • unsloth/Qwen3-4B-Instruct-2507-bnb-4bit
  • unsloth/Qwen3-8B-unsloth-bnb-4bit
  • unsloth/gemma-2-9b-it-bnb-4bit

評估方式

  • Subtask 1:RMSEVA、PCCV、PCCA
  • Subtask 2/3:cF1、cPrecision、cRecall