3. 研究方法

3.1 研究設定

本研究在使用飯店評論資料以訓練情感分析模型的過程中，依據指導教授的建議，採用 ABSA（基於面向的情感分析）方法。透過 ABSA，模型得以自評論文本中抽取面向詞（Aspect Term），並判斷其所對應的情感極性。原先本研究向樂天提出資料集使用申請，希望能取得官方飯店評論資料。然而，由於未獲得正式回覆，故改以自製網路爬蟲蒐集樂天旅遊網站上所公開的評論內容。最終共取得約 4,500 則飯店評論。

資料前處理

在資料蒐集後，本研究進行面向（Aspect）、評價詞（Opinion）、情感極性（Sentiment）等標註之資料前處理作業。此外，為進行句子層級分析，我們使用 Python 進行評論句子切分及屬性標註。

・原始資料

原始資料

・前處理後的資料

前處理後資料

透過前處理，我們成功為每句評論新增 aspect（面向）、opinion（評價詞）、sentiment（情感極性）、entity（實體）、sentence（句子）、hotel_id（飯店編號）等資訊。然而，指導教授指出資料仍存在下列問題：

（1）Aspect（面向）與 Opinion（評價詞）的對應不穩定

・原始資料

原始資料

・處理後的資料

前處理後資料

如例所示，「車站（location）」的面向在標註後被錯誤歸類為「美味」這類評價詞，顯示僅依賴詞語共現容易造成錯誤分類。

②未確定 Entity 與 Attribute

本次初步標註並未明確界定評論中的 Entity（評價對象）與 Attribute（評價角度）。教授因此要求：
● 重新定義并統一 Entity／Attribute
● 情感極性（Sentiment）須人工標註
● 根據教授提供之先行研究 Python 工具重新調整程式
研究方針之調整
Entity、Attribute 依教授指定之論文分類方式

原始資料

● 調整教授提供之程式，作為手動 ABSA 標註工具
● 兩人一組，個別標註 50 筆，並相互比對一致性
● 一致率（相符率）目標至少為 70%

標記作業

使用改良後的工具，我們對評論資料逐句進行人工標註並比較兩名成員之結果。

・工具輸入畫面

工具輸入畫面

標記結果 A

標記結果 A

標記結果 B

標記結果 B

比較後發現下列不一致情形：

助動詞、接尾詞、敬語等是否應納入標註缺乏統一標準
日文常見省略句型導致 Aspect 判斷不一致
Aspect／Opinion 是否應以單字或片語標註存在歧見
「Quality」「General」等分類過於寬泛，易產生不同解讀

新增標註規則

統一單詞擷取形式
若無適當的 Aspect，統一標註為 NULL

第二次標註後一致率變化

Aspect：52% → 59%
Opinion：20% → 50%
Category：20% → 39%

此結果顯示，標註規範的統一能顯著提升一致性。

3.4 全體標註流程與一致率提升策略

研究團隊以「分階段回饋 → 工具優化 → 規則再統一」的節奏推進 ABSA 標註工作，以下依時序整理三階段重點。

在教授指示下，全員共同標註相同的 100 句評論，依一致率分組為 7 組；高田整合 7 組 JSON 結果轉為 CSV，完成首次一致率分析。

小笠原與甲斐在 Category 標註較弱，需再練習。

本階段發現之問題

資料 ID 重複或遺漏
Aspect 欄位空白（未填 NULL）造成欄位位移
手動輸入造成表達不一致與錯誤
應拆分為多個 Aspect 卻被誤合併

→ 立即再確認標註規則並修訂作業流程。

暑假期間每週召開會議，逐條統一標註規範，並重新檢視一致率計算方式避免重複計數。

統一規範

不使用「Miscellaneous」分類
明確定義「Comfort」
區分「Quality」與「Style & Options」
釐清「Design & Features」與「Comfort」差異

再標註後 Category 一致率改善有限，教授要求重新設計演算法。
第二次結果：

工具／規則強化

排除「ありがとう」「グレードアップ」等非 Opinion 評價詞
高田開發 JSON→Excel、JSON→JSONL 轉換工具
溝上新增自動輸出一致率 CSV 功能

教授新指示

每組標註 300 句，先進行 50 句試標註
一致率 <70%：討論後重標；≥70%：每次續標註 100 句

後續調整

「Quad」改為「Quadruplet」
Category 命名全面統一
一致率較低之組別需追加召開會議

3.4.4 進階標註與 Final 準備

教授新要求

計算刪除後剩餘句數
計算全組一致率（F1 分數）
計算 7 組加權平均

高田調整 JSONL 結構，溝上分發 8 月資料集並整併 7 月成果。教授於例會中示範 Final （兩人交叉產生正解資料）的作業流程並明確分派任務。

Final 準備流程圖 — Final 準備：作業流程一覽

3.4.5 Final 作業與修正

Final 期間陸續偵測到資料錯誤，團隊依教授回饋「即查即修」，歷經多輪疊代後完成 7 名成員全部 Final 標註，正式產生正解資料集。

3.4.6 Value Annotation（VA）作業

教授講解 Value Annotation（VA）並開放專屬網站，全員註冊後先進行 35 句試標註，再依時間表執行大量任務。

作業里程碑

142 句 + 額外 15 句
修正後每日 115 句 × 9 日
追加 50 句
每日 100 句 × 7 日

最終每人完成 550 句 VA 標註；高田依教授指示於 Notion 記錄錯誤樣態。

VA 專屬網站畫面 — 專屬 VA 平台介面

3.5 DimABSA 競賽提交與評估方法

團隊將最終標註資料整理為 JSONL，提交至 SemEval-2026 主辦之 Codabench 平台，參加 Task 3：Dimensional Aspect-Based Sentiment Analysis（DimABSA）Track A。

      
        DimABSA 特點
        不使用傳統「正面／負面」標籤
以 Valence（愉悅—不快）與 Arousal（覺醒—鎮靜）連續值表示情感

        本研究對應子任務
        Subtask 1（DimASR）：情感回歸（預測 VA 分數）
Subtask 2（DimASTE）：三元組抽取（Aspect, Opinion, VA）
Subtask 3（DimASQP）：四元組抽取（Aspect, Category, Opinion, VA）

Subtask 1：回歸模型配置

以 Transformer（如 BERT-base）為基礎，添加迴歸層進行微調：

cl-tohoku/bert-base-japanese-whole-word-masking
bert-base-multilingual-cased
cl-tohoku/bert-base-japanese-char-v3

Subtask 2／3：LLM 指令微調

採用 Instruction Tuning 之大型語言模型，強調多語多任務能力：

unsloth/Qwen3-4B-Instruct-2507-bnb-4bit
unsloth/Qwen3-8B-unsloth-bnb-4bit
unsloth/gemma-2-9b-it-bnb-4bit

評估方式

Subtask 1：RMSE_VA、PCC_V、PCC_A
Subtask 2／3：cF1、cPrecision、cRecall