【外部発表】Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?
こんにちは。@shunk031です。論文読み会で登壇したので、そのときの発表資料と概要、及び頂いた質問への回答*1を載せます。
このツイートのスレッドにてACL2020オンラインLT会で発表した "Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words? " に関する質問に回答します。 #xpaperchallenge
— しゅんけー (@shunk031) 2020年8月17日
Q. Qualification Test を通過したアノテータのみにタスクに取り組んでもらう、というようなことは行っていないのでしょうか?
— しゅんけー (@shunk031) 2020年8月17日
A. 論文上では直接言及はされていませんでしたが、複数のアノテーション設定から適切そうなものを選んで最終的な収集方法を決定しているのでまぁ良いか…ぐらいな気持ちです
Q. この分野では感情分析が主なベンチマークなのでしょうか?
— しゅんけー (@shunk031) 2020年8月17日
A. レストラン(今回のYelp)や映画(e.g., IMDB)、Amazonなどのレビューを元にした感情分析はよくあると思います。予測の結果もわかりやすく好まれる傾向がありそうです
Q. 文が長くなるほどsentiment analysisが当たらなくなるというのは、情報量は増えているという点で直観に反する気もするのですが、その辺り何か言及はありましたか?
— しゅんけー (@shunk031) 2020年8月17日
A. 特にattentionの観点では、attentionが薄くなりがち(単語列に対するattentionの合計=1なので)ということは一つ言えそうですね
Q. LSTMの出力に対しての重みを利用していますが、LSTMの各出力が各単語に完全に対応している根拠ってあるんですかね。
— しゅんけー (@shunk031) 2020年8月17日
A. attentionが必ずしも単語に対応していないかもしれませんが、文脈からどの位置の特徴を通すかという点で重要度と言えると思います(この重要度が説明を与えるかはまた別)
イベント: ACL 2020 オンラインLT会
nlpaper-challenge.connpass.com
登壇概要
タイトル:Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?
Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?
- Cansu Sen1, Thomas Hartvigsen2, Biao Yin2, Xiangnan Kong1,2, and Elke Rundensteiner1,2
- 1Computer Science Department , Worcester Polytechnic Institute
- 2Data Science Program, Worcester Polytechnic Institute
自己紹介
- 北田 俊輔 法政大学大学院 理工学研究科 D1 彌冨研 所属 @shunk031 shunk031
本論文を選択した理由
人間とニューラルネットワークは予測の際に同様の単語に焦点を当てているのかが気になった
- Attention機構はモデルの予測の解釈にも使われてきた
- しかし解釈性を疑問視する論文が複数登場してきた
クラウドソーシングによる人手attentionがアノテーションされたデータセットに興味を持った
- 学習済みattentionに対する解釈性を直接評価可能
- 人手attentionを教師にして、よりhuman-friendlyな新しいモデル・学習法を模索可能
本研究の貢献
Yelpレビューデータセットを元にAttention mapを人手でアノテーション
- Amazon Mechanical Turkを利用
- データ収集方法を詳細に検討し、15,000件を収集・公開
人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案
- 様々な指標で評価: 単語の重複度、語彙の分布 etc.
人手のattentionと深層学習モデルのsoft/hard attentionに対して比較・分析
- 深層学習モデルのattentionは人間と似た説明を与える
- 文の長さが長くなるほど異なった説明を与える
関連研究
Attention機構の解釈性
- さまざまな先行研究で言及 [Choi+ NIPS16; Sha+ ACM-BCB17; Yang+ NAACL16]
- その解釈性を疑問視する研究の出現 [Jain+ NAACL19; Serrano+ ACL19]
- 一方attentionは入力単語とモデルの予測の間に意味のある関係性があることを指摘 [Wiegreffe+ EMNLP19]
Attentionの評価
- VQAタスクにおけるattentionの評価 [Das+ EMNLP16]
- Computer Vision (CV) 分野で頻繁に使用されるように➜ NLP分野ではこのようなデータセットが不足
- ERASER [DeYong+ ACL20]
- 小規模だが人手による根拠がアノテーションされている
Preliminaries on Attention Maps
本研究で登場する Attention Map について
Human Attention Map (HAM)
- 人間による2値のattention map (binary AM)
Machine Attention Map (MAM)
- 機械 (ニューラルネット) によるattention map
- Soft AM: 注意の確率分布
- Hard AM: 2値のattention map
同一テキスト内の複数の異なるHAM
Consensus Attention Map (CAM)
- bit-wise AND なHAMを計算したもの
Super Attention Map (SAM)
- bit-wise OR なHAMを計算したもの
Human Attention Mapの収集と分析
概要: クラウドソーシングで収集
- 対象データセット: Yelp dataset
- アノテーション方法: Amazon Mechanical Turk
予備実験1: アノテーションの質の調査
- 人間さまのアノテーションの質を調査
- チートやズルをするアノテータがいないかどうか等
予備実験2: アノテーション方法の検討
read-firstデザイン
- 文を先に読んでもらってから感情値を予測してもらうその後どの単語が重要かのアノテーションしてもらう
free-styleデザイン
- 文を読む・感情値の予測・単語のアノテーションを自由にやってもらう
Human Attention Mapの収集と分析
- データ収集で用意したインターフェース
Human Attention Mapの収集と分析
- レビュー文と感情値選択に寄与しそうな単語のアノテーション
- レビューに対する感情値の選択
- データ収集で用意したインターフェース
Human Attention Mapの収集と分析
予備実験1: アノテーションの質の調査
- 2つの小規模データセット
- Yelp datasetからランダムに50文取得
- A: 50単語/文、B: 100単語/文
- アノテーション時の数値感
- 1文あたりのアノテーション時間
- 44秒(50単語/文)、70秒(100単語/文)
- 1文あたりの選択された単語数
- 9単語(50単語/文)、13単語(100単語/文)
- 1文あたりのアノテーション時間
- 1文あたりの単語数が増えるにつれてアノテーション時間・選択された単語数それぞれ増加する
- アノテータがランダムにアノテーションしているわけではなさそうという結論
Human Attention Mapの収集と分析
予備実験2: アノテーション方法の検討
- 2つのアノテーション方法
- read-first と free-style
- アノテーション時の数値感
- アノテータ間のagreement
- 73% (read-first)、69% (free-style)
- ground truthとどれくらい似ているか
- 3.30 (read-first)、3.10 (free-style)
- cross-sentimentでノイジーなデータの量(選択した感情値と異なる場合のスコア)
- 0.5 (read-first)、1.0 (free-style)
- アノテータ間のagreement
Human Attention Mapの収集と分析
最終的なhuman attention mapの収集方法と結果
Yelp Human Attention Dataset (YELP-HAT)
Attention Map Similarity Framework
人間と機械のattention mapに対する類似度評価
単語選択の重複度
- 人間AMと機械AMの2つが似ている➜ 同様の箇所にattentionが当たっているかを評価
語彙の分布
- 感情の語彙的指標は品詞 (e.g., 名詞・動詞・形容詞) と一般的に関連していることが知られている [Marimuthu+’12]➜ 人間AMと機械AMの語彙的な類似度を評価
感情値の文脈依存性
- ネガティブなレビューの中にあるポジティブな言葉を考慮したり、逆もしかりな場合がある➜ 人間AMと機械AMに対して文脈を考慮して評価
人間と機械のattention mapに対する類似度評価
単語選択の重複度 (Behavioral similarity)
- HAMとMAMで選択された単語重複度合いを計算
語彙の分布 (Lexical similarity: LS)
- HAMとMAMそれぞれで選択された品詞の分布間の相関ランダムなattention R を元に0-1となるように計算
人間と機械のattention mapに対する類似度評価
感情値の文脈依存性 (Cross-sentiment selection rate: CSSR)
- 肯定的な文 (Y=1) のHAMが付与されている単語と否定的な文 (Y=0) のHAMが付与されている単語に着目
- get_words() は条件に合う単語を取得
- 肯定的な文に現れる否定的なな単語、否定的な文に現れる肯定的な単語の比率を比較
Is Machine Attention Similar to Human Attention?
機械の注意は人間の注意と似ているのか?
Machine attention mapの学習
- Amazon Mechanical Turkを利用
- データ収集方法を詳細に検討し、15,000件を収集・公開
文あたりの単語数で分けたときのモデルの精度
- 単語数別に3つのデータセットを構築
- Yelp-50、Yelp-100、Yelp-200
人間の注意と機械の注意の類似性分析
- 単語選択の重複度
- 語彙分布
- 感情値の文脈依存性
機械の注意は人間の注意と似ているのか?
Machine attention mapの学習
- 使用データセット
- Yelp dataset
- 0〜5の評価値が付与されている
- データセットの前処理と分割
- negative: 1〜2、positive: 4〜5 の2値分類設定
- 2値が不均衡にならないように tng:val:tst = 8:1:1
- モデル
- RNN (soft attention)
- uni-, bi-directional LSTM with additive attention
- Rationale mechanisms (hard attention) [Lei+ EMNLP16; Bao+ EMNLP18]
- ハイパーパラメータとして予測根拠となりうる箇所の個数やその特徴表現の近さを指定可能
- RNN (soft attention)
機械の注意は人間の注意と似ているのか?
注意の可視化結果
- 上から HAM, HAM, RNN, bi-RNN, Ratinales の順
機械の注意は人間の注意と似ているのか?
文あたりの単語数で分けたときのモデルの精度
- 文長が長くなるほどhuman・machineともに精度減少
- 文が長いと一回で文意を読み解くのは難しく、より集中して読み解かなくてはならないため
- 双方向RNNはパフォーマンス的にhumanと近い傾向
- テキスト読解の双方向性が人間に近い
単語選択の重複度の側面での分析
- HAMと比べてConsensus Attention Mapの類似度が他と比べて高い
- 複数のアノテータが重要だと判断した単語
- 機械の注意でもそれらが重要だと予測
- CAMと比べてSuper Attention Mapの類似度は低い
- 人間の主観的な単語選択は常に機械から高い注目を受けているわけではない
- もちろん人間同士の類似度は機械との類似度よりも高い
- 完全に類似はしていない➜ それぞれ主観的な単語選択
- 文が長くなればなるほど類似度は低くなっていく
機械の注意は人間の注意と似ているのか?
語彙分布の側面での分析
- Bi-RNN Attentionが人間に近い注意を学習
- 文が長くなればなるほどスコアは減少
- どの語彙カテゴリが多く選ばれているか
- 人間・機械ともに○: 形容詞、比較級形容詞、名詞
- 人間 ○: 副詞
- 機械 ○: 固有名詞(複数形)
- 人間・機械ともに✘: 人称代名詞
- 人間・機械ともに○: 形容詞、比較級形容詞、名詞
機械の注意は人間の注意と似ているのか?
感情値の文脈依存性の側面での分析
- 人間アノテータ
- レビューが肯定的であれば、ほぼ肯定的な単語を選択
- 否定的なレビューについては否定的な単語よりも肯定的な単語のほうが多く選択
- RNN attention
- 否定的な文脈での肯定的な単語の選択率が2倍以上
- 肯定的なレビュー文において
結論と今後の展望
Yelpレビューデータセットを元にAttention mapを人手でアノテーション
- Amazon Mechanical Turkを利用し、15,000件を収集
人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案し、分析
- 様々な指標で評価: 単語の重複度、語彙の分布 etc.
深層学習モデルのattentionは人間と似た説明を与える
- Attentionを教師ありで学習するモデルの検討
- 再現実験を準備中
- shunk031/human-attention-map-for-text-classification 2分
33 Appendix
アノテータ間で選択された単語数の違い 34 多数アノテーションしているアノテータもいれば、ごく少数の単語にのみアノテーションしているアノテータもいる
参考文献
- [Marimuthu+ ‘12] Marimuthu et al. "How Human Analyse Lexical Indicators of Sentiments-A Cognitive Analysis Using Reaction-Time." Proc. of the 2nd Workshop on Sentiment Analysis where AI meets Psychology. 2012.
- [Lei+ EMNLP16] Lei et al. "Rationalizing Neural Predictions." Proc. of EMNLP 2016.
- [Das+ EMNLP16] Das et al. "Human Attention in Visual Question Answering: Do Humans and Deep Networks look at the same regions?." Proc. of EMNLP 2016.
- [Yang+ NAACL16] Yang et al. "Hierarchical attention networks for document classification." Proc. of NAACL-HLT 2016.
- [Choi+ NIPS16] Choi et al. "Retain: An interpretable predictive model for healthcare using reverse time attention mechanism." Proc. of NIPS 2016.
- [Sha+ ACM-BCB17] Sha et al. "Interpretable predictions of clinical outcomes with an attention-based recurrent neural network." Proc. of ACM-BCB 2017.
- [Liu+ ACL17] Liu et al. "Exploiting argument information to improve event detection via supervised attention mechanisms." Proc. of ACL 2017.
- [Chen+ CVPRW17] Chen et al. "Attending to distinctive moments: Weakly-supervised attention models for action localization in video." Proc. CVPR Workshops 2017.
- [Bao+ EMNLP18] Bao et al. "Deriving Machine Attention from Human Rationales." Proc. of EMNLP 2018.
- [Lipton Queue18] Lipton, Zachary C. "The mythos of model interpretability." Queue ACM 2018.
- [Jain+ NAACL19] Jain et al. "Attention is not Explanation." Proc. of NAACL-HLT 2019.
- [Serrano+ ACL19] Serrano et al. "Is Attention Interpretable?." Proc. of ACL 2019.
- [Wiegreffe+ EMNLP19] Wiegreffe et al. "Attention is not not Explanation." Proc. of EMNLP 2019.
- [DeYoung+ ACL20] DeYoung et al. "ERASER: A Benchmark to Evaluate Rationalized NLP Models." Proc. of ACL 2020.
*1:論文を読んで理解した範囲であり、個人的な経験や主観が含まれている可能性があります。