【外部発表】Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

こんにちは。@shunk031です。論文読み会で登壇したので、そのときの発表資料と概要、及び頂いた質問への回答*1を載せます。

このツイートのスレッドにてACL2020オンラインLT会で発表した "Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words? " に関する質問に回答します。 #xpaperchallenge
— しゅんけー (@shunk031) 2020年8月17日

Q. Qualification Test を通過したアノテータのみにタスクに取り組んでもらう、というようなことは行っていないのでしょうか？
A. 論文上では直接言及はされていませんでしたが、複数のアノテーション設定から適切そうなものを選んで最終的な収集方法を決定しているのでまぁ良いか…ぐらいな気持ちです
— しゅんけー (@shunk031) 2020年8月17日

Q. この分野では感情分析が主なベンチマークなのでしょうか？
A. レストラン（今回のYelp）や映画（e.g., IMDB）、Amazonなどのレビューを元にした感情分析はよくあると思います。予測の結果もわかりやすく好まれる傾向がありそうです
— しゅんけー (@shunk031) 2020年8月17日

Q. 文が長くなるほどsentiment analysisが当たらなくなるというのは、情報量は増えているという点で直観に反する気もするのですが、その辺り何か言及はありましたか？
A. 特にattentionの観点では、attentionが薄くなりがち（単語列に対するattentionの合計=1なので）ということは一つ言えそうですね
— しゅんけー (@shunk031) 2020年8月17日

Q. LSTMの出力に対しての重みを利用していますが、LSTMの各出力が各単語に完全に対応している根拠ってあるんですかね。
A. attentionが必ずしも単語に対応していないかもしれませんが、文脈からどの位置の特徴を通すかという点で重要度と言えると思います（この重要度が説明を与えるかはまた別）
— しゅんけー (@shunk031) 2020年8月17日

イベント: ACL 2020 オンラインLT会

nlpaper-challenge.connpass.com

登壇概要

タイトル：Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

Cansu Sen1, Thomas Hartvigsen2, Biao Yin2, Xiangnan Kong1,2, and Elke Rundensteiner1,2
- 1Computer Science Department , Worcester Polytechnic Institute
- 2Data Science Program, Worcester Polytechnic Institute

自己紹介

北田俊輔法政大学大学院理工学研究科 D1 彌冨研所属 @shunk031 shunk031
- 深層学習を元にした基礎・応用研究
  - 自然言語処理: 文字形状に着目・解釈性のあるモデル
    - YANS2019にて奨励賞を受賞
    - ACL2020 SRWにて共著の論文採択
      - 文字形状が特徴的なアラビア語に対する新たな分類モデルと2つの大規模データセットの提案
  - 医用画像処理: 悪性黒色腫自動診断システムの構築
    - IPSJ2019にて学生奨励賞受賞
  - 計算機広告: 広告クリエイティブの評価・作成支援
    - KDD2019（データマイニングの最難関国際会議）にて論文採択
      - Attention可視化によるクリエイティブ作成支援

本論文を選択した理由

人間とニューラルネットワークは予測の際に同様の単語に焦点を当てているのかが気になった

Attention機構はモデルの予測の解釈にも使われてきた
しかし解釈性を疑問視する論文が複数登場してきた
クラウドソーシングによる人手attentionがアノテーションされたデータセットに興味を持った
学習済みattentionに対する解釈性を直接評価可能
人手attentionを教師にして、よりhuman-friendlyな新しいモデル・学習法を模索可能

本研究の貢献

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

Amazon Mechanical Turkを利用
データ収集方法を詳細に検討し、15,000件を収集・公開

人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案

様々な指標で評価: 単語の重複度、語彙の分布 etc.

人手のattentionと深層学習モデルのsoft/hard attentionに対して比較・分析

深層学習モデルのattentionは人間と似た説明を与える
文の長さが長くなるほど異なった説明を与える

Preliminaries on Attention Maps

本研究で登場する Attention Map について

Human Attention Map (HAM)

人間による2値のattention map (binary AM)

Machine Attention Map (MAM)

機械 (ニューラルネット) によるattention map
- Soft AM: 注意の確率分布
- Hard AM: 2値のattention map

同一テキスト内の複数の異なるHAM

Consensus Attention Map (CAM)

bit-wise AND なHAMを計算したもの

Super Attention Map (SAM)

bit-wise OR なHAMを計算したもの

Human Attention Mapの収集と分析

概要: クラウドソーシングで収集

対象データセット: Yelp dataset
アノテーション方法: Amazon Mechanical Turk

予備実験1: アノテーションの質の調査

人間さまのアノテーションの質を調査
チートやズルをするアノテータがいないかどうか等

予備実験2: アノテーション方法の検討

read-firstデザイン

文を先に読んでもらってから感情値を予測してもらうその後どの単語が重要かのアノテーションしてもらう

free-styleデザイン

文を読む・感情値の予測・単語のアノテーションを自由にやってもらう

Human Attention Mapの収集と分析

データ収集で用意したインターフェース

Human Attention Mapの収集と分析

レビュー文と感情値選択に寄与しそうな単語のアノテーション
レビューに対する感情値の選択
データ収集で用意したインターフェース

Human Attention Mapの収集と分析

予備実験1: アノテーションの質の調査

2つの小規模データセット
- Yelp datasetからランダムに50文取得
- A: 50単語/文、B: 100単語/文
アノテーション時の数値感
- 1文あたりのアノテーション時間
  - 44秒（50単語/文）、70秒（100単語/文）
- 1文あたりの選択された単語数
  - 9単語（50単語/文）、13単語（100単語/文）
1文あたりの単語数が増えるにつれてアノテーション時間・選択された単語数それぞれ増加する
- アノテータがランダムにアノテーションしているわけではなさそうという結論

Human Attention Mapの収集と分析

予備実験2: アノテーション方法の検討

2つのアノテーション方法
- read-first と free-style
アノテーション時の数値感
- アノテータ間のagreement
  - 73% (read-first)、69% (free-style)
- ground truthとどれくらい似ているか
  - 3.30 (read-first)、3.10 (free-style)
- cross-sentimentでノイジーなデータの量(選択した感情値と異なる場合のスコア)
  - 0.5 (read-first)、1.0 (free-style)

Human Attention Mapの収集と分析

最終的なhuman attention mapの収集方法と結果

Yelp Human Attention Dataset (YELP-HAT)

予備実験を元に大規模アノテーションデータセットを作成
プロジェクトページ
read-first デザイン
3つの異なるアノテータによるアノテーション
- 3 x 5,000レビュー = 15,000件

Attention Map Similarity Framework

人間と機械のattention mapに対する類似度評価

単語選択の重複度

人間AMと機械AMの2つが似ている➜ 同様の箇所にattentionが当たっているかを評価
語彙の分布
感情の語彙的指標は品詞 (e.g., 名詞・動詞・形容詞) と一般的に関連していることが知られている [Marimuthu+’12]➜ 人間AMと機械AMの語彙的な類似度を評価
感情値の文脈依存性
ネガティブなレビューの中にあるポジティブな言葉を考慮したり、逆もしかりな場合がある➜ 人間AMと機械AMに対して文脈を考慮して評価

人間と機械のattention mapに対する類似度評価

単語選択の重複度 (Behavioral similarity)

HAMとMAMで選択された単語重複度合いを計算
語彙の分布 (Lexical similarity: LS)
HAMとMAMそれぞれで選択された品詞の分布間の相関ランダムなattention R を元に0-1となるように計算

人間と機械のattention mapに対する類似度評価

感情値の文脈依存性 (Cross-sentiment selection rate: CSSR)

肯定的な文 (Y=1) のHAMが付与されている単語と否定的な文 (Y=0) のHAMが付与されている単語に着目
- get_words() は条件に合う単語を取得
- 肯定的な文に現れる否定的なな単語、否定的な文に現れる肯定的な単語の比率を比較

Is Machine Attention Similar to Human Attention?

機械の注意は人間の注意と似ているのか？

Machine attention mapの学習

Amazon Mechanical Turkを利用
データ収集方法を詳細に検討し、15,000件を収集・公開

文あたりの単語数で分けたときのモデルの精度

単語数別に3つのデータセットを構築
- Yelp-50、Yelp-100、Yelp-200

人間の注意と機械の注意の類似性分析

単語選択の重複度
語彙分布
感情値の文脈依存性

機械の注意は人間の注意と似ているのか？

Machine attention mapの学習

使用データセット
- Yelp dataset
- 0〜5の評価値が付与されている
データセットの前処理と分割
- negative: 1〜2、positive: 4〜5 の2値分類設定
- 2値が不均衡にならないように tng:val:tst = 8:1:1
モデル
- RNN (soft attention)
  - uni-, bi-directional LSTM with additive attention
- Rationale mechanisms (hard attention) [Lei+ EMNLP16; Bao+ EMNLP18]
  - ハイパーパラメータとして予測根拠となりうる箇所の個数やその特徴表現の近さを指定可能

機械の注意は人間の注意と似ているのか？

注意の可視化結果

上から HAM, HAM, RNN, bi-RNN, Ratinales の順

機械の注意は人間の注意と似ているのか？

文あたりの単語数で分けたときのモデルの精度

文長が長くなるほどhuman・machineともに精度減少
- 文が長いと一回で文意を読み解くのは難しく、より集中して読み解かなくてはならないため
双方向RNNはパフォーマンス的にhumanと近い傾向
- テキスト読解の双方向性が人間に近い

単語選択の重複度の側面での分析

HAMと比べてConsensus Attention Mapの類似度が他と比べて高い
- 複数のアノテータが重要だと判断した単語
- 機械の注意でもそれらが重要だと予測
CAMと比べてSuper Attention Mapの類似度は低い
- 人間の主観的な単語選択は常に機械から高い注目を受けているわけではない
もちろん人間同士の類似度は機械との類似度よりも高い
- 完全に類似はしていない➜ それぞれ主観的な単語選択
- 文が長くなればなるほど類似度は低くなっていく

機械の注意は人間の注意と似ているのか？

語彙分布の側面での分析

Bi-RNN Attentionが人間に近い注意を学習
- 文が長くなればなるほどスコアは減少
どの語彙カテゴリが多く選ばれているか
- 人間・機械ともに○: 形容詞、比較級形容詞、名詞
  - 人間 ○: 副詞
  - 機械 ○: 固有名詞（複数形）
- 人間・機械ともに✘: 人称代名詞

機械の注意は人間の注意と似ているのか？

感情値の文脈依存性の側面での分析

人間アノテータ
- レビューが肯定的であれば、ほぼ肯定的な単語を選択
- 否定的なレビューについては否定的な単語よりも肯定的な単語のほうが多く選択
RNN attention
- 否定的な文脈での肯定的な単語の選択率が2倍以上
- 肯定的なレビュー文において

結論と今後の展望

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

Amazon Mechanical Turkを利用し、15,000件を収集
人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案し、分析
様々な指標で評価: 単語の重複度、語彙の分布 etc.
深層学習モデルのattentionは人間と似た説明を与える
Attentionを教師ありで学習するモデルの検討
- CV分野や一部のNLPタスクでは教師として注目領域を学習するモデルが提案 [Chen+ CVPRW17, Liu+ ACL17] ➜ NLP分野でも実現可能か？
再現実験を準備中
- shunk031/human-attention-map-for-text-classification 2分

33 Appendix

アノテータ間で選択された単語数の違い 34 多数アノテーションしているアノテータもいれば、ごく少数の単語にのみアノテーションしているアノテータもいる

参考文献

[Marimuthu+ ‘12] Marimuthu et al. "How Human Analyse Lexical Indicators of Sentiments-A Cognitive Analysis Using Reaction-Time." Proc. of the 2nd Workshop on Sentiment Analysis where AI meets Psychology. 2012.
[Lei+ EMNLP16] Lei et al. "Rationalizing Neural Predictions." Proc. of EMNLP 2016.
[Das+ EMNLP16] Das et al. "Human Attention in Visual Question Answering: Do Humans and Deep Networks look at the same regions?." Proc. of EMNLP 2016.
[Yang+ NAACL16] Yang et al. "Hierarchical attention networks for document classification." Proc. of NAACL-HLT 2016.
[Choi+ NIPS16] Choi et al. "Retain: An interpretable predictive model for healthcare using reverse time attention mechanism." Proc. of NIPS 2016.
[Sha+ ACM-BCB17] Sha et al. "Interpretable predictions of clinical outcomes with an attention-based recurrent neural network." Proc. of ACM-BCB 2017.
[Liu+ ACL17] Liu et al. "Exploiting argument information to improve event detection via supervised attention mechanisms." Proc. of ACL 2017.
[Chen+ CVPRW17] Chen et al. "Attending to distinctive moments: Weakly-supervised attention models for action localization in video." Proc. CVPR Workshops 2017.
[Bao+ EMNLP18] Bao et al. "Deriving Machine Attention from Human Rationales." Proc. of EMNLP 2018.
[Lipton Queue18] Lipton, Zachary C. "The mythos of model interpretability." Queue ACM 2018.
[Jain+ NAACL19] Jain et al. "Attention is not Explanation." Proc. of NAACL-HLT 2019.
[Serrano+ ACL19] Serrano et al. "Is Attention Interpretable?." Proc. of ACL 2019.
[Wiegreffe+ EMNLP19] Wiegreffe et al. "Attention is not not Explanation." Proc. of EMNLP 2019.
[DeYoung+ ACL20] DeYoung et al. "ERASER: A Benchmark to Evaluate Rationalized NLP Models." Proc. of ACL 2020.

*1:論文を読んで理解した範囲であり、個人的な経験や主観が含まれている可能性があります。

イベント: ACL 2020 オンラインLT会

登壇概要

Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

自己紹介

本論文を選択した理由

人間とニューラルネットワークは予測の際に同様の単語に焦点を当てているのかが気になった

クラウドソーシングによる人手attentionがアノテーションされたデータセットに興味を持った

本研究の貢献

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案

人手のattentionと深層学習モデルのsoft/hard attentionに対して比較・分析

関連研究

Attention機構の解釈性

Attentionの評価

Preliminaries on Attention Maps

本研究で登場する Attention Map について

Human Attention Map (HAM)

Machine Attention Map (MAM)

同一テキスト内の複数の異なるHAM

Consensus Attention Map (CAM)

Super Attention Map (SAM)

Human Attention Mapの収集と分析

概要: クラウドソーシングで収集

予備実験1: アノテーションの質の調査

予備実験2: アノテーション方法の検討

read-firstデザイン

free-styleデザイン

Human Attention Mapの収集と分析

Human Attention Mapの収集と分析

Human Attention Mapの収集と分析

予備実験1: アノテーションの質の調査

Human Attention Mapの収集と分析

予備実験2: アノテーション方法の検討

Human Attention Mapの収集と分析

最終的なhuman attention mapの収集方法と結果

Yelp Human Attention Dataset (YELP-HAT)

Attention Map Similarity Framework

人間と機械のattention mapに対する類似度評価

単語選択の重複度

語彙の分布

感情値の文脈依存性

人間と機械のattention mapに対する類似度評価

単語選択の重複度 (Behavioral similarity)

語彙の分布 (Lexical similarity: LS)

人間と機械のattention mapに対する類似度評価

感情値の文脈依存性 (Cross-sentiment selection rate: CSSR)

Is Machine Attention Similar to Human Attention?

機械の注意は人間の注意と似ているのか？

Machine attention mapの学習

文あたりの単語数で分けたときのモデルの精度

人間の注意と機械の注意の類似性分析

機械の注意は人間の注意と似ているのか？

Machine attention mapの学習

機械の注意は人間の注意と似ているのか？

注意の可視化結果

機械の注意は人間の注意と似ているのか？

文あたりの単語数で分けたときのモデルの精度

単語選択の重複度の側面での分析

機械の注意は人間の注意と似ているのか？

語彙分布の側面での分析

機械の注意は人間の注意と似ているのか？

感情値の文脈依存性の側面での分析

結論と今後の展望

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案し、分析

深層学習モデルのattentionは人間と似た説明を与える

参考文献