May the Neural Networks be with you

ニューラルネットワークと共にあらんことを

【外部発表】Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

こんにちは。@shunk031です。論文読み会で登壇したので、そのときの発表資料と概要、及び頂いた質問への回答*1を載せます。

イベント: ACL 2020 オンラインLT会

nlpaper-challenge.connpass.com

登壇概要

タイトル:Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

  • Cansu Sen1, Thomas Hartvigsen2, Biao Yin2, Xiangnan Kong1,2, and Elke Rundensteiner1,2
    • 1Computer Science Department , Worcester Polytechnic Institute
    • 2Data Science Program, Worcester Polytechnic Institute

自己紹介

  • 北田 俊輔 法政大学大学院 理工学研究科 D1 彌冨研 所属 @shunk031 shunk031
    • 深層学習を元にした基礎・応用研究
      • 自然言語処理: 文字形状に着目・解釈性のあるモデル
        • YANS2019にて 奨励賞 を受賞
        • ACL2020 SRWにて共著の論文採択
      • 医用画像処理: 悪性黒色腫自動診断システムの構築
        • IPSJ2019にて 学生奨励賞 受賞
      • 計算機広告: 広告クリエイティブの評価・作成支援
        • KDD2019(データマイニングの最難関国際会議)にて論文採択
          • Attention可視化によるクリエイティブ作成支援

本論文を選択した理由

人間とニューラルネットワークは予測の際に同様の単語に焦点を当てているのかが気になった

  • Attention機構はモデルの予測の解釈にも使われてきた
  • しかし解釈性を疑問視する論文が複数登場してきた

    クラウドソーシングによる人手attentionがアノテーションされたデータセットに興味を持った

  • 学習済みattentionに対する解釈性を直接評価可能
  • 人手attentionを教師にして、よりhuman-friendlyな新しいモデル・学習法を模索可能

本研究の貢献

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

  • Amazon Mechanical Turkを利用
  • データ収集方法を詳細に検討し、15,000件を収集・公開

人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案

  • 様々な指標で評価: 単語の重複度、語彙の分布 etc.

人手のattentionと深層学習モデルのsoft/hard attentionに対して比較・分析

  • 深層学習モデルのattentionは人間と似た説明を与える
  • 文の長さが長くなるほど異なった説明を与える

関連研究

Attention機構の解釈性

  • さまざまな先行研究で言及 [Choi+ NIPS16; Sha+ ACM-BCB17; Yang+ NAACL16]
  • その解釈性を疑問視する研究の出現 [Jain+ NAACL19; Serrano+ ACL19]
  • 一方attentionは入力単語とモデルの予測の間に意味のある関係性があることを指摘 [Wiegreffe+ EMNLP19]

Attentionの評価

  • VQAタスクにおけるattentionの評価 [Das+ EMNLP16]
  • ERASER [DeYong+ ACL20]

Preliminaries on Attention Maps

本研究で登場する Attention Map について

Human Attention Map (HAM)

  • 人間による2値のattention map (binary AM)

Machine Attention Map (MAM)

同一テキスト内の複数の異なるHAM

Consensus Attention Map (CAM)

  • bit-wise AND なHAMを計算したもの

Super Attention Map (SAM)

  • bit-wise OR なHAMを計算したもの

Human Attention Mapの収集と分析

概要: クラウドソーシングで収集

予備実験1: アノテーションの質の調査

  • 人間さまのアノテーションの質を調査
  • チートやズルをするアノテータがいないかどうか等

予備実験2: アノテーション方法の検討

read-firstデザイン

  • 文を先に読んでもらってから感情値を予測してもらうその後どの単語が重要かのアノテーションしてもらう

free-styleデザイン

Human Attention Mapの収集と分析

  • データ収集で用意したインターフェース

Human Attention Mapの収集と分析

  • レビュー文と感情値選択に寄与しそうな単語のアノテーション
  • レビューに対する感情値の選択
  • データ収集で用意したインターフェース

Human Attention Mapの収集と分析

予備実験1: アノテーションの質の調査

  • 2つの小規模データセット
    • Yelp datasetからランダムに50文取得
    • A: 50単語/文、B: 100単語/文
  • アノテーション時の数値感
    • 1文あたりのアノテーション時間
      • 44秒(50単語/文)、70秒(100単語/文)
    • 1文あたりの選択された単語数
      • 9単語(50単語/文)、13単語(100単語/文)
  • 1文あたりの単語数が増えるにつれてアノテーション時間・選択された単語数それぞれ増加する
    • アノテータがランダムにアノテーションしているわけではなさそうという結論

Human Attention Mapの収集と分析

予備実験2: アノテーション方法の検討

  • 2つのアノテーション方法
    • read-first と free-style
  • アノテーション時の数値感
    • アノテータ間のagreement
      • 73% (read-first)、69% (free-style)
    • ground truthとどれくらい似ているか
      • 3.30 (read-first)、3.10 (free-style)
    • cross-sentimentでノイジーなデータの量(選択した感情値と異なる場合のスコア)
      • 0.5 (read-first)、1.0 (free-style)

Human Attention Mapの収集と分析

最終的なhuman attention mapの収集方法と結果

Yelp Human Attention Dataset (YELP-HAT)

Attention Map Similarity Framework

人間と機械のattention mapに対する類似度評価

単語選択の重複度

  • 人間AMと機械AMの2つが似ている➜ 同様の箇所にattentionが当たっているかを評価

    語彙の分布

  • 感情の語彙的指標は品詞 (e.g., 名詞・動詞・形容詞) と一般的に関連していることが知られている [Marimuthu+’12]➜ 人間AMと機械AMの語彙的な類似度を評価

    感情値の文脈依存性

  • ネガティブなレビューの中にあるポジティブな言葉を考慮したり、逆もしかりな場合がある➜ 人間AMと機械AMに対して文脈を考慮して評価

人間と機械のattention mapに対する類似度評価

単語選択の重複度 (Behavioral similarity)

  • HAMとMAMで選択された単語重複度合いを計算

    語彙の分布 (Lexical similarity: LS)

  • HAMとMAMそれぞれで選択された品詞の分布間の相関ランダムなattention R を元に0-1となるように計算

人間と機械のattention mapに対する類似度評価

感情値の文脈依存性 (Cross-sentiment selection rate: CSSR)

  • 肯定的な文 (Y=1) のHAMが付与されている単語と否定的な文 (Y=0) のHAMが付与されている単語に着目
    • get_words() は条件に合う単語を取得
    • 肯定的な文に現れる否定的なな単語、否定的な文に現れる肯定的な単語の比率を比較

Is Machine Attention Similar to Human Attention?

機械の注意は人間の注意と似ているのか?

Machine attention mapの学習

  • Amazon Mechanical Turkを利用
  • データ収集方法を詳細に検討し、15,000件を収集・公開

文あたりの単語数で分けたときのモデルの精度

  • 単語数別に3つのデータセットを構築
    • Yelp-50、Yelp-100、Yelp-200

人間の注意と機械の注意の類似性分析

  • 単語選択の重複度
  • 語彙分布
  • 感情値の文脈依存性

機械の注意は人間の注意と似ているのか?

Machine attention mapの学習

  • 使用データセット
    • Yelp dataset
    • 0〜5の評価値が付与されている
  • データセットの前処理と分割
    • negative: 1〜2、positive: 4〜5 の2値分類設定
    • 2値が不均衡にならないように tng:val:tst = 8:1:1
  • モデル
    • RNN (soft attention)
      • uni-, bi-directional LSTM with additive attention
    • Rationale mechanisms (hard attention) [Lei+ EMNLP16; Bao+ EMNLP18]
      • ハイパーパラメータとして予測根拠となりうる箇所の個数やその特徴表現の近さを指定可能

機械の注意は人間の注意と似ているのか?

注意の可視化結果

  • 上から HAM, HAM, RNN, bi-RNN, Ratinales の順

機械の注意は人間の注意と似ているのか?

文あたりの単語数で分けたときのモデルの精度

  • 文長が長くなるほどhuman・machineともに精度減少
    • 文が長いと一回で文意を読み解くのは難しく、より集中して読み解かなくてはならないため
  • 双方向RNNはパフォーマンス的にhumanと近い傾向
    • テキスト読解の双方向性が人間に近い

単語選択の重複度の側面での分析

  • HAMと比べてConsensus Attention Mapの類似度が他と比べて高い
    • 複数のアノテータが重要だと判断した単語
    • 機械の注意でもそれらが重要だと予測
  • CAMと比べてSuper Attention Mapの類似度は低い
    • 人間の主観的な単語選択は常に機械から高い注目を受けているわけではない
  • もちろん人間同士の類似度は機械との類似度よりも高い
    • 完全に類似はしていない➜ それぞれ主観的な単語選択
    • 文が長くなればなるほど類似度は低くなっていく

機械の注意は人間の注意と似ているのか?

語彙分布の側面での分析

  • Bi-RNN Attentionが人間に近い注意を学習
    • 文が長くなればなるほどスコアは減少
  • どの語彙カテゴリが多く選ばれているか
    • 人間・機械ともに○: 形容詞、比較級形容詞、名詞
      • 人間 ○: 副詞
      • 機械 ○: 固有名詞(複数形)
    • 人間・機械ともに✘: 人称代名詞

機械の注意は人間の注意と似ているのか?

感情値の文脈依存性の側面での分析

  • 人間アノテータ
    • レビューが肯定的であれば、ほぼ肯定的な単語を選択
    • 否定的なレビューについては否定的な単語よりも肯定的な単語のほうが多く選択
  • RNN attention
    • 否定的な文脈での肯定的な単語の選択率が2倍以上
    • 肯定的なレビュー文において

結論と今後の展望

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

  • Amazon Mechanical Turkを利用し、15,000件を収集

    人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案し、分析

  • 様々な指標で評価: 単語の重複度、語彙の分布 etc.

    深層学習モデルのattentionは人間と似た説明を与える

  • Attentionを教師ありで学習するモデルの検討
    • CV分野や一部のNLPタスクでは教師として注目領域を学習するモデルが提案 [Chen+ CVPRW17, Liu+ ACL17] ➜ NLP分野でも実現可能か?
  • 再現実験を準備中
    • shunk031/human-attention-map-for-text-classification 2分

33 Appendix

アノテータ間で選択された単語数の違い 34 多数アノテーションしているアノテータもいれば、ごく少数の単語にのみアノテーションしているアノテータもいる

参考文献

  • [Marimuthu+ ‘12] Marimuthu et al. "How Human Analyse Lexical Indicators of Sentiments-A Cognitive Analysis Using Reaction-Time." Proc. of the 2nd Workshop on Sentiment Analysis where AI meets Psychology. 2012.
  • [Lei+ EMNLP16] Lei et al. "Rationalizing Neural Predictions." Proc. of EMNLP 2016.
  • [Das+ EMNLP16] Das et al. "Human Attention in Visual Question Answering: Do Humans and Deep Networks look at the same regions?." Proc. of EMNLP 2016.
  • [Yang+ NAACL16] Yang et al. "Hierarchical attention networks for document classification." Proc. of NAACL-HLT 2016.
  • [Choi+ NIPS16] Choi et al. "Retain: An interpretable predictive model for healthcare using reverse time attention mechanism." Proc. of NIPS 2016.
  • [Sha+ ACM-BCB17] Sha et al. "Interpretable predictions of clinical outcomes with an attention-based recurrent neural network." Proc. of ACM-BCB 2017.
  • [Liu+ ACL17] Liu et al. "Exploiting argument information to improve event detection via supervised attention mechanisms." Proc. of ACL 2017.
  • [Chen+ CVPRW17] Chen et al. "Attending to distinctive moments: Weakly-supervised attention models for action localization in video." Proc. CVPR Workshops 2017.
  • [Bao+ EMNLP18] Bao et al. "Deriving Machine Attention from Human Rationales." Proc. of EMNLP 2018.
  • [Lipton Queue18] Lipton, Zachary C. "The mythos of model interpretability." Queue ACM 2018.
  • [Jain+ NAACL19] Jain et al. "Attention is not Explanation." Proc. of NAACL-HLT 2019.
  • [Serrano+ ACL19] Serrano et al. "Is Attention Interpretable?." Proc. of ACL 2019.
  • [Wiegreffe+ EMNLP19] Wiegreffe et al. "Attention is not not Explanation." Proc. of EMNLP 2019.
  • [DeYoung+ ACL20] DeYoung et al. "ERASER: A Benchmark to Evaluate Rationalized NLP Models." Proc. of ACL 2020.

*1:論文を読んで理解した範囲であり、個人的な経験や主観が含まれている可能性があります。