2021-01-02

2020年の振り返り

こんにちは。@shunk031 です。クリスマスにニューラルネットワーク "力" をお願いしましたが、何も貰えませんでした。サンタさんは Hinton 先生ではないみたいです。毎年同じお願いをしている気がします。 2020 年をツイートベースで振り返ります。

f:id:shunk031:20210102232416j:plain — 京都タワーに登ったときの写真。地上から見たら高いように見えたのですが、登ってみたらそんなに高くなかった。Pixel 5 の夜景モードすごい。

各月の活動
論文投稿
- ACL2020
- ACL2020 SRW
- AACL2020
- AACL2020 SRW
- NAACL2021
- KDD2020
- WSDM2021
- IEEE/ACM TASLP
番外編
- 買ってよかったもの
- 読んだ本・読んでいる本
まとめ

各月の活動

1 月

年始は自分の今のマインドを簡単に確認すべく 16personalities をやりました。 16personalities は常に同じ結果を示すとは限らず、その時の自分のマインドが反映されると考えています。

久しぶりにやってみた
===

「オウム型」(ENTP)タイプでした

👉決断力がある
👉割と新しいもの好き
👉少し論理的#性格診断 #16TEST #相性診断 #恋愛診断 https://t.co/9s6LakLw5Z
— しゅんけー (@shunk031) 2020年1月2日

小倉唯ライブ

今後オフラインで密の空間でオタクができなくなるとはこのときには思いもしませんでした。

好きな人に会いに来ました（アイドルの話です） (@ 舞浜駅 - @jreast_official in 浦安市, 千葉県) https://t.co/9RFFNMfuMs
— しゅんけー (@shunk031) 2020年1月3日

言語処理学会全国大会論文投稿

自分が筆頭の論文と後輩 x 2, 留学生ｘ2 の共著として計 4 本論文を投稿しました。

去年の今頃並行して異分野論文3本書いてて目が回るほど忙しかったけど，今年は同分野ではあるが論文4本ほぼフルコミットで書いてて狂いを感じてる．でも後輩たち @tetsu316naga とか @blue83044303 とかと論文書けるのはとても楽しい．今年はひとりじゃないんだ感で孤独からくる辛さはほぼない
— しゅんけー (@shunk031) 2020年1月13日

狂ったように論文添削したり追記したりしてました。全部いい論文になったと思います
— しゅんけー (@shunk031) 2020年1月16日

日刊工業新聞取材

初めて新聞の取材を受けました。

初めて新聞社さまにインタビューしていただきました🎉 / データマイニング研究、グノシーがインターン院生主力に | 日刊工業新聞電子版 https://t.co/WLOTQtEbGs
— しゅんけー (@shunk031) 2020年1月29日

こっちだと全文見れるみたいです / グノシー、「研究開発担当の主力に大学院生」で得た効果｜ニュースイッチ by 日刊工業新聞社 https://t.co/G8pQnX4Lah
— しゅんけー (@shunk031) 2020年1月30日

2 月

幼馴染な新婚夫妻と旅行

なぜ...？でも楽しかったです。

最高の論文執筆体制が整った（なお幼なじみ夫婦と知らないお姉さんと来ている制約条件有…） (@ 伊香保温泉 in 渋川市, 群馬県) https://t.co/ZHRZiYGsT3
— しゅんけー (@shunk031) 2020年2月8日

KDD2020 論文投稿

関さんと狂ったように論文修正して、そのあと後輩と狂ったように論文修正して、もう使える脳みそが残ってない……がんばれ〜〜🧠🤯
— しゅんけー (@shunk031) 2020年2月11日

submitted（そして次の研究がはじまるのです！）
— しゅんけー (@shunk031) 2020年2月14日

フルリモート勤務機運

リモートワークにします（流石にデンシャもう乗らないほうが良さそうだと判断）（できるのかな…？）
— しゅんけー (@shunk031) 2020年2月14日

法政大博士課程入学試験・合格通知

学内の推薦を使って秋季の博士課程入学試験を受けました *1。推薦のおかげで面接のみで、いつもお世話になっていた先生方の前で 15 分ほど自分のこれまでやってきた研究と今後について話しました。先生方に非常にウケがよく（すくなくとも自分はそう感じ、とてもやりやすかったです）、ほどなくして合格をいただきました。

修論執筆・発表

submitted（そして次の研究がはじまるのです！） pic.twitter.com/BVjpr1zCaz
— しゅんけー (@shunk031) 2020年2月19日

修論を書きながら2年間思い出してるんですが、かな〜り楽しく冒険できた2年間だったなという気持ちが溢れているし、あんまり自覚はできてはないけどソフトスキルが向上してそうな気持ちもある
— しゅんけー (@shunk031) 2020年2月18日

次のデカいステップはやっぱり海外進出かなぁという感じがしているので、チャンスを掴めるように地道に努力していきたい
— しゅんけー (@shunk031) 2020年2月18日

修論審査会、対戦よろしくお願いします😎 (@ 法政大学西館 (小金井キャンパス) in 小金井市, 東京都) https://t.co/9MLkXVWehN
— しゅんけー (@shunk031) 2020年2月20日

3 月

来週日本語英語あわせて3本論文投稿予定です（まじか）
— しゅんけー (@shunk031) 2020年2月24日

人工知能学会全国大会論文投稿

JSAI、2件主著で申し込みました。初めてのJSAIオフ会楽しみです！
— しゅんけー (@shunk031) 2020年1月22日

ACL2020 SRW 論文投稿

2本投稿完了．お疲れさまでした．
— しゅんけー (@shunk031) 2020年3月7日

情報処理学会 2020 参加

#IPSJ #IPJS2020 にて，弊研から学生奨励賞3件を受賞しました :tada:
- 塩田ら, 茎部に発生する植物病害自動診断装置の提案
- 菅野ら, 2段階の画像生成を活用した偏りのあるデータセットに対する実践的なdata augmentation
- 生田ら, Patch-wise 学習を用いた少量データによる脳 MRI 画像の超解像
— しゅんけー (@shunk031) 2020年3月7日

言語処理学会 2020 発表

言語処理学会全国大会 #NLP2020 3/19 10:35からのセッションで「P5-29: 解釈可能な敵対的摂動を用いた頑健な注意機構の学習」の発表を行います。Attentionってnot explanationなんでしょ？という煽りに全力で殴りに行く研究です😤よろしくお願いします！
— しゅんけー (@shunk031) 2020年2月10日

また #NLP2020 では共著で以下3件の発表があります:

- P1-14: Script-aware embedding を用いた文字表現の獲得 w/ @tetsu316naga

- P2-33: Image-based Character Embedding for Arabic Document Classification

- P5-29: 文字単位の解釈可能な潜在表現のdata augmentation w/ @blue83044303
— しゅんけー (@shunk031) 2020年2月10日

#NLP2020 初日に誕生日の @tetsu316naga の発表は17日11:00からのP1-14で行います．日本語の文字体系を考慮した学習が可能なScript-aware embeddingを新たに提案し，文書分類タスクにて評価しています．学習させた埋め込みが面白い性質を持っているので，ぜひポスターで議論できればと思います． https://t.co/gLylkwCIds
— しゅんけー (@shunk031) 2020年3月15日

3/17 13:15からP2-33で「アラビア語に対する文字画像単位テキスト分類」の共著発表があります．日本語と同様に文字形状に特徴があり，なおかつとても複雑な言語であるアラビア語に対して，新たに2つのアラビア語データセットを構築して提案モデルの評価を行いました． #NLP2020
— しゅんけー (@shunk031) 2020年3月17日

3/18 10:35からP3-35で「青木ら，文字単位の解釈可能な文字表現data augmentation」の共著発表があります．一般的に難しいNLPにおけるデータ拡張について，解釈がしやすい手法を提案しました．評価実験では従来手法と同等以上の汎化性能向上を確認しました．ぜひポスター見に来てください #NLP2020
— しゅんけー (@shunk031) 2020年3月18日

嬉しいコメントいただけていた！励みになりますmm pic.twitter.com/iwrgZi5mDI
— しゅんけー (@shunk031) 2020年3月30日

学位授与式

やった〜〜〜Master of Science in Engineeringをゲットした✌️✌️ pic.twitter.com/YBCbZBgPRC
— しゅんけー (@shunk031) 2020年3月24日

春休みの進捗まとめてたら国内外合わせて9本程度論文を書いてたっぽくて、そりゃ長期休みと言っても無限に忙しかったのはそういうことだなという感じ。。。もっと書けるように頑張ろう
— しゅんけー (@shunk031) 2020年5月6日

4 月

個人ページ新調

年度も変わったので思い切って個人ページをhugo-academicで新しくしてみました。GoベースのhugoはRubyベースのjekyllと比べてページのビルドが早いし開発も活発なので良い。GitHub ActionsでGitHub pagesにデプロイするようにしました / Shunsuke Kitada https://t.co/AxUMYBvier #MadeWithAcademic
— しゅんけー (@shunk031) 2020年4月1日

大学に入れなくなる

大学入れなくなったし実質無職でいいか？
— しゅんけー (@shunk031) 2020年4月7日

ACL2020 結果通知

不採択通知をいただきました。

We are sorry to inform you that the following submission was not selected by the program committee to appear at ACL 2020: XXXX. The selection process was very competitive. Our selection process was not based solely on the reviewers' assessment and scores, but also on discussions among reviewers, careful assessment by Area Chairs and Senior Area Chairs, and our goal to assemble a diverse, interesting and high-quality program. We have enclosed the reviewer comments for your perusal.

「お前の論文読みづらい〜！！ゴミ！ｗ」みたいなレビューコメントを頂いてしょんぼりしたことが2^8回ぐらいあるので、（これは確かに読みづらく、レビュワーにも申し訳なかった。）これだけしっかりコメントいただけるのはstudent research workshopという名前だけあるなという感じ。
— しゅんけー (@shunk031) 2020年4月18日

ACL2020 SRW 結果通知

採択通知と不採択通知をいただきました。

採択通知:

On behalf of the ACL SRW 2020 Program Committee, we are delighted to inform you that the following submission has been accepted to appear at the workshop: XXXX. The Program Committee worked very hard to thoroughly review all the submitted papers. The reviews are attached below. Please follow the suggestions included in the reviews when you revise your paper.

不採択通知:

I am sorry to inform you that the following submission was not selected by the program committee to appear at ACL SRW 2020: XXXX. The selection process was very competitive. Due to time and space limitations, we could only choose a small number of the submitted papers to appear on the program.

このときに採択された論文とその概要です。

Happy to announce that our paper "AraDIC: Arabic Document Classification Using Image-Based Character Embeddings and Class-Balanced Loss" has been accepted at #acl2020nlp Student Research Workshop (SRW) 😉. Special congrats to my co-author🎉
— しゅんけー (@shunk031) 2020年4月18日

#acl2020nlp にて共著の論文が採択されました。アラビア語の特徴的な文字形状に着目した文書分類手法の提案と、新たに2つの大規模アラビア語データセットを提案、評価に利用しました。まだまだ発展途上のアラビア語に対する自然言語処理に貢献できるような研究となっております。
— しゅんけー (@shunk031) 2020年4月18日

arxiv.org

博士課程スタート

学生生活初めてのオンライン講義がスタートしました。

顔が一番好きな人に「え〜〜まだ働かないの〜？」と詰められましたが残念ながらまだ働かないです（嘘ではなく…）
— しゅんけー (@shunk031) 2020年3月31日

5 月

研究室運動会 (canceled)

例年は 5 月に研究室所属メンバー全員で小金井公園にて運動会をやっていましたが、今年はキャンセルになりました。 http://iyatomi-lab.info/% E3%83%9F% E3%83%8B% E3%83%96% E3%83% AD% E3%82% B0/2019-5-22-0iyatomi-lab.info

小倉唯ライブ (canceled)

TACHIKAWA STAGE GARDEN 2 講演、ロームシアター京都メインホール 2 講演、愛知一宮市民会館 1 講演に参戦予定でしたがキャンセルになりました。

KDD2020 結果通知

不採択通知をいただきました。

We are sorry to inform you that your submission, XXXX: YYYY, has not been accepted to KDD 2020.

このお言葉にいつも助けられる https://t.co/xvpdwU8CI1
— しゅんけー (@shunk031) 2020年5月16日

6 月

人工知能学会 2020 オンライン

おっ、 #JSAI2020 の広告xAIセッションの全アブストが公開されてる！6/9 (火) の午後2コマですね:
(1) https://t.co/RCrwgPV2Dn
(2) https://t.co/qSiKD89JmA
— しゅんけー (@shunk031) 2020年4月11日

僕は @YoshifumiSeki さんと一緒にやっている「生存時間分析を用いた広告クリエイティブの停止予測」という発表を行います！ #JSAI2020 > 2020年度人工知能学会全国大会（第34回）/生存時間分析を用いた広告クリエイティブの停止予測 https://t.co/9CSjiOCFNt
— しゅんけー (@shunk031) 2020年4月11日

同じセッションにて広告クリエイティブと機械学習について講演させていただく予定です！ #JSAI2020 > 2020年度人工知能学会全国大会（第34回）/(OS招待講演)広告クリエイティブと機械学習技術における現状と展望 https://t.co/BOtCjp8k6J
— しゅんけー (@shunk031) 2020年4月11日

小倉唯ライブ (canceled)

東京ガーデンシアター 1 講演に参戦予定でしたがキャンセルになりました。

AACL2020 論文投稿

論文を投稿しました。

submitted😤
— しゅんけー (@shunk031) 2020年6月27日

7 月

ACL2020 参加

オンラインでした。

ACL2020 in シアトルに行きたすぎたし、発表した過ぎちゃったという気持ちが溢れています
— しゅんけー (@shunk031) 2020年7月5日

ACL2020 SRW 発表

オンラインでポスター発表をしました。

Come see our #acl2020nlp SRW paper: https://t.co/PbjEyrve1r

Daif and I will host Q&A session at Jul 7, 5AM-6AM (GMT) (2PM-3PM (JST)) and Jul 8 1PM-2PM (10PM-11PM (JST)), come and say hi or ask any question 😉
— しゅんけー (@shunk031) 2020年7月7日

東京女子医大訪問

指導教員の先生の指導教員の先生が python まわりで困っているとのことでお手伝いに行きました。結局優秀な後輩ががんばってくれたので僕は特に何もせずに見ているのみでした。

今日のお仕事先です w/ @tetsu316naga & 先生 (@ 東京女子医科大学東医療センター in 荒川区, 東京都) https://t.co/TetOvCFXs0
— しゅんけー (@shunk031) 2020年7月30日

オンライン研究室紹介撮影

「高校生にたのしい研究室のこと1分ぐらいで話してください」って言われてスライド用意したけど、めちゃめちゃ楽しそうでやばい。何かしら動画的なものが公開されたときに是非見ていただきたい…
— しゅんけー (@shunk031) 2020年7月25日

そして公開された研究室紹介はこちら。

法政大学理系3学部合同 WEBオープンキャンパス | https://t.co/jx5o392o5d

学科代表として弊研究室の紹介動画が公開されています。これを見てくれた高校生が楽しそうと思ってくれれば嬉しいです:

彌冨仁先生「私たちの生活に貢献する新しい人工知能技術」 - YouTube https://t.co/NgRkfHAhFY
— しゅんけー (@shunk031) 2020年8月22日

8 月

論文投稿→勉強会発表→金沢旅行を 10 時間以内にやる過密スケジュールがありました。

計画性皆無人間になってしまったので論文投稿して10分後に論文読み会で登壇します（大丈夫か？？？）
— しゅんけー (@shunk031) 2020年8月16日

WSDM2021 論文投稿

投稿しました。

ACL2020 オンライン LT 会

発表しました。

shunk031.hatenablog.com

GoTo 金沢

1 週間ほど金沢にいました。

情報処理学会（金沢開催予定だったやつ） (@ 北陸新幹線金沢駅 in 金沢市, 石川県) https://t.co/tskFqvLIT2
— しゅんけー (@shunk031) 2020年8月18日

論文投稿後の能登牛は美味い！！！！ (@ 牛や榮太郎片町本店 in 金沢市, 石川県) https://t.co/2SdOwRG9Md pic.twitter.com/rw09f7pXZP
— しゅんけー (@shunk031) 2020年8月18日

最高の人生 (@ 小舞子海水浴場 in 白山市, 石川県) https://t.co/nGUlOTylHR pic.twitter.com/KC2Q2EHFUw
— しゅんけー (@shunk031) 2020年8月19日

のどぐろに金粉が乗った米、美味い！！！！ (@ SHIROKU) https://t.co/3F1UjgBFkd pic.twitter.com/uDw4GosapQ
— しゅんけー (@shunk031) 2020年8月19日

9 月

ACL2020 オンライン読み会

発表しました。

shunk031.hatenablog.com

AACL2020 結果通知

不採択通知をいただきました。

We are sorry to inform you that the following submission was not selected by the program committee of AACL-IJCNLP 2020: XXXX. The selection process was very competitive. Our selection process was not based solely on the reviewers' assessment and scores, but also on discussions among reviewers, careful assessment by Area Chairs, and our goal to assemble a diverse, interesting and high-quality program.

AACL2020 SRW 論文投稿

AACL2020 の論文を元に SRW へ投稿をしました。

IEEE/ACM TASLP 論文投稿

投稿しました。

10 月

GTC Japan TA

本日 NVIDIA Deep Learning Institute #NVDLI にてリモートワークショップのTAを務めさせていただきます。宜しくお願いします！ https://t.co/pbAGJB6Q7O
— しゅんけー (@shunk031) 2020年10月6日

NVIDIAの中の人に「一生学生でいてくれ〜〜〜」と言われて、わかる〜〜〜😂😂😂ってなった1日だった
— しゅんけー (@shunk031) 2020年10月7日

WSDM2021 結果通知

不採択通知をいただきました。

Thank you for submitting your work to WSDM 2021. We regret to inform you that your submission below was not selected for the WSDM 2021 conference: XXXX. This year we received 603 submissions. We were able to accept only 112 of these, representing an acceptance rate of 18.6%. Due to the limited number of available slots in the conference schedule, we unfortunately had to make very difficult decisions and decline many submissions. The program committee worked very hard to thoroughly review all the submitted papers, and to provide suggestions to improve your paper. All papers were reviewed by at least three program committee members, and by at least one senior PC member to oversee discussion amongst the reviewers and provide an overall recommendation for the paper. Please find the reviews for your paper below. We hope these will be useful to revise your work for future submissions.

AACL2020 SRW 結果通知

採択通知でした。

On behalf of the AACL-IJCNLP 2020 SRW Program Committee, we are delighted to inform you that the following submission has been accepted to appear at the workshop: XXXX. The Program Committee worked very hard to thoroughly review all the submitted papers. Please repay their efforts by following their suggestions when you revise your paper.

このときに採択された論文とその概要です。

Happy to announce that our paper "Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation" has been accepted at #aacl2020 Student Research Workshop (SRW). Special congrats to my co-author, @blue83044303 🎉 pic.twitter.com/bYV04CiNwp
— しゅんけー (@shunk031) 2020年10月24日

arxiv.org

11 月

GoTo 京都

1 週間ほど京都にいました。

論文締め切り1週間前なので京都に行きます。対戦よろしくお願いします
— しゅんけー (@shunk031) 2020年11月16日

後輩が京都に来ているのでノリで来た（フッ軽博士） (@ 京都駅 in 京都市, 京都府 w/ @hitoshu_iyatomy) https://t.co/ztVenOCJot
— しゅんけー (@shunk031) 2020年11月16日

https://twitter.com/shunk031/status/1328555581293162497

NAACL2020 論文投稿

投稿しました。

12 月

AACL2020 SRW 発表

オンラインでポスター発表をしました。

Our #AACL2020 SRW paper "Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation" will be presented in the SRW session on Monday, 7th Dec 10:00-11:00 (CST), 11:00-12:00 (JST). Please come by live session to have a chat 😺 https://t.co/Utq0Gqm9zV
— しゅんけー (@shunk031) 2020年12月4日

IEEE/ACM TASLP 結果通知

不採択通知をいただきました。

I am writing to you concerning the above referenced manuscript, which you submitted to the IEEE Transactions on Audio, Speech and Language Processing. Based on the enclosed set of reviews, I regret to inform you that your manuscript has been rejected for publication.

論文投稿

今年は初めて後輩の共著に入って論文を投稿しました。また主戦場をトップカンファレンスに移しつつ、初めてジャーナルへ論文を投稿しました。目標として「まず打席に立つ」を意識しつつ、論文の書き方を模索した一年でした。

ACL2020

レビュー結果
- [R] 1, 2.5, 2
お気持ち
- 初めての NLP 系トップカンファレンスへの投稿でした
- かなり厳しいコメントがいくつかあってでぴえんでした

ACL2020 SRW

レビュー結果
- [A] 4, 4, 3.5
- [R] 2.5, 3.5
お気持ち
- 初めての SRW 投稿。それぞれ後輩と留学生とともに書きました
- 非常に丁寧なコメントとメンタリングで驚きました
- R の方もコメントはポジティブだったため、AACL の short へ投稿することに

AACL2020

レビュー結果
- [R] 2, 3, 2.5
お気持ち
- AACL は第 1 回目の開催であるし、アジアの言語に特化した話だったのでイケるのではと思っていました
- 結果を受け止め AACL2020 SRW へ投稿することに

AACL2020 SRW

レビュー結果
- [A] 3.8, 2.6, 4.2
お気持ち
- 全体的にポジティブなコメントが多く報われました

NAACL2021

Under review

KDD2020

レビュー結果
- [R] R, R, WA
お気持ち
- 核心をつくレビューを頂き、それをベースに修正して WSDM 2021 へ投稿することに

WSDM2021

レビュー結果
- [R] WA, WA, R, A
お気持ち
- 全体的にかなり良い評価だったが 1 人のレビュアに引っ張られた形に
- 諦めがつかないのでアップデートを準備し、 KDD 2021 へ投稿することに

IEEE/ACM TASLP

レビュー結果
- [R] R, MR, R
お気持ち
- Transformer/BERT と比べてほしいらしいです

番外編

買ってよかったもの

読んだ本・読んでいる本

必携インターネット広告プロが押さえておきたい新常識

Science Research Writing For Non-Native Speakers Of English

作者:Glasman-Deal, Hilary
発売日: 2009/12/18
メディア: ペーパーバック

ネイティブが教える日本人研究者のための論文の書き方・アクセプト術 (KS科学一般書)

作者:エイドリアン・ウォールワーク
発売日: 2019/12/21
メディア: 単行本

効果検証入門〜正しい比較のための因果推論／計量経済学の基礎

作者:安井翔太
発売日: 2019/12/27
メディア: Kindle版

つくりながら学ぶ! Pythonによる因果分析 ~因果推論・因果探索の実践入門 (Compass Data Science)

作者:小川雄太郎
発売日: 2020/06/30
メディア: 単行本（ソフトカバー）

まとめ

たくさん失敗する中で、成功したときの嬉しさがあった
楽しく研究をやって、論文をたくさん書いていく
いろいろな方たちと関わって、様々なことを学んでいく

*1:春季にはまだ博士課程進学を迷っていました。ここらへんの心境の変化はどこかでなにか書ければよいかなと。

2020-12-22

最新の深層学習技術による古典くずし字認識の現状と今後の展望

Deep Learning 機械学習 NLP Computer Vision

こんにちは。@shunk031 です。普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。

この記事は法政大応情 Advent Calendar 2020 21 日目の記事です。

f:id:shunk031:20201221153136p:plain — From http://codh.rois.ac.jp/

今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。

くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが Kaggle にて「くずし字認識コンペティション」を主催したのは記憶に新しいです。

www.kaggle.com

私はこれまで日本語や中国語の特徴的な文字の形状を考慮した自然言語処理の研究に取り組んできました *2 *3。これらの研究は深層学習モデルである convolutional neural network (CNN)*4 を元にしており、文字を文字画像に変換し文字形状を保持するような訓練を行い予測に利用するモデルを構築しています。こうした枠組みはくずし字認識においても一定の効果が見込めそうな一方で、現状のくずし字認識タスクで高いパフォーマンスを題しているモデルや予測の枠組みを把握しておりませんでした。

本記事では、まず日本古典籍における「くずし字認識」タスクの現状について述べます次に Kaggle で開催されたコンペティションの上位解法をまとめます。これらのまとめから得られた現状について、既存の手法でどの程度認識可能であるか、また研究としてどのような点で貢献可能かの展望について個人的に考えた考察を含め議論・検討します。

くずし字認識と深層学習
- KuroNet
Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture
- 全体的な傾向
  - Data augmentation
  - Model architecture
上位解法
上位解法を踏まえた研究貢献可能点について
- コンピュータビジョンからの視点
  - 文字検出モデルの予測精度向上
    - 高解像度な画像から小さな物体を検出可能な軽量かつ高精度な detection モデル
  - 文字認識モデルの予測精度向上
    - GAN によるくずし字画像 data augmentation
- 自然言語処理からの視点
  - 言語モデルの予測精度向上
    - リソースの多い言語から少ない言語への転移学習
おわりに

くずし字認識と深層学習

深層学習モデルで くずし字 を認識しようと考えたときに一番初めに必要になってくるものはモデルの学習用のデータです。 ROIS-DS 人文学オープンデータ共同利用センター (CODH)*5 では、デジタル化された古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データ である 日本古典籍くずし字データセット を提供しています *6。

codh.rois.ac.jp

日本古典籍データセットで公開されるデジタル化された古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データとして提供します。

2019 年 11 月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍 44 点の画像データ 6,151 コマから切り取った、くずし字 4,328 文字種の字形データ 1,086,326 文字です。

CODH では日本古典籍くずし字データセットを用いた AI くずし字 OCR サービスとして「KuroNet くずし字認識サービス」を公開しています *7。この AI くずし字 OCR サービスのコア技術として、KuroNet と呼ばれる深層学習をもとにしたくずし字認識の枠組みが使われているようです。次にこの技術の概要について述べます。

KuroNet

KuroNet *8 *9 は、U-Net ベースのアーキテクチャである FusionNet *10 を使用して、文字のレイアウトが標準化されていない古典籍のページ画像からくずし字群を認識する深層学習モデルです。このモデルは前処理を必要とせず、ページ内から得られる広い範囲のコンテキスト情報や大規模な語彙の獲得、標準化されていない文字レイアウトを適切に処理することが可能となっています。

前述のとおりモデルは U-Net をベースにしており、入力としてシンプルに 640x640 にリサイズした古典籍画像を使用しています。特筆すべき点は mixup を画像のみミックスさせてラベルはミックスさせないで使用している点です。この設定は文献 *11 と同様の設定のように見えます。

これらの取り組みの初期段階は NeurIPS'18 のワークショップに採択されており *12、非常に注目されておりました。特に、KuroNet を始めとしたくずし字認識に取り組まれている CODH の @tkasasagi 氏と Google の @hardmaru 氏らがチームを組んで研究しているのは珍しく、個人的にも注目しておりました。

こうしたくずし字認識の取り組みを加速させるために、@tkasasagi 氏ら中心となり Kaggle でくずし字認識のコンペティションを開催しておりました。くずし字認識タスクの現状の upper bound や使われている手法を調査する上で、上位解法の概要を知ることは重要です。次のセクションにて、このコンペティションの上位解法について調査した結果を述べます。

Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture

Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture は機械学習コンペティションをホストする Kaggle にて 2019 年 7 月から 10 月に開催されたコンペティションです。 ROIS-DS 人文学オープンデータ共同利用センターをはじめ、大学共同利用機関法人人間文化研究機構国文学研究資料館や大学共同利用機関法人情報・システム研究機構国立情報学研究所がホストしています。

本コンペティションの目的と評価の概要は以下のとおりです:

目的
- 文書画像からくずし字の位置を検出し、くずし字の種類を分類する
評価
- 与えられたデータからくずし字が書かれた文書画像 (3881 枚)、くずし字の位置を示すバウンディングボックス、字の種類を認識し、その精度を競う

このセクションでは、まず上位解法で採用されているモデルや手法について全体的な傾向を示し、その後それぞれの手法の概要について述べます。

全体的な傾向

入力画像の文字の位置 (中心座標) および文字種を認識するタスクであるため、コンピュータビジョン分野で発展してきた深層学習モデルが中心に使用されていました。コンペティションにおいて、文字の検出 (detection) と文字の認識 (classification) を同時に行う手法もあれば、個別に行う手法がありました。以下は使用されている手法群です。

Data augmentation

Method
- random erasing *13
- mixup *14
- RICAP *15
Framework
- albumentations *16

Model architecture

Detection
- Model
  - Faster R-CNN *17
  - Cascade R-CNN *18
  - Hybrid Task Cascade (HTC)*19
  - CenterNet *20
  - Feature Pyramid Network (FPN)*21
  - Bounding box voting *22
  - U-Net *23
  - HourglassNet *24
  - RoI align *25
- Framework
  - detectron2 *26
  - mmdetection *27
  - torchvision *28
Classification
- Model
  - HRNet *29
  - EfficientNet *30
  - SEResNeXt *31
  - Convolutional Reccurent Neural Network (CRNN)*32
  - MobileNet V3 *33
Others
- Loss function
  - Focal loss *34
  - Class-balanced loss *35
  - SoftTriplet Loss *36
- Text Detection
  - Connectionist Text Proposal Network (CTPN)*37
  - Connectionist Temporal Classification (CTC)*38
- Language Modeling
  - KenLM *39
- Training techniques
  - Pseudo labeling *40
  - Pre-trained model in weakly supervised learning (WSL) on 940 million public images with 1.5K hash tags *41
  - Bag of Tricks for Image Classification *42
- Domain Adaption
  - Domain adversarial neural network (DANN)*43

上位解法

このセクションではくずし字認識コンペティションにおける上位解法の概要について述べます。解法に関しては、discussion にて公開されている情報や公開されているコードから読み取れる情報をもとに、以下の形式でまとめます:

Preprocess
- 前処理について記述
Data split
- 学習用データをどのように分割してモデルの学習に利用したかについて記述
Model architecture
- モデルのアーキテクチャについて記述
  - モデルが single-stage /multi-stage かどうか
  - data augmentation の有無やその種類
  - pseudo labeling の有無や適用方法
  - モデルアンサンブルの有無や適用方法
Discorded ideas / Future work
- 試してみたがあまり効果がなかった方法
- 今後試してみたい方法

なお、学習用データの分割には book title を元にした分割が多く見受けられました。これは古典籍 (ここでいう book) ごとに特徴があり、そうした特徴が評価時に leak しないようにするためです。

1st place solution

Topic: 1st place solution - Kuzushiji Recognition | Kaggle
Code: tascj/kaggle-kuzushiji-recognition

Preprocess

学習時
- 1024x1024 になるようにクロップ & リサイズ
推論時
- 最大のサイズを設定して、そのサイズで推論

Data split

book-level group split
- validation: book_title = umgy, train: others
  - tascj/kaggle-kuzushiji-recognition/blob/master/prepare_det.py#L54-L56

Model architecture

Single-stage なアーキテクチャを使用。

Cascade R-CNN
- HRNet w32 (LB: 0.935)
  - train scales: 512 ~ 768
  - test scales: 0.5, 0.625, 0.75
- HRNet w48 (LB: 0.946)
  - train scales: 768 ~ 1280
  - test scales: 0.75, 0.875, 1.0, 1.125, 1.25
Ensemble
- HRNet w32 & HRNet w48 (LB: 0.950)

Discorded ideas / Future work

2nd place solution

Preprocess

Detection phase
- 学習時
  - ページの高さが 1500px になるようにリサイズし、512x384 にクロップして学習
- 推論時
  - ページ全体を使って推論
Classification phase
- 2500 ~ 3000px の高さの画像から 512x768 をクロップして学習

Data split

book title-based group 5 fold cross validation

Model architecture

Multi-stage (First level model -> Second level model) なアーキテクチャを使用。

First level model
- Detection
  - モデル周りの実装
    - lopuhin/kaggle-kuzushiji-2019/kuzushiji/segment
  - データセット周りの実装
    - lopuhin/kaggle-kuzushiji-2019/kuzushiji/segment/dataset.py
- Classification
  - 学習周りの実装
    - lopuhin/kaggle-kuzushiji-2019/kuzushiji/classify/main.py
  - モデル周りの実装
    - lopuhin/kaggle-kuzushiji-2019/kuzushiji/classify/models.py
  - データセット周りの実装
    - lopuhin/kaggle-kuzushiji-2019/kuzushiji/classify/dataset.py
Second level model
- 使った特徴周りの実装
  - lopuhin/kaggle-kuzushiji-2019/kuzushiji/classify/level2_features.py
- モデルまわりの実装
  - lopuhin/kaggle-kuzushiji-2019/kuzushiji/classify/level2.py

First level model

Detection phase
- Faster R-CNN
  - 文字のクラスは当てない
  - ground truth と重なりが少ない bbox に対して、追加のクラス seg_fp (segmentation false positive) を定義してセグメンテーションモデルの誤りを修正するようにした
  - ResNet152 をバックボーンに使用
  - torchvision を使用
  - data augmentation
    - albumentations を使用
      - scale, minor color augmentations (hue/saturation/value)
Classification phase
- resnetxt101_32x8d_wsl (LB: 0.935 (0.925 - 0.930))
  - ImageNet よりも大きいデータセットを用いて弱教師あり学習で学習
  - ハイパーパラメータに非常に敏感であった
    - gradient accumulation では敏感さを吸収しきれなかった
  - GTX 2080Ti で resnext101_32x8d_wsl を訓練するために
    - 最初の畳込み層・layer1 全体を freeze
      - mmdetection でも使われている
        
        open-mmlab/mmdetection/models/resnet.py#L460
    - mixed precision training
  - SGD より Adam が良かった
  - data augmentation
    - albumentations を使用
      - hue/saturation/value, random brightness, contrast, gamma
  - Test time augmentation (TTA)
    - 4 different scales
- resnext101_32x8d_wsl & resnet152 (LB: 0.941)
Pseudo labeling
- Pseudo lalbeling まわりの実装
  - lopuhin/kaggle-kuzushiji-2019/kuzushiji/classify/pseudolabel.py

Second level model

First-level model において cross valiadtion によってデータセット全てに対して得られた予測を用いて、 LightGBM と XGBoost をアンサンブルした second level model を訓練している。

このモデルは 5k クラス分類問題であった cdiscount 画像分類チャレンジおける Pavel Ostyakov の解法にインスパイアされている
- cdiscount-image-classification-challenge/discussion/45733
Classification phase で得られた 4 種類のモデルそれぞれにおいて、予測クラスと上位 3 つの予測スコアを特徴量として入力。他の bbox との最大オーバーラップ量も追加している
- これらの予測クラスと seg_fp クラスを使って、これら予測の候補になりそうな候補クラスが予測すべき真のクラスかどうかを 2 値分類問題として学習した

Discorded ideas / Future work

言語モデル
- 単純な bi-LSTM　言語モデルを学習させたが、画像ベースのモデルよりも loss が比較的大きくほとんど効果がないように思えた
  - lopuhin/kaggle-kuzushiji-2019/tree/master/kuzushiji/lm を参照
kNN /metric learning
- 予測モデルの最終層の特徴量を使って、推論時に訓練から最も類似している例を探すことが可能
- 推論時間が非常に長くなる一方で、若干の向上しか得られないために使用しなかった
  - lopuhin/kaggle-kuzushiji2019/blob/master/kuzushiji/classify/knn.py を参照

3rd place solution

Preprocess

学習時・推論時
- https://www.kaggle.com/hanmingliu/denoising-ben-s-preprocessing-better-clarity
  - Denoising: cv2.fastNlMeansDenoisingColored による denoising
  - Ben's preprocessing: subtract local mean color
    - btgraham/kaggle_Diabetic_Retinopathy_competition/competitionreport.pdf 参照

Data Split

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- train detection model with all train images
- validate with public leaderboard
Classification
- book-level split
  - validation: book_title=200015779 train: others
  - validation: book_title=200003076 train: others

Model architecture

Detection
- Faster R-CNN
  - ResNet101 backbone
  - Multi-scale train & test
  - Data augmentation
    - brightness, contrast, saturation, hue, random grayscale
    - no vertical and horizontal flip
Classification
- ensemble 5 classification models (hard voting)
  - EfficientNet-B4
    - Grayscale, 190x190, mixup + random erasing, valid book 200015779
  - ResNet152
    - Grayscale, 112x112, mixup + random erasing, valid book 200015779
  - SE-ResNeXt101
    - RGB, 112x112, mixup + random erasing, valid book 200015779
  - SE-ResNeXt101
    - RGB, 112x112, ICAP + random erasing, valid book 200003076
  - ResNet152
    - RGB, 112x112, ICAP + random erasing, valid book 200003076
- Pseudo labeling
Post processing
- FalsePositive Predictor
  - validation の予測結果から誤検知するかどうかを予測する分類器を学習
    - kuzushiji-recognition/discussion/scripts/optuna_search_for_false_positive_detector.py を参照

Future work

SoftTriple loss の利用
- 変体仮名の分類には SoftTriple loss が特に有効な雰囲気
分類に文字のアスペクト比を使用
- 今回文字認識する際に書く文字のアスペクト比を考慮せずに一定のサイズへリサイズしている
- アスペクト比は文字認識に有効な特徴の１つであると考えられるために分類モデルへ特徴として入力すべきだった

4th place solution

Preprocess

Detection phase
- 各文字に対して instance segmentation mask を作成
  - frlemarchand/keras-maskrcnn-kuzushiji-recognition
- ページ全体に対して、すべての文字の semantic segmentation mask を作成
  - open-mmlab/mmdetection/configs/htc

Data split

book-level group split
- linhuifj/kaggle-kuzushiji-recognition/line_rec/dataset.py#L97-L105

Model architecture

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- Hybrid Task Cascade (HTC) で文字を認識
- Connectuinust Text Proposal Network (CTPN) で各行のテキストを認識
Classification
- Convolutional recurrent neural network (CRNN) で文字認識
  - CNN + LSTM + connectionist temporal classification (CTC)
  - CTC モデルのアラインメント精度を上げるためにマルチタスク学習として attention 機構を導入 *44
- Kenlm による 6-gram 言語モデルを学習し、CTC の出力をデコードするために beam search を使用
  - 各文字の位置は元の画像の各行の座標と CTC の出力を考慮して計算
- Data augmentation
  - CLAHE, solarize, random brightness, random contrast, random scale random distort
Ensemble
- 使用しなかった

Discorded ideas / Future work

Classification
- CRNN における RNN (今回は LSTM を使用) の有無と multi-task learning について
  - LSTM 層の有無
    - LSTM 層のないモデルでは位置予測は正確だが文字認識精度は低くなる
    - LSTM 層を加えると位置予測が不正確になる
  - Multi-task learning の有効性
    - 出力を制御するような attention を導入することで CRNN の位置予測精度が向上
- Attention ベースのネットワークは CTC より精度が悪かった
  - 精度は ResNet > VGG だった
  - ResNeXt や SENet は性能が上がらなかった。
  - CRNN における LSTM が 2 層以上になると精度が悪化した

5th place solution

Preprocess

Data split

10 fold cross validation

Model architecture

Single-stage (Detection & Classification) なアーキテクチャを使用。

CenterNet
- Hourglass network を ResNet50 or ResNet101 + FPN decoder へ変更
- loss を penalty-reduced pixel-wise logistic regression with focal loss by binary cross-entropy に変更
- head を無くした
- CenterNet は gaussian カーネルを用いるが、よりシンプルなカーネルを使用した
- ResNet101 に bag of tricks を適用した
  - timm の gluon_resnet101_v1d を使用すると bag of tricks 適用モデルが使用できる
- data augmentation
  - shift scale rotate, random crop, clahe, gauss noise, gaussian blur, random brightness contrast, rgb shift, hue saturation
Ensemble
- scale TTA

Discorded ideas / Future work

multi-stage なアプローチ
- detection してから classification
解像度を上げる
- 1536x1536 で試していたけどこれ以上解像度を上げても予測結果に変化はなかった
文字の種類を増やす
- Kaggle Humpback Whale Identification で使われていた、反転させてクラス数を増やす方法
  - 予測精度の向上にはあまり貢献しなかった

7th place solution

Preprocess

Data split

Book title-based group split

Model architecture

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- CenterNet
  - in: 512x512, out: 128x128
  - data augmentation
    - cropping, brightness, contrast, horizontal flip
Classification
- ResNet based
  - in: 64x64
  - data augmentation
    - cropping, erasing, brightness, contrast
  - pseudo labeling

Discorded ideas / Future work

LSTM による言語モデル
- 改善幅は小さかった
DANN のようなドメイン適応モデル
- pseudo labeling をしたほうが良かった

8th place solution

Preprocess

Data split

Book title-based 4 fold cross validation

Model architecture

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- CenterNet
  - ResNet18 + U-Net
  - full training set to train single model
  - TTA: scale adjustment -> multi-scale + bbox voting
Classification
- MovileNet V3
- standard softmax cross entropy loss
- training: use full training set to train single model
- fine-tuning: use full training set + pseudo label
- No TTA

Discarded ideas / Future work

Clasification
- 少ないクラスをオーバーサンプリングする方法
- Class-balanced loss
- 言語モデリング
Detection / Classification
- CODH で公開されている (ラベルがついていない) 文字画像を使った半教師あり学習

9th place solution

Preprocess

アスペクト比において外れ値のものは除外
- mv-lab/kuzushiji-recognition/tom_functions/train_valid_split.py#L33-L40

Data split

book title-based group 5 fold cross validation

Model architecture

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- CenterNet
  - HourglasNet
  - ResNet34
Classification
- ResNet18
- Data Augmentation
  - fastai standard transforms
    - horizontal/vertical flip, rotate, zoom, lighting, wrap, affine
  - mixup
- pseudo labeling

Discorded ideas / Future work

Focal loss
- hoge

13th place solution

Preprocess

学習時・推論時
- 512x512 に画像をリサイズ
- 画像をグレースケールへ変換

Data split

Model architecture

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- Faster R-CNN
  - ResNet34 を backbone に使用
    - 一般的な ResNet34 の畳み込みフィルタの 2 倍のフィルタ数を設定した
  - 入力はカラー画像
  - Region Proposal Network (RPN) と後段の classifier は層を共有しないようにした
    - RPN と classifier を互いに独立して変更可能のため、実験が容易になった
  - アンカーのサイズを任意に選ぶのではなく、ground truth の bounding box の高さと幅に対して k-means でクラスタリングを実行してアンカーサイズを選択した
    - クラスタの中心をアンカーボックスのサイズとして利用した
  - 一般的な ROI pooling の代わりに ROI Align pooling を使用した
    - ROI Align pooling の方がわずかに良い結果が得られた
Classification
- ResNet34
  - 入力はグレースケース画像
  - 一般的な ResNet34 の畳み込みフィルタの 3 倍のフィルタを設定した
    - ResNet50 や ResNet101 等で実験をしたが、今回の設定のように wide で shallow なほうがよかった
  - Residual block の部分にも dropout を導入した

Discard ideas / Future work

くずし字認識結果を補正する後処理に言語モデルを活用しようとして失敗
- 人間が読む順番に近い形に文字順を整理する
  - クラスタリング等を使い、ソート
    - DBSCAN を使って文字を列ごとにグループ化
    - グループ化した文字の列に対して水平方向の平均座標でソート
    - 各列内の文字を垂直方向に座標でソート
  - 以上の操作はほとんどの画像データで正常に機能した
- 補正処理を行う correction network を訓練する
  - ground truth を使って認識誤りを含む結果を擬似的に多数生成した
    - これらの認識誤り結果は現実的なものだった
    - Fater R-CNN ベースのモデルが cross validation 下でどのように動作するかの統計情報を元にランダムに誤りを追加
- くずし字認識誤りを補正する言語モデルを訓練する
  - 英語から日本語へ翻訳する以下のようなエンコーダデコーダモデルを作成して試した
    - 試したモデルの例
      - Attention 機構付き LSTM ベースの seq2seq モデル
      - Transformer ベースのモデル
    - これらは正しく修正できた箇所よりも多くの補正誤りを引き起こしてしまった
    - 最終的には単純な bi-directional GRU を使用した
  - ベースラインモデルに近いあまり強力ではないモデルではうまく動作したが、ベストなモデルではあまり効果的に動作しなかった
  - 外部のテキストコーパスを使用することで、言語モデル自体の性能を向上させる必要がありそう

15th place solution

Topic: 15th place solution - Kuzushiji Recognition | Kaggle
Code: statsu1990/kuzushiji-recognition

Preprocess

学習時・推論時
- 画像をグレースケールへ変換
- ガウシアンフィルタを適用
- ガンマ補正を適用
- Ben's processing を適用
  - https://www.kaggle.com/hanmingliu/denoising-ben-s-preprocessing-better-clarity
    - Denoising: cv2.fastNlMeansDenoisingColored による denoising
    - Ben's preprocessing: subtract local mean color
    - btgraham/kaggle_Diabetic_Retinopathy_competition/competitionreport.pdf 参照

Data split

train:test = 80:20

Model architecture

Multi-stage (Detection -> Classification) なアーキテクチャを使用。

Detection
- 以下の 2 段階の CenterNet によってくずし字に対する bonding box を予測
  - 各段階は 2 つの CenterNet を用いて構成
    - CenterNet (1)
      - 入力として、512x512 へリサイズした画像を使用し、予測 bbox (1) を得る
      - bbox (1) を使って画像内の最も遠い予測における外側の bbox を取り除く
    - CenterNet (2)
      - 入力として、512x512 へリサイズした画像を使用
      - bbox (1) と bbox (2) をアンサンブル
  - 最終的な detection model の構成は以下:
    - CenterNet1: 1 段階目における 2 つの CenterNet のアンサンブル
      - data augmentation:
        
        horizontal movement, brightness adjustment
    - CenterNet2: 2 段階目における 2 つの CenterNet のアンサンブル
      - data augmentation:
        
        random erasing, horizontal movement, brightness adjustment
Classification
- 以下の 3 段階による文字種を認識
  - Detection phase によって得られた検出結果をもとにクロップシ、64x64 に画像をリサイズ
  - ResNet ベースのモデルを 3 つアンサンブル・9 種の horizontal movement による TTA により、分類結果を得る
    - ResNet base (1)
      - log (bounding vox aspect ratio) の特徴を全結合層の部分に入れたモデル
    - ResNet base (2)
      - ResNet base (1) とは学習データを変えたモデル
    - ResNet base (3)
      - ResNet base (1) と同様だが pseudo labeling によるデータで訓練
  - 以上のモデルを 3 つ作りアンサンブル
    - 3 x ((ResNet base (1) + (2) + (3)) x 9)
  - data augmentation
    - horizontal movement, rotation, zoom, random erasing

Discorded ideas / Future work

上位解法を踏まえた研究貢献可能点について

上記の上位解法を踏まえたうえで、くずし字認識に対して研究の面でどのように貢献できるかを考えます。高精度なくずし字認識を実現するためには主に以下の 2 つの視点から既存の課題を解決することが重要です:

コンピュータビジョン
自然言語処理

以下では、これら 2 つの分野における視点に対して私の考える研究貢献可能点について検討しました

なお、くずし字認識というタスクにおいて実行速度はあまり重要ではないと考えました。タスクの性質上リアルタイム性はあまり必要なく、少し時間がかかっても精度の高い予測を提供することが重要であると考えたためです。以下は全体的なモデルのパラメータ数が増えてしまうアイディアも存在しますが、上記のシチュエーションを踏まえて検討しております。

コンピュータビジョンからの視点

デジタル化された古典籍の画像から高精度に「文字検出」し、検出した文字を「文字認識」する必要があることがわかりました。これらはコンペティションの解法では multi-stage なアーキテクチャとして現れております。以下では、「文字検出」と「文字認識」の観点から、研究として取り組んでみたいことを列挙します。

文字検出モデルの予測精度向上

文字検出において重要なのは、画像中に複数存在するくずし字に対する detection モデルの精度向上です。今回私は より高解像度の画像から比較的小さな物体を検出可能な軽量且つ高精度 detection モデル について検討しました。

高解像度な画像から小さな物体を検出可能な軽量かつ高精度な detection モデル

一般的に、高解像度な画像を入力として与えると予測精度はより向上することが知られており、上位解法においても比較的解像度の高い 1000x1000 以上の画像を入力とするモデルが効果的であることが示唆されております。

また、detection モデルを cascade する構造を持つ Cascade R-CNN が有効であることもわかりました。しかしながらなぜこうした構造が有効であるかは明らかにはなっていません。

以下は 高解像度な画像を扱える軽量かつ高精度な detection モデル と 画像中に小さい物体が複数存在する検出タスクに強い detection モデル の 2 つの側面からくずし字認識に適する検出モデルを検討します。

高解像度な画像を扱える軽量かつ高精度な detection モデルの検討
- 高性能なモデルは一般的にパラメータ数が多く、訓練には大規模な GPU マシンが必要
  - より高解像度な画像を入力とすると、さらに規模の大きい計算機環境が必要になる
- 近年では以下のような軽量かつ高精度なモデルが提案されている
  - EfficientDet *45
  - Scaled-YOLOv4 *46
  - Yolov5 *47
画像中に小さい物体が複数存在する検出タスクに強い detection モデルの検討
- Cascade R-CNN が有効であったのは、おそらく cascade した detector が段階的に IOU の閾値を厳しくしていき予測 bounding box のリファインを効率的に行えているから
  - こうした学習は画像中に存在する比較的小さめな物体 (今回はくずし字) が多数現れるくずし字認識タスクと相性が良いのだろうと予想できる
  - Cascade R-CNN の構造を参考に、小さい物体を効率的に認識可能な detection モデルを検討することが有効であると示唆される

文字認識モデルの予測精度向上

文字認識において重要なのは、detection によって得られたくずし字領域に対する classification モデルの精度向上です。今回私は generative adversarial network (GAN)*48 を用いた 文字画像生成による data augmentation について検討しました。

GAN によるくずし字画像 data augmentation

上位解法からもわかるように、classification モデルを学習させる上で効果的な data augmentation が重要です。今回私は擬似的にくずし字を生成して data augmentation として活用する方法を検討しました。昨今では GAN によるさまざまな data augmentation 手法が提案されており、特にフォントを生成するような事例は特に成功しているように見えます。こうした枠組みを応用することでくずし字認識の精度向上が期待できると考えています。

一般的な GAN による data augmentation
- Data Augmentation GAN (DAGAN )*49
- Prototype Matching Networks (PMN) *50
- CNN-AUG-GAN *51
フォントの自動生成
- Font を生成する GAN *52
- 少ない訓練サンプルからフォントを生成 *53

自然言語処理からの視点

今回対象である古典籍は、時代は違えど同じ人間が自然言語として記述したものです。したがって、背後には言語モデルが存在し、その言語モデルに従って言語が現れていると捉えることができます。こうした言語モデルを適切に捉えることにより、意図しない文字の列が現れないように補正しようというアイディアは非常に面白いものだと個人的に感じます。しかしながら、コンペティションではあまり効果がないという報告が少なからずありました。

今回私は、言語モデルを用いて文字認識結果の補正を行うというアイディアに対して、自然言語処理的な観点で補正を行う 言語モデルの予測精度をどのように向上させるか を検討しました。昨今使われている現代語による言語モデルの学習事例は星の数ほどありますが、古語に対して言語モデルを学習する事例はほとんどありません。こうした古語に対するモデルの学習は古語に適した学習法の検討が必要だと考えております。

言語モデルの予測精度向上

学習データの多い、いわゆるリソースの多い現代語で成果を上げているモデルをそのままリソースの少ない古語に適用するのは困難であることは容易に想像できます。今回私は リソースの多い言語からリソースの少ない言語への転移学習 について検討しました。

リソースの多い言語から少ない言語への転移学習

深層学習は一般的に大規模な学習データが必要であるため、今回の古語のようなリソースが限られている対象をそのまま学習させるのは非常に難しいです。上位解法には翻訳モデルを使って日本語から英語に変換する補正ネットワークを検討している事例がありましたが、このような難しさによって効果的な補正ネットワークを学習できていないと個人的には考えております。

近年は大規模なラベルなしデータによって訓練された事前学習モデルとして BERT *54 等が存在しており、広く使われてくるようになりました。 BERT はタスクに特化した fine-tuning により少量の学習データから精度の高い予測が可能になる一方で、今回のような同じ言語（日本語）における現代語（事前学習）と古語（fine-tuning）という設定はこれまでに存在しないように思えます。個人的な興味ですが、こうした現代語から古語の特徴をどれだけ捉えられることが可能かは、くずし字認識に限らず非常に面白い研究トピックの一つになりうると考えています。

おわりに

本記事では、日本古典籍における「くずし字認識」タスクの現状について述べました。また Kaggle で開催されたコンペティションの上位解法をまとめました。これらのまとめから得られた現状について、既存の手法でどの程度認識可能であるか、また研究としてどのような点で貢献可能かの展望について個人的に考えた考察を含め検討しました。

コンピュータビジョンと自然言語処理の観点から、私が検討した研究貢献点はおそらくこれまで学術的に検討されていない点が多く含まれていると感じます。これらは一見すぐに本質的な改善が見られないかもしれませんが、腰を据えてじっくりと取り組むと面白い洞察が得られるのではないかと確信しております。

*1:実は今期の博士課程のコースワークの課題でもあります。

*2:[1810.03595] End-to-End Text Classification via Image-based Embedding using Character-level Networks https://arxiv.org/abs/1810.03595

*3:[2006.11586] AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss https://arxiv.org/abs/2006.11586

*4:Gradient-based learning applied to document recognition - IEEE Journals & Magazine https://ieeexplore.ieee.org/abstract/document/726791

*5:ROIS-DS 人文学オープンデータ共同利用センター / ROIS-DS Center for Open Data in the Humanities (CODH) http://codh.rois.ac.jp/

*6:日本古典籍くずし字データセット | ROIS-DS 人文学オープンデータ共同利用センター http://codh.rois.ac.jp/char-shape/

*7:KuroNet くずし字認識サービス（AI OCR） | ROIS-DS 人文学オープンデータ共同利用センター (CODH) http://codh.rois.ac.jp/kuronet/

*8:[1910.09433] KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning https://arxiv.org/abs/1910.09433

*9:KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition | SpringerLink https://link.springer.com/article/10.1007/s42979-020-00186-z

*10:[1612.05360] FusionNet: A deep fully residual convolutional neural network for image segmentation in connectomics https://arxiv.org/abs/1612.05360

*11:[1801.02929] Data Augmentation by Pairing Samples for Images Classification https://arxiv.org/abs/1801.02929

*12:[1812.01718] Deep Learning for Classical Japanese Literature https://arxiv.org/abs/1812.01718

*13:[1708.04896] Random Erasing Data Augmentation https://arxiv.org/abs/1708.04896

*14:[1710.09412] mixup: Beyond Empirical Risk Minimization https://arxiv.org/abs/1710.09412

*15:[1811.09030] Data Augmentation using Random Image Cropping and Patching for Deep CNNs https://arxiv.org/abs/1811.09030

*16:Information | Free Full-Text | Albumentations: Fast and Flexible Image Augmentations https://www.mdpi.com/2078-2489/11/2/125

*17:[1506.01497] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks https://arxiv.org/abs/1506.01497

*18:[1906.09756] Cascade R-CNN: High Quality Object Detection and Instance Segmentation https://arxiv.org/abs/1906.09756

*19:[1901.07518] Hybrid Task Cascade for Instance Segmentation https://arxiv.org/abs/1901.07518

*20:[1904.07850] Objects as Points https://arxiv.org/abs/1904.07850

*21:[1612.03144] Feature Pyramid Networks for Object Detection https://arxiv.org/abs/1612.03144

*22:[1505.01749] Object detection via a multi-region & semantic segmentation-aware CNN model https://arxiv.org/abs/1505.01749

*23:[1505.04597] U-Net: Convolutional Networks for Biomedical Image Segmentation https://arxiv.org/abs/1505.04597

*24:[1603.06937] Stacked Hourglass Networks for Human Pose Estimation https://arxiv.org/abs/1603.06937

*25:[1703.06870] Mask R-CNN https://arxiv.org/abs/1703.06870

*26:facebookresearch/detectron2: Detectron2 is FAIR's next-generation platform for object detection and segmentation. https://github.com/facebookresearch/detectron2

*27:open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark https://github.com/open-mmlab/mmdetection

*28:pytorch/vision: Datasets, Transforms and Models specific to Computer Vision https://github.com/pytorch/vision

*29:[1908.07919] Deep High-Resolution Representation Learning for Visual Recognition https://arxiv.org/abs/1908.07919

*30:[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks https://arxiv.org/abs/1905.11946

*31:[1709.01507] Squeeze-and-Excitation Networks https://arxiv.org/abs/1709.01507

*32:[1507.05717] An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition https://arxiv.org/abs/1507.05717

*33:[1905.02244] Searching for MobileNetV3 https://arxiv.org/abs/1905.02244

*34:[1708.02002] Focal Loss for Dense Object Detection https://arxiv.org/abs/1708.02002

*35:[1901.05555] Class-Balanced Loss Based on Effective Number of Samples https://arxiv.org/abs/1901.05555

*36:[1909.05235] SoftTriple Loss: Deep Metric Learning Without Triplet Sampling https://arxiv.org/abs/1909.05235

*37:[1609.03605] Detecting Text in Natural Image with Connectionist Text Proposal Network https://arxiv.org/abs/1609.03605

*38:Connectionist temporal classification | Proceedings of the 23rd international conference on Machine learning https://dl.acm.org/doi/abs/10.1145/1143844.1143891

*39:KenLM: Faster and Smaller Language Model Queries - ACL Anthology https://www.aclweb.org/anthology/W11-2123/

*40:Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks - Workshop on challenges in representation learning, ICML. Vol. 3. No. 2. 2013.

*41:[1805.00932] Exploring the Limits of Weakly Supervised Pretraining https://arxiv.org/abs/1805.00932

*42:[1812.01187] Bag of Tricks for Image Classification with Convolutional Neural Networks https://arxiv.org/abs/1812.01187

*43:[1505.07818] Domain-Adversarial Training of Neural Networks https://arxiv.org/abs/1505.07818

*44:[1609.06773] Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning https://arxiv.org/abs/1609.06773

*45:[1911.09070] EfficientDet: Scalable and Efficient Object Detection https://arxiv.org/abs/1911.09070

*46:[2011.08036] Scaled-YOLOv4: Scaling Cross Stage Partial Network https://arxiv.org/abs/2011.08036

*47:ultralytics/yolov5: v3.1 - Bug Fixes and Performance Improvements | Zenodo https://zenodo.org/record/4154370#.X92gpen7R24

*48:[1406.2661] Generative Adversarial Networks https://arxiv.org/abs/1406.2661

*49:[1711.04340] Data Augmentation Generative Adversarial Networks https://arxiv.org/abs/1711.04340

*50:[1801.05401] Low-Shot Learning from Imaginary Data https://arxiv.org/abs/1801.05401

*51:[1803.01229] GAN-based Synthetic Medical Image Augmentation for increased CNN Performance in Liver Lesion Classification https://arxiv.org/abs/1803.01229

*52:[1910.12604] FontGAN: A Unified Generative Framework for Chinese Character Stylization and De-stylization https://arxiv.org/abs/1910.12604

*53:[1701.05703] Automatic Generation of Typographic Font from a Small Font Subset https://arxiv.org/abs/1701.05703

*54:[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805

2020-12-10

コンピュータサイエンスのトップカンファレンスが示す再現性チェックリスト

こんにちは。@shunk031 です。機械学習モデルの実験をする際の乱数シード値は 19950815 を使っています。

この記事は法政大応情 Advent Calendar 2020 10 日目の記事です。

f:id:shunk031:20201210200333j:plain — 再現性を担保する上で多様な視点のチェック項目が必要です*1

研究において、再現性は非常に重要なポイントの 1 つです。特に最近は機械学習や深層学習の研究における再現性について議論されております。こうした研究において再現性を高める上で、当たり前ですが次の 2 点が重要です:

再現可能な 実装 の公開
再現可能な 論文 の公開

再現可能な実装の公開 については、先日私が寄稿した pyenv と poetry による再現可能な実験環境構築が助けになるかもしれません。

data.gunosy.io

本記事では 再現可能な論文の公開 に焦点を当てます。近年のコンピュータサイエンス分野におけるトップカンファレンスでは、著者に対して 再現性チェックリスト が示され、投稿時にこれらのチェックリストに従った論文であるかの確認があります。こうした再現性チェックリストについての論文が arXiv に公開されていたりと、今後も注目される点だと感じております *2。本記事の目的は、複数のトップカンファレンスから各カンファレンスがどのような点の再現性を求めているかを把握し、今後の執筆に役立てることです。

トップカンファレンスが要求する再現性

今回、独断と偏見で、人工知能分野 , 機械学習分野 , コンピュータビジョン分野 , 自然言語処理分野 から再現性に言及している以下のカンファレンスを対象としました:

人工知能分野
- AAAI
- NeurIPS
機械学習分野
- ICML
コンピュータビジョン分野
- CVPR
自然言語処理分野
- ACL
- NAACL
- EMNLP

各カンファレンスが示す再現性チェックリスト

以下は各カンファレンスが示す再現性の確認項目やチェックリストです:

上記で示されている再現性確認項目の中で、 Joelle Pineau 氏の The Machine Learning Reproducibility Checklist (2020/12/10 現在 v2.0) が複数登場しています。次にこの再現性チェックリストについて詳しく見ます。

The Machine Learning Reproducibility Checklist

2020/12/10 現在の The Machine Learning Reproducibility Checklist の中身をざっくり日本語訳すると以下のとおりです。なおこのチェックリストに加えて NAACL'21 で追加された項目がありました:

✔ 論文中に提示されているモデルやアルゴリズムについて
- 数式を用いたモデルやアルゴリズムの明確な説明
- そのほか用いた定理等の明確な説明
- アルゴリズムの複雑性 e.g., 時間複雑度、空間複雑度 etc
✔ 理論的な主張について
- 主張の明確さ
- 完全な証明
✔ 論文中で使われたすべてのデータセットについて
- 統計量 e.g., サンプル数
- データセットを train /validation/test 分割する際の詳細
- データの前処理や予め取り除いたデータについての詳細
- 使ったデータセットやシミュレーション環境をダウンロード可能なリンクの提示
- 新たなデータを収集した場合、どのように収集したか e.g., アノテーターへの指示やクオリティを制御する方法 etc を明示
- 言語の種類 e.g., 英語や日本語 etc. (NAACL'21)
✔ 提案法の評価の際に実装したコードについて
- 依存コード・アプリケーションの明示
- 学習用コード
- 評価用コード
- (事前) 学習済みモデル
- 以下の情報が含まれている README ファイル
  - 結果の表
  - コードの実行方法
✔ 論文中で報告されているすべての結果について
- ハイパーパラメータについての詳細
  - ハイパーパラメータの範囲
  - どのようにハイパーパラメータの値を選択したか e.g., manual tuning, uniform sampling, etc.
  - どのようにハイパーパラメータを評価したか e.g., accuracy
  - 報告されている結果を再現する上で必要なすべてのハイパーパラメータの設定
  - ハイパーパラメータチューニングの結果のサマリ e.g., expected validation performance *3 *4, mean, variance, error bar, etc.
- 学習と評価はそれぞれ何回行われたか
- 結果を報告するために使用された指標または統計量の明確な定義
- 報告されている結果の平均と分散
- 平均実行時間
- 結果を得るための計算機環境
- モデルのパラメータ数について (NAACL'21)
- 対応する test に対応する validation スコア (NAACL'21)

提案モデル・アルゴリズム 、評価データ 、 実験コード 、 評価方法 の観点から簡潔な指示が与えられている事がわかりました。

ML Code Completeness Checklist

実験を再現するコードについて、論文実装がまとめられている paper with code と The Machine Learning Reproducibility Checklist を公開している Joelle Pineau 氏から機械学習コードの再現性チェックリストも公開されています。

Today, @paperswithcode introduced its new ML Code Completeness Checklist, building on the AI reproducibility work from FAIR Managing Director, Joelle Pineau. This new checklist will be a part of the official NeurIPS 2020 submission process. https://t.co/6N9DsWDWXM pic.twitter.com/pnsGiXiiKS
— Facebook AI (@facebookai) 2020年4月8日

ML Code Completeness Checklist では公開されている著者実装レポジトリに対して、以下の視点からチェックします:

✔ Dependencies
- リポジトリに依存関係に関する情報や環境の設定方法の指示があるか？
✔ Training scripts
- リポジトリに論文で説明されているモデルをトレーニング / フィットさせる方法が含まれているか？
✔ Evaluation scripts
- リポジトリには、訓練されたモデルの性能を計算したり、モデルの実験を実行するためのスクリプトが含まれているか？
✔ Pretrained models
- リポジトリは予習済みモデルの重みへの無料アクセスを提供しているか？
✔ Results
- リポジトリに主な結果の表 / プロットと、それらの結果を再現するためのスクリプトが含まれているか？

各リポジトリは、0（だめ）から 5（いいね）のスコアを付けることができます。各基準の詳細については以下のレポジトリで公開されており、1000 を超えるスターを得ています。 github.com

ML Code Completeness Checklist の詳細は以下のブログ記事から読むことが可能です。 medium.com

まとめ

本記事では再現可能な論文の公開に焦点を当て、近年のコンピュータサイエンス分野におけるトップカンファレンスに投稿する際に著者に対して示されている再現性チェックリストの内容を大まかに把握しました。また成果を公開する際にチェックするとよいリストについても言及し、より再現性担保する方法を確認しました。これらのチェックリストを予め把握しておくことで、実験や執筆時に注意しながら研究を進めることができ、結果として良い研究ができるのではないでしょうか。

*1:Background image from https://ai.facebook.com/blog/how-the-ai-community-can-get-serious-about-reproducibility/

*2:[2003.12206] Improving Reproducibility in Machine Learning Research (A Report from the NeurIPS 2019 Reproducibility Program) https://arxiv.org/abs/2003.12206

*3:[1909.03004] Show Your Work: Improved Reporting of Experimental Results https://arxiv.org/abs/1909.03004

*4:http://shunk031.hatenablog.com/entry/allentune-algorithm

2020-12-02

今年行けなかった国内・海外旅行を供養する

海外渡航観光

こんにちは @shunk031です。GPUマシンで暖を取る季節になってきましたね。まずは実験を回しましょうか。

この記事は法政大応情 Advent Calendar 2020 2日目の記事です。

f:id:shunk031:20201201235559p:plain — 最近はただシンプルに「飛行機に乗りたい」と思う毎日です。

去年、所属研究室で彌冨研 Advent Calendar 2019 をやっていた頃と世界情勢がまるっきり変化してしまいました。その影響もあり、今年行く予定であった国内・海外旅行がキャンセルになることが多かったです。

この記事では、今年行く予定であったが行けなかった国内・海外旅行を列挙し、今後の世界情勢が良くなったときに行けるようにメモとして残します。

海外旅行
国内旅行
- 金沢
- 茨城
- 京都
- 名古屋
- 熊本
おまけ: Go To キャンペーンで行った旅行
- 金沢
- 京都
おわりに

海外旅行

今年は国際会議での学会発表の他、東京オリンピックから逃げるための旅行を予定していました。

アメリカ・シアトル

7月の中旬1週間程度滞在予定でした。この期間はACL2020がシアトルで行われる予定でした。留学生と書いた論文が採択されたため付いていく予定でしたが、オンライン発表になってしまいました。

f:id:shunk031:20201202001553j:plain — From https://stories.starbucks.com/stories/2015/store-tour-inside-1912-pike-place-seattle-usa/

アメリカ・ハワイ

8月最初の1週間程度滞在予定でした。当初は8月初めの灼熱のなか東京オリンピックが開催される予定になっており、逆張りのオタクこと私は東京にいるより海外に居たほうが良いと考えて適当にハワイへの飛行機を取っていました。

f:id:shunk031:20201202002903p:plain — From https://portal.ehawaii.gov/government/county-governments/

アメリカ・サンディエゴ

8月の後半1週間程度滞在予定でした。この期間はKDD2020がサンディエゴで行われる予定でした。残念ながら投稿した論文が採択されなかったのでおそらく行けなかったのですが、とても楽しみな旅行でした。

f:id:shunk031:20201202002214p:plain — From https://www.sandiego.gov

中国・蘇州

12月の初旬に1週間程度滞在予定でした。この期間はAACL-IJCNLP2020が蘇州で行われる予定でした。後輩と書いた論文が採択されたため付いていく予定でしたが、オンライン発表になってしまいました。

f:id:shunk031:20201202003618j:plain — From https://www.traveltosuzhou.com

国内旅行

国内旅行もベースは学会発表ですが、推しのライブへ行くための遠征の予定もありました。

金沢

3月初旬の1週間程度滞在予定でした。この期間は情報処理学会第82回全国大会が金沢工業大学で行われる予定でした。後輩の発表を見に行く予定でしたがオンライン発表になり、この予定をキャンセルしました。

茨城

3月中旬の1週間程度滞在予定でした。この期間は言語処理学会第26回年次大会が茨城大学で行われる予定でした。論文を発表予定でしたがオンライン発表になり、この予定をキャンセルしました。

京都

5月23-24日で滞在予定でした。この期間は小倉唯 LIVE TOUR 2020『#LOVEcall』京都公演がロームシアター京都で行われる予定でしたが、公演中止のためこの予定をキャンセルしました。

名古屋

5月30-31日で滞在予定でした。この期間は小倉唯 LIVE TOUR 2020『#LOVEcall』愛知公演が一宮市民会館で行われる予定でしたが、公演中止のためこの予定をキャンセルしました。

矢場とんの味噌カツが食べたいです（以下は1年前に昔訪れたときのツイート）。

明らかな美味しさを感じた (@ 矢場とん名古屋駅エスカ店 in Nagoya, 愛知県) https://t.co/pNGFnpjKir pic.twitter.com/qMp5l2qmJ7
— しゅんけー (@shunk031) 2019年3月11日

熊本

6月の中旬1週間程度滞在予定でした。この期間は人工知能学会第34回全国大会が熊本城ホールで行われる予定でした。論文発表と招待講演を予定していましたがオンライン発表になり、この予定をキャンセルしました。

speakerdeck.com

おまけ: Go To キャンペーンで行った旅行

金沢

8月17-21日でGo Toキャンペーンを利用して滞在しました。 3月に金沢へ行く予定のリベンジでした。

情報処理学会（金沢開催予定だったやつ） (@ 北陸新幹線金沢駅 in 金沢市, 石川県) https://t.co/tskFqvLIT2
— しゅんけー (@shunk031) 2020年8月18日

論文投稿後の能登牛は美味い！！！！ (@ 牛や榮太郎片町本店 in 金沢市, 石川県) https://t.co/2SdOwRG9Md pic.twitter.com/rw09f7pXZP
— しゅんけー (@shunk031) 2020年8月18日

誰もいない。時間はゆっくり pic.twitter.com/Wc02Xa06Dm
— しゅんけー (@shunk031) 2020年8月19日

京都

11月16-20日でGo Toキャンペーンを利用して滞在しました。 5月に京都へ行く予定のリベンジでした。

後輩が京都に来ているのでノリで来た（フッ軽博士） (@ 京都駅 in 京都市, 京都府 w/ @hitoshu_iyatomy) https://t.co/ztVenOCJot
— しゅんけー (@shunk031) 2020年11月16日

密 (@ 清水寺 in 京都市, 京都府) https://t.co/h2LyoEVDi9 pic.twitter.com/dc1NQf3Fgm
— しゅんけー (@shunk031) 2020年11月16日

おわりに

今年1年で国内・海外含めさまざまな地域へ旅行する予定でしたが、半数以上がキャンセルになってしまいました。Go Toキャンペーンを利用して旅行をしましたが、果たして 旅行をする ことが正しかったのかは正直自信はありません。このキャンペーンを通じて観光地の方たちの力になれたら幸いです。気持ちよく旅行できる世界が来る日に向けて個人でできることをやっていきたいです。

2020-09-08

【外部発表】Learning to Faithfully Rationalize by Construction

外部発表 NLP

こんにちは。@shunk031です。論文読み会で登壇したので、そのときの発表資料と概要、及び頂いた質問への回答*1を載せます。

このツイートのスレッドにてACL2020オンライン読み会で発表した "Learning to Faithfully Rationalize by Construction" に関する質問に回答します。 #ACL2020読み会
— しゅんけー (@shunk031) 2020年9月6日

Q. データセットやタスクによって根拠部分の長さkが変わりそうだが、なにか言及はあったか？
A. おっしゃるとおりで、タスクによってかわります。提案手法のハイパラはこのkだけなので、チューニングも苦ではなさそうです。
— しゅんけー (@shunk031) 2020年9月6日

Q. 付与されている人手による根拠はどれぐらい尤もらしいのか
A. このデータセットは ERASER [ACL20](https://t.co/GF2CUNSEBL)で提案されているもので詳細は確認できていませんが、がんばって集めてそうです（そしてERASERの研究チームと紹介した論文の研究チームが同じチームっぽいです）
— しゅんけー (@shunk031) 2020年9月6日

イベント: ACL 2020 オンライン読み会

exawizards.connpass.com

登壇概要

タイトル：Learning to Faithfully Rationalize by Construction

Learning to Faithfully Rationalize by Construction

Sarthak Jain1, Sarah Wiegreffe2, Yuval Pinter2, Byron C. Wallace1
- 1Khoury College of Computer Sciences, Northeastern University
- 2School of Interactive Computing, Georgia Institute of Technology

自己紹介

北田俊輔法政大学大学院理工学研究科 D1 彌冨研所属
- 深層学習を元にした基礎・応用研究
  - 自然言語処理: 文字形状に着目・解釈性のあるモデル
    - YANS2019にて奨励賞を受賞
    - ACL2020 SRWにて共著の論文採択
      - 文字形状が特徴的なアラビア語に対する新たな分類モデルと2つの大規模データセットの提案
  - 医用画像処理: 悪性黒色腫自動診断システムの構築
    - IPSJ2019にて学生奨励賞受賞
  - 計算機広告: 広告クリエイティブの評価・作成支援
    - KDD2019（データマイニングの最難関国際会議）にて論文採択
      - Attention可視化によるクリエイティブ作成支援

本論文を選択した理由

“Attention is not Explanation” と “Attention is not not Explanation” の著者らによる夢のコラボレーション

Attentionに説明性があるかを解析した論文[Jain+Wallace NAACL19; Wiegreffe+Pinter EMNLP19] の著者による深層学習モデルの予測に対する根拠を学習する手法を提案

本文から根拠を抽出してその根拠を元にタスクを解く新たな枠組みの提案

予測の根拠をどのように抽出するかが気になった
根拠抽出により短くなったテキストでどれくらいの精度でタスクを解くことができるのか

本研究の貢献

入力文から根拠を抽出し、その根拠を元に予測可能なニューラルテキスト分類の枠組みを提案

先行研究のモデルは強化学習ベースのため学習が難しい
- 強化学習を使わない枠組みでモデルを学習
  これまでの学習方法固有の複雑さを回避するために新たな学習手法を提案
新たな学習手法 Faithful Rationale Extractionale from Saliency tHresholding (FRESH) を提案
- 根拠を抽出する部分と根拠から予測する部分を別々に訓練可能にする (後述)

提案手法 FRESH に対して人手による評価を実施

Amazon Mechanical Turkで提案手法の示す根拠を評価

導入: 深層学習モデルの予測に対する説明性

予測の説明性における”Faithfulness”と”Rationle”

Faithfulness (忠実)

“予測モデルによって示される根拠は、そのモデルが最終的にその予測に至るために使った情報を反映していれば忠実である” [Lipton Queue18] 入力文から取り出した一部分を根拠とし、それだけで正しく予測できるのなら、faithful な根拠と言える

Rationale (根拠)

“アノテータがテキストを分類する際にその判断に影響を与えた文字列を強調して表示するように求められる。このような手がかりを根拠と呼ぶ” [Zaidan+ NAACL07] 入力文から一部分を抽出して予測根拠としその根拠のみでどれくらい予測できるかを評価すべき

Faithfulness through Discrete Rationale Selection

End-to-Endで予測根拠を抽出 [Lei+ EMNLP16]

先行研究: Rationalizing Neural Predictions [Lei+ EMNLP16]

GeneratorとEncoderによる予測根拠の抽出
- Generator gen(xi): 入力テキスト xi から根拠 zi を抽出
- Encoder enc(xi , zi): 入力テキストと根拠から予測
モデルの学習: REINFORCE [Williams ML92] で最適化
- 考慮できる根拠の状態空間が大きいため分散が大➜ 効率的に探索することは困難

提案手法: Faithful Rationale Extraction from Saliency tHresholding (FRESH)

End-to-Endで予測根拠を抽出しない枠組み

本研究: FRESH (Faithful Rationale Extraction from Saliency tHresholding)

REINFORCEによる学習の難しさを克服
- あえてEnd-to-Endな枠組みにしないことで、一般的に困難な強化学習を元にした学習を回避する
3つの独立したモデルから構成される枠組み
- Supportモデル・Extractorモデル・Classifierモデル

End-to-Endで予測根拠を抽出しない枠組み

Supportモデル: supp(xi , yi)入力 xi と正解 yi から学習する。得られる重要度 si を取得
- 様々な重要度算出手法が利用可能e.g., Attention, 勾配ベースの手法, LIME [Ribeiro+ KDD16]
Extractorモデル: ext(xi, si)
- suppから得られた重要度を2値化しsnippet を取得➜ このsnippetを予測の根拠として扱う
  - 2値化はルールベースや学習モデルベースなどが適用可能
Classifierモデル: pred( )extから得られたsnippet を元に正解 yi を予測する➜ 本来の入力よりも短いテキストで予測可能

FRESHの実装

Supportモデル supp
- ベースモデル: BERT, RoBERTa, SciBERT
- 重要度算出手法: Attention, Gradient
Extractorモデル ext
- 重要度を元に2つの根拠の取り出し方を考慮 (連続/非連続):
  - Contiguous (連続な根拠)
    - 重要度が最大になるよう連続したスパンを抽出
  - Top-k (非連続な根拠)
    - 重要度上位 k 個の単語を連続性関係なく抽出
Classifierモデル pred
- すべてのモデルに共通して、BERT表現を使って分類

実験設定

評価用データセット (5種)
- Stanford Sentiment Treebank (SST): NLPer好きなやつ
- AgNews: ニュース記事 (Science, Sports, Bussiness, World)
- Evidence Inference (人手根拠有): 生体医療の科学記事
- Movies (人手根拠有): 映画のレビュー
- MultiRC (人手根拠有): 複数の正解があるデータセット
学習方法の詳細
- 比較手法はすべてBERTベースのモデルに変更
- 異なるシード値で5回実験
  - 強化学習ベースのモデル (e.g., Lei+ EMNLP16) は性能の分散が大きいため

定量的評価 | 評価方法

予測性能の評価
- 比較手法
  - テキスト全文: 性能上限の目安。根拠を示す機構なし。
  - 提案手法: [CLS] のattentionを元に根拠部分を抽出
  - 強化学習モデルベース: [Lei+ EMNLP16]
  - 微分可能モデルベース: [Bastings+ ACL19]
- 抽出する根拠の長さ
  - テキストから抽出する根拠部分が長くなるほど性能大➜ 根拠の長さを k に固定して評価実験を実施
性能変化: 根拠の長さ・人手による根拠の使用
- 根拠の長さを変化させたときの性能評価
- 人手による根拠を学習に使用したときの性能評価
  - 根拠を考慮した学習法 [Zhang+ EMNLP16; Strout+ BlackboxNLP19]

予測性能の評価

FRESHは入力文の10-30%程度でFull textに迫る予測精度
抽出された根拠には予測を説明できる情報が含まれている
FRESHは先行研究 [Lei+ EMNLP16; Bastings+ ACL19] を超える予測精度
- 性能の分散が小さく安定したパフォーマンス
Attentionベースの重要度スコアを用いたほうが精度は高い
重要度スコアのtop-kを抽出するほうが精度は高い

根拠の長さを変化させたときの性能変化

FRESH と [Lei+ EMNLP16] を比較
- 抽出する根拠の長さに関わらずFRESHが良い性能
- 強化学習ベースの [Lei+ EMNLP16] は性能にばらつき有
  - 根拠の長さを長くすると提案手法と同程度
  - Evidence. Inv. においては性能悪化

人手による根拠を使用したときの性能変化

人手による根拠の使用
- Evidence InferenceとMultiRCは人手の根拠データが存在
  - ➜ この根拠を0%-100%使ったときの予測精度を比較
FRESH と [Lei+ EMNLP16] を比較
- 人手根拠を多く使えば予測性能向上に多少寄与する可能性
- 先行研究のモデルにおいても人手根拠は良い影響を与える

人手・Lei et al.・FRESHによる根拠抽出 in MultiRC

Query: What is the only difference between a reflection in a mirror and the actual image?
- Answer: It is exactly the same.
- Label: False
Human: You have seen your own reflection in a mirror. The person looking back at you looks just like you. Where does that reflected person appear to be standing ? Yes, they appear to be on the other side of the mirror. That is really strange to think about, but very cool. Have you ever waved at your reflection in a mirror? The reflected image will wave back at you. Here is something to try next time you stand in front of a mirror. Wave to your reflection with your right hand. What hand do you think the reflection will wave back with? The same hand? A different hand? You will notice something interesting. The reflection waves back with the hand on the same side as you, but it is their left hand. The image in a reflection is reversed. This is just like the image of the sign above. Light rays strike flat shiny surfaces and are reflected. The reflections are reversed.
Lei et al.: You have seen your own reflection in a mirror. The person looking back at you looks just like you. Where does that reflected person appear to be standing ? Yes, they appear to be on the other side of the mirror. That is really strange to think about, but very cool. Have you ever waved at your reflection in a mirror? The reflected image will wave back at you. Here is something to try next time you stand in front of a mirror. Wave to your reflection with your right hand. What hand do you think the reflection will wave back with? The same hand? A different hand? You will notice something interesting. The reflection waves back with the hand on the same side as you, but it is their left hand. The image in a reflection is reversed. This is just like the image of the sign above. Light rays strike flat shiny surfaces and are reflected. The reflections are reversed.
FRESH: You have seen your own reflection in a mirror. The person looking back at you looks just like you. Where does that reflected person appear to be standing ? Yes, they appear to be on the other side of the mirror. That is really strange to think about, but very cool. Have you ever waved at your reflection in a mirror? The reflected image will wave back at you. Here is something to try next time you stand in front of a mirror. Wave to your reflection with your right hand. What hand do you think the reflection will wave back with? The same hand? A different hand? You will notice something interesting. The reflection waves back with the hand on the same side as you, but it is their left hand. The image in a reflection is reversed. This is just like the image of the sign above. Light rays strike flat shiny surfaces and are reflected. The reflections are reversed.

人手評価

人手評価 | 評価視点と評価設定

人手評価の評価視点

Sufficiency
- FRESHによる根拠を使って人間が予測できるか
Readability & Understandability
- 仮定: 人間は単語レベルのばらばらな根拠よりも文レベルのまとまった根拠を好むのではないか
- 一貫しているか・理解しやすいか

人手評価の設定

評価データ
- 人手根拠が予め付与されている Movies と MultiRC
- 抽出した根拠に対して以下の質問をアノテータに示す:
  - 予測: Pos or Neg (Movie), True or False (MultiRC)
  - 確信度: 1 (not confident) ~ 4 (very confident)
  - 可読性: 1 (very difficult) ~ 5 (very easy)

人手評価 | 詳細

根拠の抽出方法

テストデータから100件ランダムに取得し根拠を抽出:
- あらかじめ付与されている人手の根拠とする
- 長さがkになるようランダムに選択して根拠とする
- [Lei+ EMNLP16] で得られたものを根拠とする
- FRESHで得られたものを根拠とする
アノテータによる人手評価の実施方法
- Amazon Mechanical Turkを使用
- アノテータ間のagreement
  - Movies: 84%, MultiRC: 89%
- 1HITあたり0.24ドルでアノテータに依頼
  - 平均完了時間2分 (予備実験より) と時給7.20ドルに基づいて計算している
    - アノテータの英語力をテストして確認しているわけではない

人手評価 | Amazon Mechanical Turk上での評価

アノテーション収集で用意したインターフェース (Movie)
アノテーション収集で用意したインターフェース (MultiRC)

人手評価 | 評価結果

人手根拠とモデルによる根拠が同等の精度を達成
非連続な根拠 (non-contiguous) より、連続した根拠 (contiguous) を人間に見せたときに予測精度が高い➜ 人間は連続した根拠 (文) を強く好む傾向がある
FRESHのベストな結果は確信度や可読性が高い
FRESHは合理的な根拠 (faithful rationales) を示している

結論と所感

予測モデルを説明可能にするFRESHを提案
- さまざまな重要度算出手法が適用可能
- シンプルな枠組みで先行研究の複雑なモデルを凌駕
- FRESHによる根拠は人間にとっても良いものであった
入力テキストのどの部分が重要かを示すことが可能
- 根拠として抽出したテキストがタスクを解く上で重要であることを示せる
  - しかしなぜその部分が根拠として選ばれたかを解釈することはまだできていない

所感: Attentionに説明性はない (なくはない) の作者がattentionを重要度と見なして使っているのは筋が通っていない気がしたタイトルでは “by Construction” だが根拠を構築している感はなかった ➜ human in the loop 的なものを想像していた

参考文献

[Williams ML92] Williams, Ronald J. "Simple statistical gradient-following algorithms for connectionist reinforcement learning." Machine learning 8.3-4 (1992): 229-256.
[Zaidan+ NAACL07] Zaidan et al. "Using “Annotator Rationales” to Improve Machine Learning for Text Categorization." Proc. of NAACL-HLT 2007.
[Ribeiro+ KDD16] Ribeiro et al. "" Why should I trust you?" Explaining the predictions of any classifier." Proc. of KDD 2016.
[Zhang+ EMNLP16] Zhang et al. "Rationale-Augmented Convolutional Neural Networks for Text Classification." Proc. of EMNLP 2016.
[Lei+ EMNLP16] Lei et al. "Rationalizing Neural Predictions." Proc. of EMNLP 2016.
[Kim+ NIPS16] Kim, Been, Rajiv Khanna, and Oluwasanmi O. Koyejo. "Examples are not enough, learn to criticize! criticism for interpretability." Proc. of NIPS 2016.
[Doshi-Velez+ 17] Doshi-Velez et al. "Towards a rigorous science of interpretable machine learning." CoRR preprint arXiv:1702.08608 (2017).
[Lipton+ Queue18] Lipton, Zachary C. "The mythos of model interpretability." Queue 16.3 (2018): 31-57.
[Feng+ EMNLP18] Feng et al. "Pathologies of Neural Models Make Interpretations Difficult." Proc. of EMNLP 2018.
[Ehsan+ AIES18] Ehsan, Upol, et al. "Rationalization: A neural machine translation approach to generating natural language explanations." Proc. of AIES 2018.
[Strout+ BlackboxNLP19] Strout et al "Do Human Rationales Improve Machine Explanations?." Proc. of ACL Workshop BlackboxNLP2019.
[Ehsan+ IUI19] Ehsan et al. "Automated rationale generation: a technique for explainable AI and its effects on human perceptions." Proc. of IUI2019.
[Zhong+ 19] Zhong et al. "Fine-grained sentiment analysis with faithful attention." CoRR preprint arXiv:1908.06870 (2019).
[Rudin NatureMI19] Rudin, Cynthia. "Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead." Nature Machine Intelligence 1.5 (2019): 206-215.
[Liu+ 19] Liu et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
[Devlin+ NAACL19] Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proc. of NAACL-HLT2019.
[Jain+ NAACL19] Jain et al. "Attention is not Explanation." Proc. of NAACL-HLT 2019.
[Lertvittayakumjorn+ EMNLP19] Lertvittayakumjorn et al. "Human-grounded Evaluations of Explanation Methods for Text Classification." Proc. of EMNLP-IJCNLP2019.
[Yu+ EMNLP19] Yu, Mo, et al. "Rethinking Cooperative Rationalization: Introspective Extraction and Complement Control." Proc. of EMNLP-IJCNLP19.
[Serrano+ ACL19] Serrano et al. "Is Attention Interpretable?." Proc. of ACL 2019.
[Bastings+ ACL19] Bastings et al. "Interpretable Neural Predictions with Differentiable Binary Variables." Proc. of ACL 2019.
[Wiegreffe+ EMNLP19] Wiegreffe et al. "Attention is not not Explanation." Proc. of EMNLP 2019.
[Brunner+ ICLR20] Brunner, Gino, et al. "On identifiability in transformers." Proc. of ICLR 2020.
[Pruthi+ ACL20] Pruthi et al. "Learning to deceive with attention-based explanations." Proc. of ACL 2020.

*1:論文を読んで理解した範囲であり、個人的な経験や主観が含まれている可能性があります。

2020-08-19

【外部発表】Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

外部発表 NLP

こんにちは。@shunk031です。論文読み会で登壇したので、そのときの発表資料と概要、及び頂いた質問への回答*1を載せます。

このツイートのスレッドにてACL2020オンラインLT会で発表した "Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words? " に関する質問に回答します。 #xpaperchallenge
— しゅんけー (@shunk031) 2020年8月17日

Q. Qualification Test を通過したアノテータのみにタスクに取り組んでもらう、というようなことは行っていないのでしょうか？
A. 論文上では直接言及はされていませんでしたが、複数のアノテーション設定から適切そうなものを選んで最終的な収集方法を決定しているのでまぁ良いか…ぐらいな気持ちです
— しゅんけー (@shunk031) 2020年8月17日

Q. この分野では感情分析が主なベンチマークなのでしょうか？
A. レストラン（今回のYelp）や映画（e.g., IMDB）、Amazonなどのレビューを元にした感情分析はよくあると思います。予測の結果もわかりやすく好まれる傾向がありそうです
— しゅんけー (@shunk031) 2020年8月17日

Q. 文が長くなるほどsentiment analysisが当たらなくなるというのは、情報量は増えているという点で直観に反する気もするのですが、その辺り何か言及はありましたか？
A. 特にattentionの観点では、attentionが薄くなりがち（単語列に対するattentionの合計=1なので）ということは一つ言えそうですね
— しゅんけー (@shunk031) 2020年8月17日

Q. LSTMの出力に対しての重みを利用していますが、LSTMの各出力が各単語に完全に対応している根拠ってあるんですかね。
A. attentionが必ずしも単語に対応していないかもしれませんが、文脈からどの位置の特徴を通すかという点で重要度と言えると思います（この重要度が説明を与えるかはまた別）
— しゅんけー (@shunk031) 2020年8月17日

イベント: ACL 2020 オンラインLT会

nlpaper-challenge.connpass.com

登壇概要

タイトル：Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?

Cansu Sen1, Thomas Hartvigsen2, Biao Yin2, Xiangnan Kong1,2, and Elke Rundensteiner1,2
- 1Computer Science Department , Worcester Polytechnic Institute
- 2Data Science Program, Worcester Polytechnic Institute

自己紹介

北田俊輔法政大学大学院理工学研究科 D1 彌冨研所属 @shunk031 shunk031
- 深層学習を元にした基礎・応用研究
  - 自然言語処理: 文字形状に着目・解釈性のあるモデル
    - YANS2019にて奨励賞を受賞
    - ACL2020 SRWにて共著の論文採択
      - 文字形状が特徴的なアラビア語に対する新たな分類モデルと2つの大規模データセットの提案
  - 医用画像処理: 悪性黒色腫自動診断システムの構築
    - IPSJ2019にて学生奨励賞受賞
  - 計算機広告: 広告クリエイティブの評価・作成支援
    - KDD2019（データマイニングの最難関国際会議）にて論文採択
      - Attention可視化によるクリエイティブ作成支援

本論文を選択した理由

人間とニューラルネットワークは予測の際に同様の単語に焦点を当てているのかが気になった

Attention機構はモデルの予測の解釈にも使われてきた
しかし解釈性を疑問視する論文が複数登場してきた
クラウドソーシングによる人手attentionがアノテーションされたデータセットに興味を持った
学習済みattentionに対する解釈性を直接評価可能
人手attentionを教師にして、よりhuman-friendlyな新しいモデル・学習法を模索可能

本研究の貢献

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

Amazon Mechanical Turkを利用
データ収集方法を詳細に検討し、15,000件を収集・公開

人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案

様々な指標で評価: 単語の重複度、語彙の分布 etc.

人手のattentionと深層学習モデルのsoft/hard attentionに対して比較・分析

深層学習モデルのattentionは人間と似た説明を与える
文の長さが長くなるほど異なった説明を与える

Preliminaries on Attention Maps

本研究で登場する Attention Map について

Human Attention Map (HAM)

人間による2値のattention map (binary AM)

Machine Attention Map (MAM)

機械 (ニューラルネット) によるattention map
- Soft AM: 注意の確率分布
- Hard AM: 2値のattention map

同一テキスト内の複数の異なるHAM

Consensus Attention Map (CAM)

bit-wise AND なHAMを計算したもの

Super Attention Map (SAM)

bit-wise OR なHAMを計算したもの

Human Attention Mapの収集と分析

概要: クラウドソーシングで収集

対象データセット: Yelp dataset
アノテーション方法: Amazon Mechanical Turk

予備実験1: アノテーションの質の調査

人間さまのアノテーションの質を調査
チートやズルをするアノテータがいないかどうか等

予備実験2: アノテーション方法の検討

read-firstデザイン

文を先に読んでもらってから感情値を予測してもらうその後どの単語が重要かのアノテーションしてもらう

free-styleデザイン

文を読む・感情値の予測・単語のアノテーションを自由にやってもらう

Human Attention Mapの収集と分析

データ収集で用意したインターフェース

Human Attention Mapの収集と分析

レビュー文と感情値選択に寄与しそうな単語のアノテーション
レビューに対する感情値の選択
データ収集で用意したインターフェース

Human Attention Mapの収集と分析

予備実験1: アノテーションの質の調査

2つの小規模データセット
- Yelp datasetからランダムに50文取得
- A: 50単語/文、B: 100単語/文
アノテーション時の数値感
- 1文あたりのアノテーション時間
  - 44秒（50単語/文）、70秒（100単語/文）
- 1文あたりの選択された単語数
  - 9単語（50単語/文）、13単語（100単語/文）
1文あたりの単語数が増えるにつれてアノテーション時間・選択された単語数それぞれ増加する
- アノテータがランダムにアノテーションしているわけではなさそうという結論

Human Attention Mapの収集と分析

予備実験2: アノテーション方法の検討

2つのアノテーション方法
- read-first と free-style
アノテーション時の数値感
- アノテータ間のagreement
  - 73% (read-first)、69% (free-style)
- ground truthとどれくらい似ているか
  - 3.30 (read-first)、3.10 (free-style)
- cross-sentimentでノイジーなデータの量(選択した感情値と異なる場合のスコア)
  - 0.5 (read-first)、1.0 (free-style)

Human Attention Mapの収集と分析

最終的なhuman attention mapの収集方法と結果

Yelp Human Attention Dataset (YELP-HAT)

予備実験を元に大規模アノテーションデータセットを作成
プロジェクトページ
read-first デザイン
3つの異なるアノテータによるアノテーション
- 3 x 5,000レビュー = 15,000件

Attention Map Similarity Framework

人間と機械のattention mapに対する類似度評価

単語選択の重複度

人間AMと機械AMの2つが似ている➜ 同様の箇所にattentionが当たっているかを評価
語彙の分布
感情の語彙的指標は品詞 (e.g., 名詞・動詞・形容詞) と一般的に関連していることが知られている [Marimuthu+’12]➜ 人間AMと機械AMの語彙的な類似度を評価
感情値の文脈依存性
ネガティブなレビューの中にあるポジティブな言葉を考慮したり、逆もしかりな場合がある➜ 人間AMと機械AMに対して文脈を考慮して評価

人間と機械のattention mapに対する類似度評価

単語選択の重複度 (Behavioral similarity)

HAMとMAMで選択された単語重複度合いを計算
語彙の分布 (Lexical similarity: LS)
HAMとMAMそれぞれで選択された品詞の分布間の相関ランダムなattention R を元に0-1となるように計算

人間と機械のattention mapに対する類似度評価

感情値の文脈依存性 (Cross-sentiment selection rate: CSSR)

肯定的な文 (Y=1) のHAMが付与されている単語と否定的な文 (Y=0) のHAMが付与されている単語に着目
- get_words() は条件に合う単語を取得
- 肯定的な文に現れる否定的なな単語、否定的な文に現れる肯定的な単語の比率を比較

Is Machine Attention Similar to Human Attention?

機械の注意は人間の注意と似ているのか？

Machine attention mapの学習

Amazon Mechanical Turkを利用
データ収集方法を詳細に検討し、15,000件を収集・公開

文あたりの単語数で分けたときのモデルの精度

単語数別に3つのデータセットを構築
- Yelp-50、Yelp-100、Yelp-200

人間の注意と機械の注意の類似性分析

単語選択の重複度
語彙分布
感情値の文脈依存性

機械の注意は人間の注意と似ているのか？

Machine attention mapの学習

使用データセット
- Yelp dataset
- 0〜5の評価値が付与されている
データセットの前処理と分割
- negative: 1〜2、positive: 4〜5 の2値分類設定
- 2値が不均衡にならないように tng:val:tst = 8:1:1
モデル
- RNN (soft attention)
  - uni-, bi-directional LSTM with additive attention
- Rationale mechanisms (hard attention) [Lei+ EMNLP16; Bao+ EMNLP18]
  - ハイパーパラメータとして予測根拠となりうる箇所の個数やその特徴表現の近さを指定可能

機械の注意は人間の注意と似ているのか？

注意の可視化結果

上から HAM, HAM, RNN, bi-RNN, Ratinales の順

機械の注意は人間の注意と似ているのか？

文あたりの単語数で分けたときのモデルの精度

文長が長くなるほどhuman・machineともに精度減少
- 文が長いと一回で文意を読み解くのは難しく、より集中して読み解かなくてはならないため
双方向RNNはパフォーマンス的にhumanと近い傾向
- テキスト読解の双方向性が人間に近い

単語選択の重複度の側面での分析

HAMと比べてConsensus Attention Mapの類似度が他と比べて高い
- 複数のアノテータが重要だと判断した単語
- 機械の注意でもそれらが重要だと予測
CAMと比べてSuper Attention Mapの類似度は低い
- 人間の主観的な単語選択は常に機械から高い注目を受けているわけではない
もちろん人間同士の類似度は機械との類似度よりも高い
- 完全に類似はしていない➜ それぞれ主観的な単語選択
- 文が長くなればなるほど類似度は低くなっていく

機械の注意は人間の注意と似ているのか？

語彙分布の側面での分析

Bi-RNN Attentionが人間に近い注意を学習
- 文が長くなればなるほどスコアは減少
どの語彙カテゴリが多く選ばれているか
- 人間・機械ともに○: 形容詞、比較級形容詞、名詞
  - 人間 ○: 副詞
  - 機械 ○: 固有名詞（複数形）
- 人間・機械ともに✘: 人称代名詞

機械の注意は人間の注意と似ているのか？

感情値の文脈依存性の側面での分析

人間アノテータ
- レビューが肯定的であれば、ほぼ肯定的な単語を選択
- 否定的なレビューについては否定的な単語よりも肯定的な単語のほうが多く選択
RNN attention
- 否定的な文脈での肯定的な単語の選択率が2倍以上
- 肯定的なレビュー文において

結論と今後の展望

Yelpレビューデータセットを元にAttention mapを人手でアノテーション

Amazon Mechanical Turkを利用し、15,000件を収集
人手のattentionと深層学習モデルのattentionを比較するための新たな評価指標を考案し、分析
様々な指標で評価: 単語の重複度、語彙の分布 etc.
深層学習モデルのattentionは人間と似た説明を与える
Attentionを教師ありで学習するモデルの検討
- CV分野や一部のNLPタスクでは教師として注目領域を学習するモデルが提案 [Chen+ CVPRW17, Liu+ ACL17] ➜ NLP分野でも実現可能か？
再現実験を準備中
- shunk031/human-attention-map-for-text-classification 2分

33 Appendix

アノテータ間で選択された単語数の違い 34 多数アノテーションしているアノテータもいれば、ごく少数の単語にのみアノテーションしているアノテータもいる

参考文献

[Marimuthu+ ‘12] Marimuthu et al. "How Human Analyse Lexical Indicators of Sentiments-A Cognitive Analysis Using Reaction-Time." Proc. of the 2nd Workshop on Sentiment Analysis where AI meets Psychology. 2012.
[Lei+ EMNLP16] Lei et al. "Rationalizing Neural Predictions." Proc. of EMNLP 2016.
[Das+ EMNLP16] Das et al. "Human Attention in Visual Question Answering: Do Humans and Deep Networks look at the same regions?." Proc. of EMNLP 2016.
[Yang+ NAACL16] Yang et al. "Hierarchical attention networks for document classification." Proc. of NAACL-HLT 2016.
[Choi+ NIPS16] Choi et al. "Retain: An interpretable predictive model for healthcare using reverse time attention mechanism." Proc. of NIPS 2016.
[Sha+ ACM-BCB17] Sha et al. "Interpretable predictions of clinical outcomes with an attention-based recurrent neural network." Proc. of ACM-BCB 2017.
[Liu+ ACL17] Liu et al. "Exploiting argument information to improve event detection via supervised attention mechanisms." Proc. of ACL 2017.
[Chen+ CVPRW17] Chen et al. "Attending to distinctive moments: Weakly-supervised attention models for action localization in video." Proc. CVPR Workshops 2017.
[Bao+ EMNLP18] Bao et al. "Deriving Machine Attention from Human Rationales." Proc. of EMNLP 2018.
[Lipton Queue18] Lipton, Zachary C. "The mythos of model interpretability." Queue ACM 2018.
[Jain+ NAACL19] Jain et al. "Attention is not Explanation." Proc. of NAACL-HLT 2019.
[Serrano+ ACL19] Serrano et al. "Is Attention Interpretable?." Proc. of ACL 2019.
[Wiegreffe+ EMNLP19] Wiegreffe et al. "Attention is not not Explanation." Proc. of EMNLP 2019.
[DeYoung+ ACL20] DeYoung et al. "ERASER: A Benchmark to Evaluate Rationalized NLP Models." Proc. of ACL 2020.

*1:論文を読んで理解した範囲であり、個人的な経験や主観が含まれている可能性があります。

2020-03-24

深層学習モデルの実装を爆速にするVSCodeの設定メモ

VSCode Emacs 機械学習 Deep Learning python

こんにちは。@shunk031です。新型コロナウイルスが猛威を奮っていますね。不要不急の外出は控えるのが大切そうです。こういう時は引きこもって論文を読むのが一番です。

今回はコードエディタであるVSCodeで、深層学習モデルの実装を爆速にするための設定についてメモします。深層学習モデルの実装をする際にはリモート上にあるGPUを搭載したサーバで実装をしたりデバッグすることが非常に多いです。 VSCodeはこうしたリモートでのコード編集およびデバッグを簡単に行える仕組みを多数揃えています。

本記事では、深層学習モデルの実装に頻繁に利用されるPythonを対象に、以下の観点からモデルの実装を爆速にする設定や機能について紹介します:

Pythonの開発環境の構築
リモートのGPUサーバに接続するための設定
深層学習モデルの実装・デバッグを簡単にする機能
おすすめのショートカットキー・拡張機能・カスタマイズ

私自身これまで魔改造したEmacsに引きこもってコードを書いてきましたが、以下の本でVSCodeに入門することができました。体系的に整理されており、他のエディタから乗り換えを検討している方にオススメできる内容です。

Visual Studio Code実践ガイド —— 最新コードエディタを使い倒すテクニック

作者:森下篤
発売日: 2020/02/21
メディア: 単行本（ソフトカバー）

VSCodeのインストール
- コマンドパレットによるコマンドの実行
- settings.json によるVSCodeの設定
Pythonの開発環境の構築
リモートGPUサーバに接続するための設定方法
深層学習モデルの実装・デバッグを簡単にする機能
- VSCodeの強力なデバッグ機能
  - Pythonスクリプトのデバッグ
  - AllenNLPモデルのデバッグ
余談
おわりに
参考記事
- Windows向け

VSCodeのインストール

Windows・MacOSともに公式サイトからダウンロード可能です。

code.visualstudio.com

MacOSにおいて brew がインストールされている場合、以下のコマンドでインストールが可能です:

$ brew cask install visual-studio-code

コマンドパレットによるコマンドの実行

以降、簡単のためVSCodeの コマンドパレット（Windows: alt + shift + p , MacOS: cmd + shift + p）からコマンドを実行します。コマンドパレットやショートカットキーに慣れるとキーボードから手を離すことなく編集が可能になります。テキスト編集の効率化のために慣れることをおすすめします。

settings.json によるVSCodeの設定

VSCodeはGUIによる設定のほか、 settings.json による設定の記述が可能です。コマンドパレットから > Preferences: Open Settings (JSON) で設定ファイルを開くことができます。以降では私がおすすめする設定をこの settings.json の形式で紹介します。最終的な全体の設定は後半のセクションに示します。

Pythonの開発環境の構築

VSCodeによるPythonの開発環境はPythonの拡張機能をインストールすることで殆ど設定不要でリッチな補完やリファクタリング機能が使用できます。

拡張機能のインストール

Pythonの開発環境のための拡張機能をインストールします。コマンドパレットから > View: Show Extensions を選択して検索窓から python と入力することで、以下の拡張機能を見つけることができますので、インストールしてください。

marketplace.visualstudio.com

settings.json の設定例

以下にPython 拡張機能に対するsettings.jsonの設定例を示します:

{
    "python.formatting.provider": "black",
    "python.linting.pylintEnabled": false,
    "python.linting.flake8Enabled": true,
    "python.linting.flake8Args": [
        "--ignore=E501,W503"
    ],
    "python.sortImports.args": [
        "-m 3"
    ],
    "python.jediEnabled": false
}

black : Formatter
- blackによるソースコードの自動フォーマットを利用します。カスタマイズ不要で規約に沿ったフォーマットに整えてくれます。
flake8 : Linter
- flake8による文法チェックを利用します。
- blackと併用する際に E501 (一行が長すぎるとエラー) *1 と W503 (二項演算子の前に改行すると警告) *2 を無視する設定を追加します。
- pylintはflake8と同様に文法チェッカーとして広く用いられていますが、今回紹介する設定例ではflake8を用いるため、offにします。
isort : import文のソート
- isortによるimport文の自動整理を利用します。
- import文を改行する際のスタイルを -m 3 のように指定します。
  - これ以外のスタイルは Multi line output modesを参照してください。
jedi : コード補完
- jediはこれまで広くPythonのコード補完に用いられてきましたが、Microsoft製のコード補完がよりリッチに動作するため、今回紹介する設定例ではoffにします。

これらのパッケージは対象のPython環境にインストールされていない場合はインストールを促すポップアップが表示されます。指示に従うことで簡単にインストールが可能です。

Python環境の指定

pyenv 等を用いた仮想のPython環境が存在する場合、コマンドパレットから> Python: Select Interpreter を選択し、Python環境の切り替えが可能です。対象の仮想環境を選択して切り替えを行ってください。

リモートGPUサーバに接続するための設定方法

VSCodeではRemote developmentの拡張機能をインストールすることにより、ローカルでテキスト編集しているのとほとんど同様の編集が可能になります。

拡張機能のインストール

リモートのサーバ上のテキストを編集するために拡張機能をインストールします。コマンドパレットから > View: Show Extensions を選択して検索窓から remote と入力することで、以下の拡張機能を見つけることができますので、インストールしてください。

marketplace.visualstudio.com

リモートのサーバにVSCodeで接続

コマンドパレットから > Remote-SSH: Open configuration File を選択すると、sshの設定ファイルが開きます。こちらに接続先となるサーバの情報を以下のように記入しておきます:

Host <任意の名前>
    Hostname <サーバのIPアドレス>
    User <ログインしたいサーバ上のユーザ名>
    IdentityFile <ssh鍵の場所>

サーバに接続するには、コマンドパレットから > Remote-SSH: Connect to Host を選択すると、<任意の名前> として設定したサーバ名が選択肢に現れるので選択します。そうすると新しいウィンドウが立ち上がり、サーバに接続された状態のVSCode画面が現れます。

リモートのサーバに拡張機能をインストール

これまで複数の拡張機能をインストールしてきました。 VSCodeでは、リモートのサーバにも同様の拡張機能をインストールする必要があることに注意してください。

予めインストールすることが決まっているPython 拡張機能などは、以下のようにsettings.jsonに記述することによって自動でインストールすることができます:

{
   "remote.containers.defaultExtensions": [
        "ms-python.python",
        "christian-kohler.path-intellisense"
    ]
}

深層学習モデルの実装・デバッグを簡単にする機能

深層学習モデルの実装を行う上で一番時間がかかるのは「モデルの入出力をする部分」と「モデル内のテンソル形状を合わせる部分」だと思います。もうここらへんもエーアイでなんとかしたいですが、そう簡単にはいきません。VSCodeのデバッグ機能はこうした微妙の修正を必要とする部分で力を発揮します。

VSCodeの強力なデバッグ機能

深層学習モデルの実装で度々用いられるPyTorchによる実装をデバッグしている様子が以下のツイートで取り上げられています。

Microsoft VSCode integrates deeply with PyTorch out of the box.

As @aerinykim highlights:

1. It shows values inside tensors. (Left panel)
2. By simply mousing over, you can see the variable's shape, weight, bias, dtype, device, etc.https://t.co/GFsRNkfXtC pic.twitter.com/voxEO50bl7
— PyTorch (@PyTorch) 2018年11月26日

VSCodeではPython 拡張機能をインストールしただけで次のようなことが可能です:

テンソルの値や形状が自動的に表示される（左画面）
マウスカーソルを変数に合わせるだけでテンソルの値や形状、重みやデバイスタイプまで確認できる

このように、深層学習モデルのデバッグに必要不可欠な情報が簡単に確認可能です。一般的にデバッグをする際にはpdbといったデバッガを使用したり、printデバッグ を駆使していると思いますが、マウスホバーのみでテンソルの値や形状を確認することができ、こうした労力がほぼ0になります。

Python スクリプトのデバッグ

VSCodeによるデバッグの流れとして、デバッグの設定を記述した launch.json を作成します。 launch.jsonの設定例として、以下のサイトに各プログラミング言語の例が掲載されています。

vscode-debug-specs.github.io

今回は特にPythonを対象としているので、以下のページを見て設定します。

vscode-debug-specs.github.io

具体的なデバッグの詳細については割愛します。公式サイトのページが特に詳しく紹介されているので参考にしてください。

code.visualstudio.com

AllenNLPモデルのデバッグ

深層学習による自然言語処理モデルを実装する際、AllenNLPを用いる方も多いのではないでしょうか？ VSCodeのデバッグ機能を用いてAllenNLPで実装したモデルをデバッグするには以下のサイトが参考になります。

guide.allennlp.org

デバッグ時に呼び出すスクリプトを記述します。あとは launch.json に同様の手順でデバッグの設定を記述するだけのみです。

余談

ここからは私自身がおすすめするVSCodeの各種設定について述べます。

これまで愛用してきたEmacsの操作感に近づけるためにキーバインドの追加や変更は必須です。キーバインドの変更はコマンドパレットから > Preferences: Open Keyboard Shortcuts (JSON) を選択することで、keybindings.json が開きますので、こちらを追加していきます。私は現在、以下のキーバインドを定義して使用しています:

[
    {
        "key": "ctrl+i",
        "command": "editor.action.indentLines",
        "when": "editorTextFocus && !editorReadonly"
    },
    {
        "key": "cmd+.",
        "command": "editor.action.revealDefinition",
        "when": "editorHasDefinitionProvider && editorTextFocus && !isInEmbeddedEditor"
    },
    {
        "key": "cmd+,",
        "command": "workbench.action.navigateBack"
    },
    {
        "key": "ctrl+x p",
        "command": "workbench.action.navigateBack"
    },
    {
        "key": "ctrl+x m",
        "command": "workbench.view.scm"
    },
    {
        "key": "ctrl+c ;",
        "command": "editor.action.commentLine",
        "when": "editorTextFocus && !editorReadonly"
    },
    {
        "key": "cmd+w",
        "command": "-workbench.action.closeWindow",
    },
    {
        "key": "cmd+w",
        "command": "-workbench.action.closeActiveEditor"
    },
    {
        "key": "cmd+w",
        "command": "-workbench.action.closeGroup",
    },
    {
        "key": "cmd+w",
        "command": "emacs-mcx.copyRegion",
        "when": "editorTextFocus"
    }
]

Emacsでは分割した画面を移動する際に C-x o (Ctrl + x o) を頻繁に利用しますが、この逆の操作 C-x p のようなもの*3はVSCodeおよび追加したEmacs キーバインドの拡張にはありませんでした。そこで次のような設定を定義することで操作を追加します:

{
    {
        "key": "ctrl+x p",
        "command": "workbench.action.navigateBack"
    }
}

代替できなかったEmacsの機能や拡張機能

VSCodeを使ってきて、EmacsにあってVSCodeに無くクリティカルに重要であった機能は今の所私のユースケースではなさそうです。しかしながらEmacs Lispには便利な拡張がたくさんあり、以下にいくつか紹介したいと思います。代替できそうな拡張機能をご存知ある方はぜひ @shunk031 までお知らせください。

GitHub - ainame/smart-newline.el: The smart-newline.el provide a stress-less newline command for programmer.
- コードを書くための改行の入力をエンターキー1つで快適に行うためのEmacs Lisp拡張です。コードを書く際にカーソルの位置によって、いい感じに改行やインデントをしてくれる素晴らしい拡張です。
- こちらと同様の機能を見つけられておりません。
GitHub - emacsorphanage/import-popwin: Pop up buffer near by import statements with popwin
- 各種言語の import文付近を popupするEmacs Lisp拡張です。コードを書いていてimport文追加したいなというタイミングでバッファをポップアップさせて、追加したら閉じるというカジュアルな感じのものです。
- こちらも同様の機能を見つけられておりません。
EmacsWiki: Undo Tree
- Undo の履歴を木構造としてもって、それを辿る事ができるEmacs Lisp拡張です。とても便利なのですが、VSCodeにはなさそうです。
GitHub - davidshepherd7/electric-operator: An emacs minor mode to automatically add spacing around operators
- 演算子(=や+=)の前後に自動でスペースを入れるEmacs Lisp拡張です。多数の言語に対応しており、何も考えずにいい感じにスペースを入れてくれます。PythonやGolangといったフォーマッタが公式に存在する言語は良いですが、C++やJava等の古き良き言語を書くときにとてもいい仕事をしてくれる拡張でした。
- こちらも同様の機能を見つけられておりません。
GitHub - tam17aki/ace-isearch: A seamless bridge between isearch, ace-jump-mode, avy, and helm-swoop.
- isearch(インクリメンタルサーチ)を超強化するEmacs Lisp拡張です。検索する文字数に応じてace-jump-mode、isearch、helm-swoopをシームレスに選択して検索してくれるとても便利な拡張で、呼吸するように使っていまいた。
- ace-jump-modeの代替としてはCode Ace Jumperが良さそうですが、やぱりace-isearchのような検索体験を得ることは難しそうです。

dotfilesとして設定を管理する

これまでたくさんの拡張機能の導入や、それに伴った settings.json や keybindings.json の設定を行ってきました。これらをGitHub等で管理することで、違うデバイスでも同じ環境でコードを書くことが可能です。

私はもともとGitHub上でdotfiles*4を管理しているため、VSCodeの設定ファイルもdotfilesに含めて管理しようと考えました。

github.com

具体的には、dotfilesディレクトリ内の settings.json および keybinding.json からもともとあった設定ファイルの場所にシンボリックリンクを張ります:

$ ln -sf ~/.dotfiles/.vscode.d/settings.json ~/Library/Application\ Support/Code/User/
$ ln -sf ~/.dotfiles/.vscode.d/keybindings.json ~/Library/Application\ Support/Code/User/

こうすることでGitHubで設定ファイルを管理する体制ができるわけですが、最新版ではVSCodeが設定ファイルの同期をサポートし始めました。

forest.watch.impress.co.jp

お好きな方法で設定ファイルを管理することをおすすめします。

おわりに

本記事では、深層学習モデルの実装に頻繁に利用されるPythonを対象に、深層学習モデルの実装を爆速にする設定や機能について紹介しました。リモートにあるGPUサーバに簡単に接続が可能であり、またリモート上のコードの編集やデバッグが容易であることを確認しました。これらの機能をフル活用することにより、今まで以上に深層学習モデルの実装が高速に行える可能性があると考えています。

また、Emacsから乗り換えを検討している方たちに向けて、代替可能な拡張機能やショートカットキーを示し、代替ができていない拡張機能についても示しました。これらの拡張機能は自身で作ることが可能なので、少しずつ穴を埋められるような拡張機能を作れたらよいなと考えています。

参考記事

Windows向け

phst.hateblo.jp

*1:PEP 501 -- General purpose string interpolation | Python.org https://www.python.org/dev/peps/pep-0501/

*2:PEP 503 -- Simple Repository API | Python.org https://www.python.org/dev/peps/pep-0503/

*3:EmacsでC-x oの逆動作をC-x pに割り当てる - 拡張現実ライフ

*4:. (ドット) から始まる設定ファイルのことです。.bashrc や .zshrc 、tmux.conf 、.vimrc などを指します。

各月の活動

1 月

小倉唯ライブ

言語処理学会全国大会 論文投稿

日刊工業新聞 取材

2 月

幼馴染な新婚夫妻と旅行

KDD2020 論文投稿

フルリモート勤務機運

法政大 博士課程 入学試験・合格通知

修論 執筆・発表

3 月

人工知能学会全国大会 論文投稿

ACL2020 SRW 論文投稿

情報処理学会 2020 参加

言語処理学会 2020 発表

学位授与式

4 月

個人ページ新調

大学に入れなくなる

ACL2020 結果通知

ACL2020 SRW 結果通知

博士課程スタート

5 月

研究室運動会 (canceled)

小倉唯ライブ (canceled)

KDD2020 結果通知

6 月

人工知能学会 2020 オンライン

小倉唯ライブ (canceled)

AACL2020 論文投稿

7 月

ACL2020 参加

ACL2020 SRW 発表

東京女子医大 訪問

オンライン研究室紹介 撮影

8 月

WSDM2021 論文投稿

ACL2020 オンライン LT 会

GoTo 金沢

9 月

ACL2020 オンライン読み会

AACL2020 結果通知

AACL2020 SRW 論文投稿

IEEE/ACM TASLP 論文投稿

10 月

GTC Japan TA

WSDM2021 結果通知

AACL2020 SRW 結果通知

11 月

GoTo 京都

NAACL2020 論文投稿

12 月

AACL2020 SRW 発表

IEEE/ACM TASLP 結果通知

論文投稿

ACL2020

ACL2020 SRW

AACL2020

AACL2020 SRW

NAACL2021

KDD2020

WSDM2021

IEEE/ACM TASLP

番外編

買ってよかったもの

読んだ本・読んでいる本

まとめ

くずし字認識 と 深層学習

KuroNet

Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture

全体的な傾向

Data augmentation

Model architecture

上位解法

1st place solution

Preprocess

Data split

Model architecture

Discorded ideas / Future work

言語処理学会全国大会論文投稿

日刊工業新聞取材

法政大博士課程入学試験・合格通知

修論執筆・発表

人工知能学会全国大会論文投稿

東京女子医大訪問

オンライン研究室紹介撮影

くずし字認識と深層学習