こんにちは。@shunk031です。7月22日に 【NLP Hacks vol.6】『実装』に特化した、NLP 勉強会コミュニティ開催!
にて NLPの研究を加速させるAllenNLP入門
というタイトルで LT をしました。その時の資料と録画を載せます。
【外部発表】私の学振DC2体験談
こんにちは。@shunk031です。 4月1日に法政大学の学内で開催された2023(令和5)年度 日本学術振興会特別研究員(DC1・DC2)申請に関する セミナーにて講演する機会がありましたので、その時の発表資料を載せます。
発表資料
イベント: 2023(令和5)年度 日本学術振興会特別研究員(DC1・DC2)申請に関する セミナー
2021年の振り返り
こんにちは。@shunk031 です。クリスマスにニューラルネットワーク "力" をお願いしましたが、何も貰えませんでした。 サンタさんは Hinton 先生ではないみたいです。 毎年同じお願いをしている気がします。 2021 年をツイートベースで振り返ります。
各月の活動
1 月
やっていく気持ちを表明していました。
あけましておめでとうございます🎉
— しゅんけー (@shunk031) 2020年12月31日
今年も好きなこと(研究)だけをやっていきます。引き続きよろしくお願いします。
M1 Macbook Pro を購入
4 年ほど使った Intel Macbook Pro から乗り換え。充電の持ちが非常によく、外で論文を書くぐらいならば 2 日ぐらい充電しなくても大丈夫です。電源のあるカフェを探すことはほとんどなくなりました。
My new gear ... M1 Macbook Pro ちゃん😘 pic.twitter.com/iZPIrFKEl2
— しゅんけー (@shunk031) 2021年1月11日
M1 Macbook、ChromeでOverleaf開いて論文執筆するぐらいだと全く充電減らない。これはカフェで「充電なくなったから帰るか〜」ができないやつだ。
— しゅんけー (@shunk031) 2021年1月16日
言語処理学会全国大会 論文投稿
今年は主著 x1、共著 x1 でした。去年の主著 x1、共著 x3(うち留学生 x1)で並行して執筆していたときはかなりしんどかったです。
submitted! 今年も無事言語処理学会 全国大会の原稿を投稿できた
— しゅんけー (@shunk031) 2021年1月15日
博士課程コースワーク 取り組み
弊研究科の博士課程の学生はコースワークなる科目があり、学科内の任意の先生にお願いして課題を出してもらいます。今回の課題は「くずし字に関するサーベイ」と「グラフ構造 x 自然言語処理」という 2 つの課題が与えられ、締切ギリギリのこの時期にやっていました。
博士課程の課題でGraph-Powered Machine Learningを読んでいる。MEAPだからか記載されているコードがガバガバで、自分で補間しながら手を動かしている。もしかしてこのほうが勉強になるのでは説すらある / Manning | Graph-Powered Machine Learning https://t.co/uc4OaolevU
— しゅんけー (@shunk031) 2021年1月20日
くずし字に関するサーベイは以下に記事としてまとめ、公開しております。講義の課題もこのように公開すること前提ですすめると、自然と緊張感のあるものになると思いました。
NAACL 2021 first decision の通知 & Rebuttal
前年に投稿していた NAACL 2021 投稿論文の first decision が通知された時期でした。
去年の今頃はこういうレビューを頂きションボリしていましたが、今年は少しマシになった模様。成長しているかもしれないですが運ゲー状態に近いのは変わらず😂 https://t.co/Aw54ncNxEo
— しゅんけー (@shunk031) 2021年1月21日
指導教員の先生と密に連携して author response を作成し、結果的に全体的なレビュースコアを向上させることができましたが、reject でした(後述)。
Author response、完。今回は短期間ながら先生とかなりやり取りさせていただけたので学びが多かった
— しゅんけー (@shunk031) 2021年1月26日
KDD2021 論文投稿
KDD2019 から投稿し始め、毎年の恒例行事になりつつあります。
論文すげーいい感じになってきて嬉しい、このまま採択されて欲しい気持ちでいっぱいに
— しゅんけー (@shunk031) 2021年2月5日
submitted😤
— しゅんけー (@shunk031) 2021年2月9日
IEEE Access 論文投稿
好きな人(論文ちゃん)を英文校正さんにお願いした
— しゅんけー (@shunk031) 2021年2月19日
ジャーナル submitted 😤
— しゅんけー (@shunk031) 2021年2月23日
学振 DC2 補欠採用
今年一番の嬉しいイベントだったような気がします。
> 貴殿の申請は、独立行政法人日本学術振興会特別研究員等審査会における選考の結果、補欠となっていましたが、このたび採用内定となりました。
— しゅんけー (@shunk031) 2021年2月24日
採用補欠となっていた 学振 DC2 に内定していただきました。「摂動に頑健で解釈可能な深層学習モデルの開発とその解釈性の評価」という課題に取り組みます。弊学ではあまりDCに採用される事例が少なかったため諦めていましたが、これまでやってきたことを評価していただけたようで非常に嬉しいです。
— しゅんけー (@shunk031) 2021年2月24日
学振 DC2 申請書 公開
補欠で採用されるようなギリギリボーダーな人の申請書って実は貴重なのでは?ということで、公開しました。
今回採用に至った学振申請書を公開しました。周辺に相談できる方が少なかったので、自身の申請書を公開することで同じような境遇の方の力になれば幸いです。
— しゅんけー (@shunk031) 2021年2月28日
日本学術振興会特別研究員 (DC2) 申請書・学振 | Shunsuke Kitada https://t.co/iOqHPzUmkA https://t.co/CV6HrJjv4G
申請書を執筆する上でよく見ていた科研費.com さまにも掲載していただきました。
そして非常にお世話になった科研費.comさまにも掲載していただきました。拙い申請書ですが、なにかの助けになれば幸いです。 https://t.co/Wh0BEQ6phf
— しゅんけー (@shunk031) 2021年2月28日
これはいわゆる学振焼肉です。
これが噂の学振焼肉か…? with 申請書をめっちゃレビューしてくれた後輩たち (@ 肉匠さかい 武蔵野桜堤店 in 武蔵野市) https://t.co/6HM3aGuGtl pic.twitter.com/iRTB9YlCp7
— しゅんけー (@shunk031) 2021年3月24日
3 月
人工知能学会全国大会 論文投稿
直近はずっとやってきていたトピックで完成度高めの原稿をいじりまわしていたが、JSAIに出す研究は最近はじめた萌芽感あるやつで、少しビビりながら原稿を書いている。今年はこいつを洗練させていけると良いなぁ。
— しゅんけー (@shunk031) 2021年2月26日
JSAI submitted 😤
— しゅんけー (@shunk031) 2021年3月2日
学振 DC2 採用の話が大学広報にて掲載
法政大学の広報さん @hosei_pr から記事が出ました。弊学のDC2内定は非常に珍しいケースらしく今回このような形で取り上げていただけたようです。 / 理工学研究科の北田俊輔氏が日本学術振興会特別研究員(DC2)に内定 :: 法政大学 小金井キャンパス https://t.co/JV4WHLunaD
— しゅんけー (@shunk031) 2021年3月5日
NAACL2021 結果通知
不採択通知をいただきました。
We are sorry to inform you that the following submission was not selected by the program committee to appear at NAACL-HLT 2021: XXX The selection process was very competitive and unfortunately there were many quality papers that we could not accept. We considered a range of factors including the reviewers' assessment and scores, reviewer discussions, and careful assessment by the area chairs and senior area chairs.
> We are sorry to inform you that the following submission was not selected by the program committee to appear at NAACL-HLT 2021
— しゅんけー (@shunk031) 2021年3月11日
Rebuttalでボーダー付近のレビュースコアを少し上げられたので、良き収穫になったと捉えて次も頑張りたい
— しゅんけー (@shunk031) 2021年3月11日
言語処理学会 2021 発表
#NLP2021 3/17 (水) のP6-14 (15:20〜) にて「半教師あり文書分類のための仮想敵対的学習による注意機構の頑健性および解釈性の向上」を発表します。注意は摂動に弱く説明性を与えないという強めの主張の論文に対して、素直にVATを注意に適用すると頑健性と解釈性双方が向上することを確認した話です。
— しゅんけー (@shunk031) 2021年3月16日
#NLP2021 3/18 (木) P9-14 (14:00〜) にて共著の発表「キャプション生成時低品質データ事前検知の試み」 w/ @ka_nd9 があります。実世界の運用を想定した画像キャプションにおいて、キャプション生成が難しい画像を予測する「キャプション生成を諦める君」について検討しました。よろしくお願いします
— しゅんけー (@shunk031) 2021年3月18日
カルタゴ大セミナー登壇
言語処理学会ポスター発表おわりました!たくさんの方に聴いてくださり、また議論していただきありがとうございました。これからチュニジア カルタゴ大のセミナーで発表します(めっちゃ訛っててやばいかも…がんばり豆大福!)
— しゅんけー (@shunk031) 2021年3月17日
I have FINALLY published the slides for the 1st Univ. Carthage - Hosei International Joint Webinar in Mar, 2021 😂 😂 😂 / Practical and Interpretable Deep Learning Techniques in Our Iyatomi’s Lab - Speaker Deck https://t.co/EMiepJ8Yje
— しゅんけー (@shunk031) 2021年7月1日
GoTo 箱根
最高の人生はここから始まります♨ (@ 箱根湯本駅 in 箱根町, 神奈川県) https://t.co/B6Ys0OfHI8
— しゅんけー (@shunk031) 2021年3月26日
IEEE Access 不採録通知
不採録通知をいただきました。
> ... Therefore, in order to uphold quality to XXXX standards, an article is rejected even if it requires minor edits.
— しゅんけー (@shunk031) 2021年3月29日
😥
4 月
2021年度もよろしくお願いします (@ 法政大学 彌冨研究室) https://t.co/gf5SjuLuDx
— しゅんけー (@shunk031) 2021年4月2日
学振 DC2 採用の話が学科広報にて掲載
応用情報工学科のHPにも掲載していただきました。ありがとうございます。引き続きがんばります / 北田俊輔さん(D2), 日本学術振興会特別研究員に | 法政大学 理工学部 応用情報工学科 https://t.co/YxtKN9q2zB
— しゅんけー (@shunk031) 2021年4月8日
AppBrew テックブログへ記事寄稿
AppBrewさんに声を掛けていただいて寄稿しました。機械学習x広告クリエイティブの最新の研究事例のほか、実際に広告プロダクトとして運用している中国のAlibabaやTencentの事例を取り上げました / “コスメプラットフォームLIPSと広告クリエイティブ: 最新の研究事例から見…” https://t.co/H02pX1APtv
— しゅんけー (@shunk031) 2021年4月28日
「機械学習技術によって実際のサービスの課題をどのように解決できるかを紐解く力」はこれから必要だと思っていたので、非常に嬉しいコメントで励みになりました。
— しゅんけー (@shunk031) 2021年4月29日
AppBrewさんとは非常にスムーズに連携できて、副業等々もしやすそうだなという印象でした! https://t.co/aSolTLK9XR
5 月
CyberAgent AI Lab 博士インターン開始
2ヶ月ほどお世話になります🙇 (@ Abema Towers in 渋谷区, 東京都) https://t.co/WH7akFmK8G pic.twitter.com/ufXwMIIHHk
— しゅんけー (@shunk031) 2021年5月6日
母の日に母親に iPhone 11 をプレゼントしたいい話
母の日に、母が欲しがっていた iPhone 11 のグリーンを送ってあげたらめちゃめちゃ喜んでくれたみたい。これまでは僕がアキバで 1000 円ぐらいで買った iPhone 5 を使っていて不便そうだったので(当たり前)、少し親孝行ができてよかった
— しゅんけー (@shunk031) 2021年5月9日
令和 2 年度博士課程進学に伴う採用時返還免除内定者の決定
D1 のときに借りていた日本学生支援機構の第一種奨学金がこの時点で免除確定になりました。ありがとうございます。
KDD2021 結果通知
不採択通知をいただきました。
We regret to inform that your paper: Paper ID: XXX Paper title: YYY has not been accepted for presentation at SIGKDD 2021.
ACM系のトップカンファ、採択率余裕で20%切るから戦うのしんどいけど採択されたら世界中の企業に注目されるし、またあの舞台で発表したいという気持があるから投稿するのをやめられない😈😈😈
— しゅんけー (@shunk031) 2021年5月20日
IEEE Access 論文投稿
メンタルが強すぎるため we regret を受け取った日のうちに新しい論文を submit した。今度こそ頼むぞ〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
— しゅんけー (@shunk031) 2021年5月18日
新垣結衣、星野源と結婚
ママァーーーーーー😭😭😭😭😭 / 新垣結衣と星野源が結婚を発表(オリコン)#Yahooニュースhttps://t.co/a3sfoB8vr6
— しゅんけー (@shunk031) 2021年5月19日
CIKM2021 論文投稿
submitted 😤
— しゅんけー (@shunk031) 2021年5月27日
6 月
人工知能学会 2021 発表
今週から始まる #JSAI2021 で @YoshifumiSeki さんと取り組んでいる「広告クリエイティブ評価のための深層確率埋め込みの学習」を発表します。始めたばかりの研究なのでぜひ皆さんと議論させてください!https://t.co/pAmuTeqBjp
— しゅんけー (@shunk031) 2021年6月7日
#JSAI2021 広告 AI 懇親会面白いな、久しぶりに面白い飲み会に参加してる感ある
— しゅんけー (@shunk031) 2021年6月9日
今年も #JSAI2021 「広告とAI」slack盛り上がってる👀 オーガナイザーやチェアの方たちのテキストベースの議論や盛り上げが上手すぎる、心理的に質問もしやすい感じになっているので良い https://t.co/IbvBlG2ZsP
— しゅんけー (@shunk031) 2021年6月10日
IEEE Access 論文採録
採録通知をいただきました。
21-Jun-2021 Dear Mr. Kitada: Your manuscript entitled "Attention Meets Perturbations: Robust and Interpretable Attention with Adversarial Training" has been accepted for publication in IEEE Access. The comments of the reviewers who reviewed your manuscript are included at the foot of this letter. We ask that you make changes to your manuscript based on those comments, before uploading final files.
Our journal paper "Attention Meets Perturbations: Robust and Interpretable Attention with Adversarial Training" is accepted for publication in IEEE Access #IEEEAccess 🎉 The accepted version of the article and the #allennlp based code will be available soon. Stay tuned 🤗
— しゅんけー (@shunk031) 2021年6月22日
Our paper is published in @IEEEAccess and we uploaded the final version of the paper on @arxiv. The code is now publicly available on @github. We also prepared an introduction page of our work 😉:
— しゅんけー (@shunk031) 2021年7月7日
📄 https://t.co/oi8Sba5zWf
📝 https://t.co/hMAAR1qwCt
💻 https://t.co/uHJrP0R8Vf
You can find the introduction page: https://t.co/eYaDTakxIZ
— しゅんけー (@shunk031) 2021年7月7日
CyberAgent AI Lab 博士インターン最終出社
最終出社でした!!!お世話になりました!!
— しゅんけー (@shunk031) 2021年6月30日
7 月
CyberAgent AI Lab 協働研究員 開始
本日付けで CA AI Lab の協働研究員としてお世話になります。学振特別研究員として取り組んでいる基礎研究から得た知見を元に、実世界への応用研究として社会実装していきたいです。よろしくお願いします! https://t.co/j86LhqgL7k
— しゅんけー (@shunk031) 2021年7月1日
小倉唯 ライブ
久しぶりにオタク、やります (@ パシフィコ横浜 in Yokohama, Kanagawa) https://t.co/QzjcFU8jLv
— しゅんけー (@shunk031) 2021年7月4日
GoTo 軽井沢
対戦、よろしくお願いします (@ 軽井沢駅 in 軽井沢町, 長野県) https://t.co/kUwX5WxS6J
— しゅんけー (@shunk031) 2021年7月13日
軽井沢の草原と、オタク pic.twitter.com/JxpG6S33SP
— しゅんけー (@shunk031) 2021年7月16日
次のジャーナル投稿する手前で少し研究から離れてみたけど、気分転換ってありえないほど大事だなぁと思った次第。パソコンを持たずにフラ~~っとしたのが良かったかもしれないが、そのおかげで未読通知が溜まっている…🤣 pic.twitter.com/G12HRyH3oM
— しゅんけー (@shunk031) 2021年7月17日
8 月
NTT 人間情報研 インターン開始
8/16からお世話になっていた NTT人間情報研究所のインターンが終わりました! @kyoun さんにご指導していただいたおかげで、これまで取り組んだことがなかった分野を開拓できました。フルリモートだったのが残念でしたが、丁寧にサポートして頂き非常にやりやすかったです 🙌 https://t.co/mxAx6PibPW
— しゅんけー (@shunk031) 2021年9月10日
日当9000円になっておそらく初めてのインターン生でしたがちゃんと振り込まれてました(当たり前)
— しゅんけー (@shunk031) 2021年11月6日
CIKM2021 結果通知
不採択通知をいただきました。
Dear Shunsuke, Thank you for your submission to the CIKM 2021 Applied Research Track. Unfortunately, we did not accept your paper for presentation at the conference: XXX: YYY
YANS 2021 発表
yans2021 のラウンドテーブルで「twitter よく見てます」みたいな話になると途端にインターネットのオタクになってしまう
— しゅんけー (@shunk031) 2021年8月30日
9 月
IEEE Access 論文投稿
以下の論文に関する拡張についての論文を投稿しました。
AAAI2022 論文投稿
submitted 😤
— しゅんけー (@shunk031) 2021年9月9日
(実はインターン中にジャーナル論文1本、カンファレンス論文1本投稿しました。フルリモートで即切り替えて論文執筆したのでその点フルリモートは良かったです。きっかり就業時間が決まっていたのも切り替えやすかったですね。体力の限界が分かったのでもうやりませんが…🤣)
— しゅんけー (@shunk031) 2021年9月10日
IEEE Access 論文投稿
KDD2020 から投稿を続けているネタを IEEE Access へ投稿することに。
ようやく手元にあった原稿たちをすべて投稿し終えて久しぶりに何もない状態になったので、少し新しいところを勉強し始めた(とりあえず論文を50本ぐらい吸収したい)(できるか?)
— しゅんけー (@shunk031) 2021年9月19日
花粉症の舌下療法を開始
花粉症 の 舌下免疫療法 開始✌️
— しゅんけー (@shunk031) 2021年9月21日
今日から シダキュア 2000 から 5000 に pic.twitter.com/TRfFOGO8t7
— しゅんけー (@shunk031) 2021年9月28日
10 月
IEEE Access 不採録通知
再投稿が許されるタイプの major revision 相当の不採録通知でした。
06-Oct-2021 Dear Mr. Kitada: I am writing to you in regards to manuscript # Access-XXXX-YYYY entitled "ZZZZ" which you submitted to IEEE Access. Please note that IEEE Access has a binary peer review process. Therefore, in order to uphold quality to IEEE standards, an article is rejected even if it requires minor edits.
GoTo 金沢
人生 (@ 金沢城公園 in 金沢市, 石川県) https://t.co/rbFoKeaiDu pic.twitter.com/GWDf7tZccQ
— しゅんけー (@shunk031) 2021年10月18日
GoTo 白川郷
落ち込んだときはとりあえず白川郷に来るとどうでも良くなりそう pic.twitter.com/AYe9tHCqpf
— しゅんけー (@shunk031) 2021年10月19日
AAAI2022 結果通知
不採択通知をいただきました。
Dear Shunsuke KITADA, We regret to inform you that your AAAI-22 submission XXXX did not advance to the second phase of the 2-phase review process and hence has been rejected. There were over 8000 submissions to AAAI this year. In light of the fact that the acceptance rate for AAAI is typically around 25%, only about 56% of the papers advanced to Phase 2 of the review process based on the Phase 1 reviews. During Phase 1, each submission was initially assigned to 2 reviewers. Every effort was made, using the most uptodate information available to us, to avoid conflicts of interest throughout the entire review and decision process.
WWW2022 論文投稿
AAAI2022 不採択だった原稿を更新して The Web Conference (通称 WWW) へ投稿しました。
IEEE Access 不採録通知
再投稿もだめなパターンでした。他のジャーナルを探さないと。
Dear Mr. Kitada: I am writing to you in regards to manuscript # Access-XXXX-YYYY entitled "ZZZZ" which you submitted to IEEE Access. In view of the criticisms of the reviewer (s) found at the bottom of this letter, your manuscript has not been recommended for publication in IEEE Access. Unfortunately, we will not accept resubmissions of this article.
11 月
ジャーナル投稿に向けて準備
ツイートからは何もやっていなかったような雰囲気を感じるのですが、slack 等を見返すとジャーナル投稿に向けて原稿を準備していたようです。
GoTo 栃木足利
ゲーミングデスクトップバソコンみたいなのを見に来た💡 (@ あしかがフラワーパーク 東ゲート in 足利市, 栃木県) https://t.co/vxFauJahF8 pic.twitter.com/mmaR66YwAR
— しゅんけー (@shunk031) 2021年11月13日
12 月
論文全然通らないなぁ、みたいな気持ちになっています。
最近はもうずっとしんどくてずっとトンネルの中という感じ…。ケンキューって難しい
— しゅんけー (@shunk031) 2021年12月2日
WWW 2022 first decision の通知 & Rebuttal
AAAI 2022 では比較的ポジティブなコメントを貰っていたのですが、WWW 2022 のレビューでは厳し目のコメントが多かったです。
アドベントカレンダー 記事執筆
はてなブログに投稿しました #はてなブログ
— しゅんけー (@shunk031) 2021年12月8日
学振特別研究員が2021年に特別研究員奨励費で購入した物品のオススメを晒してみる - May the Neural Networks be with youhttps://t.co/r2sKDzOpKh
はてなブログに投稿しました #はてなブログ
— しゅんけー (@shunk031) 2021年12月22日
先生の「まずは論文の骨子を箇条書きで書いてみて」に対応する: 論文執筆の第一歩 - May the Neural Networks be with youhttps://t.co/L1J2Io4rpN
小倉唯ライブ
昼公演夜公演どちらも参加する疲れるようになってきました。年かな…?
小倉唯 昼公園☀ (@ 神奈川県民ホール1階席) https://t.co/qo1Myj06xd
— しゅんけー (@shunk031) 2021年12月11日
小倉唯 夜公演🌙 (@ 神奈川県民ホール1階席) https://t.co/lUFyW98bta
— しゅんけー (@shunk031) 2021年12月11日
関内二郎、いきたかった。
オタクのライブ前に関内二郎行ってニンニクマシマシをキメようとしたら、本日休業。
— しゅんけー (@shunk031) 2021年12月11日
IEEE Access 論文投稿
Major revision 相当だった原稿を再投稿しました。
ジャーナルへ revision を投稿して最高の2021年の仕事納めを実現しました(年末に論文を投稿するな💢)
— しゅんけー (@shunk031) 2021年12月28日
論文投稿
今年のカンファレンス・ジャーナルそれぞれの投稿結果をまとめます。
カンファレンス論文
NAACL2021
- レビュー結果
- [R] 2.5, 3, 3 -> (after rebuttal) -> 2.5, 3.5, 3.5
- お気持ち
- Rebuttal 前はボーダーラインだった reviewer #2 と #3 をポジティブな方向に持っていけたのは良かったです 一方で reviewer #1 のネガティブな気持ちをひっくり返すことはできませんでした
KDD2021
- レビュー結果
- [R] WA, SR, WR, WA
- お気持ち
- KDD2020 -> WSDM2021 と投稿してきて、WSDM2021 のレビュー結果 がそれなりに positive だったため、今年の KDD は通るかなぁと思っていたのですがだめでした。難しいですね
CIKM2021
- レビュー結果
- [R] R, WR
- お気持ち
- 上記 KDD2021 の再投稿だったのですが、深みにハマってしまったらしくどんどんレビュー内容が悪くなっていきました
- このままカンファレンスに投稿し続けるのは良くないと考え、指摘内容を更新した後にジャーナルに投稿することにしました
AAAI2022
- レビュー結果
- [R] BA, BA
- お気持ち
- CyberAgent AI Lab での成果を投稿しました。3 ヶ月で仕上げた内容でしたが比較的ポジティブなコメントが多かったです。
- 一方で採択へ後押しする決め手がなかったために Phase 1 で reject になってしまいました。
- こちらは現在 WWW へ再投稿しています。
ジャーナル論文
卒業要件として先生曰くジャーナル 3 本程度が必要だとおっしゃっていたので、個人的にはカンファレンスに投稿したかった気持ちを抑えてジャーナルに投稿していくことにしました。投稿先は査読が早いと噂の IEEE Access を選択し、手元にある原稿を投稿していく方針で進めました。 IEEE Access は binary decision *1 を採用しており、minor/major revision 相当であっても一旦 reject になり、再投稿が許されます。ある程度のボーダーを下回ると再投稿が許されない不採録の決定もあります。
IEEE Access (1)
- レビュー結果
- [R (major revision 相当)] R (updates required before resubmission), R (updates required before resubmission), A (minor edits)
- -> [A] Accept (minor edits), Accept (minor edits)
- お気持ち
IEEE Access (2)
- レビュー結果
- [R (major revision 相当)] R (updates required before resubmission), R (updates required before resubmission) i
- お気持ち
IEEE Access (3)
- レビュー結果
- [R] R (do not encourage resubmit), R (do not encourage resubmit)
- お気持ち
まとめ
- D2 が終わりました。折返し地点の気がしません。
- 論文はたくさん書けるようになってきましたが、クオリティの面はまだまだでした。
- D3 も頑張りたいです。シューカツをやらなくてはならない気がしています。企業で研究できそうなポジションがありましたらお声がけください。
- 少しずつお声がけ頂いております。ありがとうございます。
少しずつ裏ルートなシュウカツ宣伝が届くようになってきて、学生生活本当に終わりそうな雰囲気を感じる………………こんな楽しい毎日………終わるのか……?
— しゅんけー (@shunk031) 2021年12月20日
*1:Rapid Peer Review – IEEE Access https://ieeeaccess.ieee.org/about-ieee-access/rapid-peer-review/
*2:Attention Meets Perturbations: Robust and Interpretable Attention With Adversarial Training | IEEE Journals & Magazine | IEEE Xplore https://ieeexplore.ieee.org/document/9467291
*3:[2104.08763] Making Attention Mechanisms More Robust and Interpretable with Virtual Adversarial Training for Semi-Supervised Text Classification https://arxiv.org/abs/2104.08763
先生の「まずは論文の骨子を箇条書きで書いてみて」に対応する: 論文執筆の第一歩
こんにちは @shunk031 です。 年末年始は国内学会の締め切りが多く、研究室内で初めて論文を書く人たちが増えてくる時期です。 本記事はそのような論文執筆が初めての弊研 (彌冨研究室) B4 や M1 に向けて書きましたが、一般的に論文の書き始めに通じるところがあると思います。
この記事は 法政大学 Advent Calendar 2021 22 日目の記事です。
弊研では恒例ですが、研究が進んできて結果がまとめられそうな段階になってくると 先生 に以下のようなことを言われます。
「まずは論文の骨子を箇条書きで書いてみて!」
本記事は「論文の骨子とはどのようなものか」「箇条書きで骨子を書く場合の注意点はなにか」に焦点を当てます。 この記事では言及できない、基礎的な(科学)論文執筆の技法が存在します。 それらを補うため、弊学科・弊研究科の学生の場合は 科学技術文技法 をまずは履修してください *1*2*3。
以下は目次です:
忙しい人向けまとめ
忙しい人向けに「論文の骨子を箇条書きで書いてみて」と言われたときにやる 3 つのことをまとめます:
- まず論文の大枠を箇条書きで
3 〜 4
個書きます- これらは トピックセンテンス と呼ばれます
- この大枠が非常に大事ですが、肩の力を抜いて気軽に適当に書きます
- それぞれのトピックセンテンスに、更に説明する文を
2 〜 3
個書きます- これらは サポートセンテンス と呼ばれます
- 各トピックセンテンス内ではそのトピックの話だけをするようにサポートセンテンスを書きます
- 最後にまとめになる文 1 個書きます
- これは 小結論センテンス と呼ばれています
- トピックセンテンスから小結論センテンスまでのまとまりは
パラグラフ
と呼ばれています
論文の骨子とはどのようなものか
先生から「論文の骨子」と言われたら、まずは「イントロの流れ」やそのアウトライン *4 のことについて言われていると考えてください。 以下はその「イントロの流れ」を一から作るためにはどうすればいいかを私個人が考えていることを書きます。
アカデミックライティングの基本:パラグラフライティング
パラグラフライティングとは、1つの話題について書かれたパラグラフを組み合わせて、論理を展開していく文章技法です *5。 パラグラフライティングのポイントは「各段落の先頭行だけを抜き出せば正しい要約ができあがるようにする」ことです *6。 この「 各段落の先頭行 」を「 トピックセンテンス 」といい、トピックセンテンスを集めたものが「 論文(イントロ)の骨子の元 」になりうると私は考えています。 この論文の骨子の元となるものに肉付けしていくことで、「 論文の骨子 」が完成します。
論文の骨子以外に先生から要求されるものとして、introduction で示した仮説や提案法の有効性をどのように示すかの「 実験の骨子 」があります。 これは現状出ている結果や主張したい話を評価できるような実験をいくつか考える必要があります。 この記事では実験の骨子の書き方については述べません。
実際の論文はどうか:実例でトピックセンテンスを確認
Tan et al, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks"*7 を例に取り上げます。 深層学習による画像認識分野の研究している方だとよく聞く論文だと思います。 良い論文はトピックセンテンスが骨子の元になります。 以下を読むだけで論文の全体がざっくりと理解できるはずです:
- Scaling up ConvNets is widely used to achieve better accuracy.
- In this paper, we want to study and rethink the process of scaling up ConvNets.
- Intuitively, the compound scaling method makes sense because if the input image is bigger, then the network needs more layers to increase the receptive field and more channels to capture more fine-grained patterns on the biggerimage.
- We demonstrate that our scaling method work well on existing MobileNets and ResNet.
自然言語処理分野で現在注目されている論文はどうでしょうか?Devlin et al, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"*8 は以下のようなトピックセンテンスが並びます。上から下へ流れるように話が進んでおり、ロジックが行ったり来たりしていません。上記で例に挙げた EfficientNet の論文同様に、トピックセンテンスを読むだけで論文の全体がざっくりと理解できます:
- Language model pre-training has been shown to be effective for improving many natural language processing task.
- There are two existing strategies for applying pre-trained language representations to down-stream tasks: feature-based and fine-tuning.
- We argue that current techniques restrict the power of the pre-trained representations, especially for the fine-tuning approaches.
- In this paper, we improve the fine-tuning based approaches by proposing BERT:Bidirectional Encoder Representations from Transformers.
先生から「論文の骨子を書いてみて」と言われたらビビらずに、まずトピックセンテンスとなりうるような文 (通常 3〜4 文) を考えましょう。 「論文」を書くとなると非常に大変そうですし、難しそうです。一方で、「3、4 文で研究説明できる良うにとりあえず書いてみてよ〜」と言われたらできそうです。やればできます*9 。
箇条書きで骨子を書く場合の注意点
トピックセンテンス となる文ができたら、それらに肉付けしていくことで、論文の骨子を作っていきます。
先生とは Microsoft Word でやり取りすることが多いので、Word でファイルを作成するか、Google Doc 等を作成して Word に export することを検討してください。
ここでファイル名は非常に重要です。 202X-YY-ZZ_山田太郎_論文骨子
のようなファイル名にしましょう。
先生は複数人とやり取りするため、誰の骨子かわかりやすくすべきです。
更にこのような丁寧な命名規則は自分で論文を書いていく中でも時系列順で編集履歴がわかりやすくなります。
箇条書きで トピックセンテンス となりうる文を書いたら、そのセンテンス郡をトップレベルの箇条書きにします。 トピックセンテンスをより細かく説明するサポートセンテンスは一つインデントを下げて書くようにします。 こうすることで、文の構造を明示的にわかりやすくする役目があると私は考えています。 上図の 緑色のハイライトされた文 はサポートセンテンスであり、 黄色でハイライトされた文 は 緑色でハイライトされた文 を更に説明する役目があると言えます。 サポートセンテンスでトピックセンテンスを適宜説明したら、最後に 小結論であるセンテンス を書いて締めます。 これらトピックセンテンス、サポートセンテンス、小結論センテンスのまとまりをパラグラフと言います。
骨子からイントロを組み立てる
ここまでくればほとんどイントロ( = introduction; 論文の導入部分)は完成です。 トピックセンテンスやサポートセンテンスに適宜文献を引用したり、主な実験結果の数値を載せたりします。 イントロの最後に研究の貢献を箇条書きでまとめることで、論文の主張したい部分を強調することができます。
イントロの流れ以外の骨子
箇条書きで骨子を書く際のトピックセンテンス 4 行からのそれぞれに対する 3 行ほどのサポートセンテンス・小結論センテンスという流れは、イントロ以外でも同じです。 例外はあると思いますが、この流れをまずは守ることが重要です。センテンス 1 つのパラグラフを書いてしまったときはおかしいかな?と感じるようになると良いです。
関連研究セクションでも トピックセンテンス -> サポートセンテンス -> 小結論センテンス のまとまり(パラグラフ)から構成されます。
自身の研究に関連する分野を 2〜3 個ピックアップしてタイトルを付け、複数のパラグラフを書いて自身の研究と関連する研究の差分や立ち位置がわかるように書けば、もうほとんど完成です *10。
Python での実装は得意だけど、論文はちょっと… な人向けのイメージ
論文は自然言語の集まりですが、プログラミング言語のような機械言語のようにみなすことができます。 以下は Python 風擬似コードで論文の構成をイメージしたものです。
論文もプログラミング言語同様 スコープ があります。 各パラグラフはそれぞれ関数とみなすことができ、その関数で最初に提起された話題(= トピックセンテンス)しか扱いません。 関数内から他の関数の話題には触れられません。例外としてその分野の共通知識や問題点等の話題は触れることができます。 これはこうした話がグローバルスコープ・空間にあると見なせるからです。 このような スコープ の意識を持っておくと、論文を執筆する際に、話題が行ったり来たりするのを防ぐことができるかもしれません。
まとめ
先生から まずは論文の骨子を箇条書きで書いてみて
と言われた弊研の学生に向けて、私が考える骨子の書き方を示しました。
まずは、研究の大きな流れを 3〜4 文で書き、それぞれの文により細かい説明文を 2〜3 文追加することで、「骨子」が完成すると考えています。
このような書き方はいわゆるパラグラフ・ライティングと呼ばれる方法になります。本記事で紹介した方法以外にもより良い書き方があると思うので、ぜひ私に教えて下さい。(そして一緒に論文を書きませんか?)
*1:弊学科以外でもアカデミック・ライティングの授業は必ずあるはずなので受講することをおすすめします。更に世の中にはアカデミック・ライティングについての書籍が複数あります
*2:アカデミック・ライティング書籍おすすめ (1); 洋書ですが非常に平易な英語で書かれており具体的で非常にわかりやすいです。/ Science Research Writing For Non-Native Speakers Of English Hilary Glasma... https://www.amazon.co.jp/dp/184816310X
*3:アカデミック・ライティング書籍おすすめ (2); 網羅的にアカデミック・ライティング全般を学べる本です。辞書的に持っておくことをおすすめします。 / ネイティブが教える 日本人研究者のための論文の書き方・アクセプト術 (KS 科学一般書) エイドリアン・ウォールワーク https://www.amazon.co.jp/dp/4065120446
*4:「骨子」のことを「アウトライン」として説明している良いページ。参考になります。/ レポートの構成とパラグラフ・ライティングを知る | 名古屋大学生のためのアカデミック・スキルズ・ガイド https://www.cshe.nagoya-u.ac.jp/asg/writing03.html
*5:パラグラフ・ライティングについて | https://ichinomiya-h.aichi-c.ed.jp/ssh/kyouzai/paragurahu.pdf
*6:パラグラフライティングの作法 - 書き手にもメリットのある文配置ルール - | Systems Android Robotics http://www.ams.eng.osaka-u.ac.jp/user/ishihara/?p=566
*7:[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks https://arxiv.org/abs/1905.11946
*8:[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805
*9:そしてようこそ論文執筆沼へ。締め切りまで走りきって、原稿提出したあとに「「最高」」 になりましょう。残念ながら僕はこの「最高」に取り憑かれているようです。
*10:関連研究のセクションって書くの難しいですよね。未だによくわかりません。
学振特別研究員が2021年に特別研究員奨励費で購入した物品のオススメを晒してみる
こんにちは @shunk031 です。ViT *1 が流行っていますね。パッチに分割して Deep でポン!がもう少し流行りそうです。個人的には ViT のほうが CNN よりもロバストな雰囲気を感じており *2、そのあたりの性質をうまく利用したモデルが作れたら楽しいかなと妄想しています。
この記事は 法政大学 Advent Calendar 2021 8 日目の記事です。
学振特別研究員と特別研究員奨励費
私は今年度から 学振特別研究員 DC2 (いわゆる学振 DC2)に採用していただきました *3。 弊学科からはおそらく初めての採用で、大学広報や学科のホームページにも取り上げていただいたりと、ちょっとしたお祭り騒ぎになっていました。
特別研究員の採用を経て、特別研究員奨励費 の申請を出すと、ある程度の研究費が科研費として交付されます *4。 どの程度の研究費が交付されているかについては KAKEN のページ等を確認するとわかります。 例えば私の場合、配分額は 1,500 千円のようです *5。
本記事は JSPS 科研費 21J14143 の助成を受けて購入した、特に研究に役立った物品を紹介します。 特別研究員奨励費は研究を始めたばかりの人間が研究費として自由に使える額としては比較的大きい方だと思います。 いざ交付していただくと具体的にどのように使っていくかを考えるのは非常に難しいです。 本稿が来年度以降に学振 DC に採用された方の助けになれば幸いです。
特別研究員奨励費で買ってよかったもの
以下は特別研究員奨励費で購入して特に研究に役立った物品を晒します。各物品に対する所感は以後の記事で紹介したいです。
書籍
- 辞書的に利用したいと思い購入しました。いつも新しい発見があります。
- 見た目とは異なり中身は非常に平易に深層学習について説明されていました。深層学習を学んだことがない人に自身の研究を説明するのに役立ちます。
- 論文のクオリティを上げたいと考えて購入しました。自身の書く英語は誤用が多かったです。。。
- 更にこちらも購入。
a
やthe
といった冠詞を中心にその使用例がわかりやすく解説されています。読んでいて新たな発見ばかりで面白いです。
- 機械学習モデルを何かしらのシステムに組み込んで、その効果を検証したいという気持ちに対して非常に平易かつ直感的に解説されていました。何回も読み返したい本です。研究でも正しく効果を検証していきたいですね。
- 私自身の研究内容が深層学習モデルの解釈に関するもので、興味があったので購入しました。ブラックボックスなモデルをうまく解釈する方法はやっぱり面白いです。
- 埋め込み表現まわりの話で最新のトピックまでカバーされていました。非常に読みやすく、きれいにまとまっています。
- 博士課程に入ってから書くことが多いため、「書く」ことに対して一般的な良い方法が知りたかったために購入しました。当たり前でもできていないことが多く、振り返って実践したい話が多数見つかりました。
電子機器
- 僕も iPad すなるものを購入してみました。主に論文を読む用です。パソコンから zotero + zotfile *6 で google drive に論文を追加しておいて、iPad からは Adobe Acrobat で開いてハイライトを入れたりメモを入力したりしています。僕は論文を読むときあまり書き込みをせずに重要そうな箇所のみハイライトするような運用でして、この構成で現在は落ち着いています。
- Stay Home で Macbook を持ち歩かなくてよくなったため購入しました。型落ちですがパワフルで論文を書く程度の作業では十分です。
おわりに
本記事は JSPS 科研費 21J14143 の助成を受けて購入した、特に研究に役立った物品の一部を紹介しました。 上記以外にも学術論文の英文校正費や掲載費にも特別研究奨励費を使用させていただいており、充実した研究生活を送っております。 来年度以降も頂いている研究費を最大限活かし、良い研究を実行できるよう努力していきます。
*1:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929
*2:[2111.05464] Are Transformers More Robust Than CNNs? https://arxiv.org/abs/2111.05464
*3:僭越ながら学振 DC2 の申請書を公開しております:日本学術振興会特別研究員 (DC2) 申請書・学振 | Shunsuke Kitada http://shunk031.me/post/dc2/
*4:学振特別研究員は研究奨励金 (月 20 万程度) と特別研究員奨励費 (毎年度 150 万円以内の研究費) が支給されます。> 申請資格・支給経費・採用期間 | 特別研究員|日本学術振興会 https://www.jsps.go.jp/j-pd/pd_oubo.html
*5:KAKEN — 研究課題をさがす | 摂動に頑健で解釈可能な深層学習モデルの開発とその解釈性の評価 (KAKENHI-PROJECT-21J14143) https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-21J14143/
*6:こちらを参考にしました / 文献情報と PDF ファイルをうまく管理する (zotero と zotfile)・大舘暁研究室 https://ohdachi.github.io/ohdachi_lab/researches/2018/02/02/zotero_zotfile.html
2020年の振り返り
こんにちは。@shunk031 です。クリスマスにニューラルネットワーク "力" をお願いしましたが、何も貰えませんでした。 サンタさんは Hinton 先生ではないみたいです。 毎年同じお願いをしている気がします。 2020 年をツイートベースで振り返ります。
各月の活動
1 月
年始は自分の今のマインドを簡単に確認すべく 16personalities をやりました。 16personalities は常に同じ結果を示すとは限らず、その時の自分のマインドが反映されると考えています。
久しぶりにやってみた
— しゅんけー (@shunk031) 2020年1月2日
===
「オウム型」(ENTP)タイプでした
👉決断力がある
👉割と新しいもの好き
👉少し論理的#性格診断 #16TEST #相性診断 #恋愛診断 https://t.co/9s6LakLw5Z
小倉唯ライブ
今後オフラインで密の空間でオタクができなくなるとはこのときには思いもしませんでした。
好きな人に会いに来ました(アイドルの話です) (@ 舞浜駅 - @jreast_official in 浦安市, 千葉県) https://t.co/9RFFNMfuMs
— しゅんけー (@shunk031) 2020年1月3日
言語処理学会全国大会 論文投稿
自分が筆頭の論文と後輩 x 2, 留学生x2 の共著として計 4 本論文を投稿しました。
去年の今頃並行して異分野論文3本書いてて目が回るほど忙しかったけど,今年は同分野ではあるが論文4本ほぼフルコミットで書いてて狂いを感じてる.でも後輩たち @tetsu316naga とか @blue83044303 とかと論文書けるのはとても楽しい.今年はひとりじゃないんだ感で孤独からくる辛さはほぼない
— しゅんけー (@shunk031) 2020年1月13日
狂ったように論文添削したり追記したりしてました。全部いい論文になったと思います
— しゅんけー (@shunk031) 2020年1月16日
日刊工業新聞 取材
初めて新聞の取材を受けました。
初めて新聞社さまにインタビューしていただきました🎉 / データマイニング研究、グノシーがインターン院生主力に | 日刊工業新聞 電子版 https://t.co/WLOTQtEbGs
— しゅんけー (@shunk031) 2020年1月29日
こっちだと全文見れるみたいです / グノシー、「研究開発担当の主力に大学院生」で得た効果|ニュースイッチ by 日刊工業新聞社 https://t.co/G8pQnX4Lah
— しゅんけー (@shunk031) 2020年1月30日
2 月
幼馴染な新婚夫妻と旅行
なぜ...? でも楽しかったです。
最高の論文執筆体制が整った(なお幼なじみ夫婦と知らないお姉さんと来ている制約条件有…) (@ 伊香保温泉 in 渋川市, 群馬県) https://t.co/ZHRZiYGsT3
— しゅんけー (@shunk031) 2020年2月8日
KDD2020 論文投稿
関さんと狂ったように論文修正して、そのあと後輩と狂ったように論文修正して、もう使える脳みそが残ってない……がんばれ〜〜🧠🤯
— しゅんけー (@shunk031) 2020年2月11日
submitted(そして次の研究がはじまるのです!)
— しゅんけー (@shunk031) 2020年2月14日
フルリモート勤務機運
リモートワークにします(流石にデンシャもう乗らないほうが良さそうだと判断)(できるのかな…?)
— しゅんけー (@shunk031) 2020年2月14日
法政大 博士課程 入学試験・合格通知
学内の推薦を使って秋季の博士課程入学試験を受けました *1。 推薦のおかげで面接のみで、いつもお世話になっていた先生方の前で 15 分ほど自分のこれまでやってきた研究と今後について話しました。 先生方に非常にウケがよく(すくなくとも自分はそう感じ、とてもやりやすかったです)、ほどなくして合格をいただきました。
修論 執筆・発表
submitted(そして次の研究がはじまるのです!) pic.twitter.com/BVjpr1zCaz
— しゅんけー (@shunk031) 2020年2月19日
修論を書きながら2年間思い出してるんですが、かな〜り楽しく冒険できた2年間だったなという気持ちが溢れているし、あんまり自覚はできてはないけどソフトスキルが向上してそうな気持ちもある
— しゅんけー (@shunk031) 2020年2月18日
次のデカいステップはやっぱり海外進出かなぁという感じがしているので、チャンスを掴めるように地道に努力していきたい
— しゅんけー (@shunk031) 2020年2月18日
修論審査会、対戦よろしくお願いします😎 (@ 法政大学 西館 (小金井キャンパス) in 小金井市, 東京都) https://t.co/9MLkXVWehN
— しゅんけー (@shunk031) 2020年2月20日
3 月
来週日本語英語あわせて3本論文投稿予定です(まじか)
— しゅんけー (@shunk031) 2020年2月24日
人工知能学会全国大会 論文投稿
JSAI、2件主著で申し込みました。初めてのJSAIオフ会楽しみです!
— しゅんけー (@shunk031) 2020年1月22日
ACL2020 SRW 論文投稿
2本投稿完了.お疲れさまでした.
— しゅんけー (@shunk031) 2020年3月7日
情報処理学会 2020 参加
#IPSJ #IPJS2020 にて,弊研から学生奨励賞3件を受賞しました :tada:
— しゅんけー (@shunk031) 2020年3月7日
- 塩田ら, 茎部に発生する植物病害自動診断装置の提案
- 菅野ら, 2段階の画像生成を活用した偏りのあるデータセットに対する実践的なdata augmentation
- 生田ら, Patch-wise 学習を用いた少量データによる脳 MRI 画像の超解像
言語処理学会 2020 発表
言語処理学会全国大会 #NLP2020 3/19 10:35からのセッションで「P5-29: 解釈可能な敵対的摂動を用いた頑健な注意機構の学習」の発表を行います。Attentionってnot explanationなんでしょ?という煽りに全力で殴りに行く研究です😤よろしくお願いします!
— しゅんけー (@shunk031) 2020年2月10日
また #NLP2020 では共著で以下3件の発表があります:
— しゅんけー (@shunk031) 2020年2月10日
- P1-14: Script-aware embedding を用いた文字表現の獲得 w/ @tetsu316naga
- P2-33: Image-based Character Embedding for Arabic Document Classification
- P5-29: 文字単位の解釈可能な潜在表現のdata augmentation w/ @blue83044303
#NLP2020 初日に誕生日の @tetsu316naga の発表は17日11:00からのP1-14で行います.日本語の文字体系を考慮した学習が可能なScript-aware embeddingを新たに提案し,文書分類タスクにて評価しています.学習させた埋め込みが面白い性質を持っているので,ぜひポスターで議論できればと思います. https://t.co/gLylkwCIds
— しゅんけー (@shunk031) 2020年3月15日
3/17 13:15からP2-33で「アラビア語に対する文字画像単位テキスト分類」の共著発表があります.日本語と同様に文字形状に特徴があり,なおかつとても複雑な言語であるアラビア語に対して,新たに2つのアラビア語データセットを構築して提案モデルの評価を行いました. #NLP2020
— しゅんけー (@shunk031) 2020年3月17日
3/18 10:35からP3-35で「青木ら,文字単位の解釈可能な文字表現data augmentation」の共著発表があります.一般的に難しいNLPにおけるデータ拡張について,解釈がしやすい手法を提案しました.評価実験では従来手法と同等以上の汎化性能向上を確認しました.ぜひポスター見に来てください #NLP2020
— しゅんけー (@shunk031) 2020年3月18日
嬉しいコメントいただけていた!励みになりますmm pic.twitter.com/iwrgZi5mDI
— しゅんけー (@shunk031) 2020年3月30日
学位授与式
やった〜〜〜Master of Science in Engineeringをゲットした✌️✌️ pic.twitter.com/YBCbZBgPRC
— しゅんけー (@shunk031) 2020年3月24日
春休みの進捗まとめてたら国内外合わせて9本程度論文を書いてたっぽくて、そりゃ長期休みと言っても無限に忙しかったのはそういうことだなという感じ。。。もっと書けるように頑張ろう
— しゅんけー (@shunk031) 2020年5月6日
4 月
個人ページ新調
年度も変わったので思い切って個人ページをhugo-academicで新しくしてみました。GoベースのhugoはRubyベースのjekyllと比べてページのビルドが早いし開発も活発なので良い。GitHub ActionsでGitHub pagesにデプロイするようにしました / Shunsuke Kitada https://t.co/AxUMYBvier #MadeWithAcademic
— しゅんけー (@shunk031) 2020年4月1日
大学に入れなくなる
大学入れなくなったし実質無職でいいか?
— しゅんけー (@shunk031) 2020年4月7日
ACL2020 結果通知
不採択通知をいただきました。
We are sorry to inform you that the following submission was not selected by the program committee to appear at ACL 2020: XXXX. The selection process was very competitive. Our selection process was not based solely on the reviewers' assessment and scores, but also on discussions among reviewers, careful assessment by Area Chairs and Senior Area Chairs, and our goal to assemble a diverse, interesting and high-quality program. We have enclosed the reviewer comments for your perusal.
「お前の論文読みづらい〜!!ゴミ!w」みたいなレビューコメントを頂いてしょんぼりしたことが2^8回ぐらいあるので、(これは確かに読みづらく、レビュワーにも申し訳なかった。)これだけしっかりコメントいただけるのはstudent research workshopという名前だけあるなという感じ。
— しゅんけー (@shunk031) 2020年4月18日
ACL2020 SRW 結果通知
採択通知と不採択通知をいただきました。
採択通知:
On behalf of the ACL SRW 2020 Program Committee, we are delighted to inform you that the following submission has been accepted to appear at the workshop: XXXX. The Program Committee worked very hard to thoroughly review all the submitted papers. The reviews are attached below. Please follow the suggestions included in the reviews when you revise your paper.
不採択通知:
I am sorry to inform you that the following submission was not selected by the program committee to appear at ACL SRW 2020: XXXX. The selection process was very competitive. Due to time and space limitations, we could only choose a small number of the submitted papers to appear on the program.
このときに採択された論文とその概要です。
Happy to announce that our paper "AraDIC: Arabic Document Classification Using Image-Based Character Embeddings and Class-Balanced Loss" has been accepted at #acl2020nlp Student Research Workshop (SRW) 😉. Special congrats to my co-author🎉
— しゅんけー (@shunk031) 2020年4月18日
#acl2020nlp にて共著の論文が採択されました。アラビア語の特徴的な文字形状に着目した文書分類手法の提案と、新たに2つの大規模アラビア語データセットを提案、評価に利用しました。まだまだ発展途上のアラビア語に対する自然言語処理に貢献できるような研究となっております。
— しゅんけー (@shunk031) 2020年4月18日
博士課程スタート
学生生活初めてのオンライン講義がスタートしました。
顔が一番好きな人に「え〜〜まだ働かないの〜?」と詰められましたが残念ながらまだ働かないです(嘘ではなく…)
— しゅんけー (@shunk031) 2020年3月31日
5 月
研究室運動会 (canceled)
例年は 5 月に研究室所属メンバー全員で小金井公園にて運動会をやっていましたが、今年はキャンセルになりました。 http://iyatomi-lab.info/% E3%83%9F% E3%83%8B% E3%83%96% E3%83% AD% E3%82% B0/2019-5-22-0iyatomi-lab.info
小倉唯ライブ (canceled)
TACHIKAWA STAGE GARDEN 2 講演、ロームシアター京都 メインホール 2 講演、愛知一宮市民会館 1 講演に参戦予定でしたがキャンセルになりました。
KDD2020 結果通知
不採択通知をいただきました。
We are sorry to inform you that your submission, XXXX: YYYY, has not been accepted to KDD 2020.
このお言葉にいつも助けられる https://t.co/xvpdwU8CI1
— しゅんけー (@shunk031) 2020年5月16日
6 月
人工知能学会 2020 オンライン
おっ、 #JSAI2020 の広告xAIセッションの全アブストが公開されてる!6/9 (火) の午後2コマですね:
— しゅんけー (@shunk031) 2020年4月11日
(1) https://t.co/RCrwgPV2Dn
(2) https://t.co/qSiKD89JmA
僕は @YoshifumiSeki さんと一緒にやっている「生存時間分析を用いた広告クリエイティブの停止予測」という発表を行います! #JSAI2020 > 2020年度 人工知能学会全国大会(第34回)/生存時間分析を用いた広告クリエイティブの停止予測 https://t.co/9CSjiOCFNt
— しゅんけー (@shunk031) 2020年4月11日
同じセッションにて広告クリエイティブと機械学習について講演させていただく予定です! #JSAI2020 > 2020年度 人工知能学会全国大会(第34回)/(OS招待講演)広告クリエイティブと機械学習技術における現状と展望 https://t.co/BOtCjp8k6J
— しゅんけー (@shunk031) 2020年4月11日
小倉唯ライブ (canceled)
東京ガーデンシアター 1 講演に参戦予定でしたがキャンセルになりました。
AACL2020 論文投稿
論文を投稿しました。
submitted😤
— しゅんけー (@shunk031) 2020年6月27日
7 月
ACL2020 参加
オンラインでした。
ACL2020 in シアトルに行きたすぎたし、発表した過ぎちゃったという気持ちが溢れています
— しゅんけー (@shunk031) 2020年7月5日
ACL2020 SRW 発表
オンラインでポスター発表をしました。
Come see our #acl2020nlp SRW paper: https://t.co/PbjEyrve1r
— しゅんけー (@shunk031) 2020年7月7日
Daif and I will host Q&A session at Jul 7, 5AM-6AM (GMT) (2PM-3PM (JST)) and Jul 8 1PM-2PM (10PM-11PM (JST)), come and say hi or ask any question 😉
東京女子医大 訪問
指導教員の先生の指導教員の先生が python まわりで困っているとのことでお手伝いに行きました。 結局優秀な後輩ががんばってくれたので僕は特に何もせずに見ているのみでした。
今日のお仕事先です w/ @tetsu316naga & 先生 (@ 東京女子医科大学 東医療センター in 荒川区, 東京都) https://t.co/TetOvCFXs0
— しゅんけー (@shunk031) 2020年7月30日
オンライン研究室紹介 撮影
「高校生にたのしい研究室のこと1分ぐらいで話してください」って言われてスライド用意したけど、めちゃめちゃ楽しそうでやばい。何かしら動画的なものが公開されたときに是非見ていただきたい…
— しゅんけー (@shunk031) 2020年7月25日
そして公開された研究室紹介はこちら。
法政大学 理系3学部合同 WEBオープンキャンパス | https://t.co/jx5o392o5d
— しゅんけー (@shunk031) 2020年8月22日
学科代表として弊研究室の紹介動画が公開されています。これを見てくれた高校生が楽しそうと思ってくれれば嬉しいです:
彌冨仁先生「私たちの生活に貢献する新しい人工知能技術」 - YouTube https://t.co/NgRkfHAhFY
8 月
論文投稿→勉強会発表→金沢旅行を 10 時間以内にやる過密スケジュールがありました。
計画性皆無人間になってしまったので論文投稿して10分後に論文読み会で登壇します(大丈夫か???)
— しゅんけー (@shunk031) 2020年8月16日
WSDM2021 論文投稿
投稿しました。
ACL2020 オンライン LT 会
発表しました。
GoTo 金沢
1 週間ほど金沢にいました。
情報処理学会(金沢開催予定だったやつ) (@ 北陸新幹線 金沢駅 in 金沢市, 石川県) https://t.co/tskFqvLIT2
— しゅんけー (@shunk031) 2020年8月18日
論文投稿後の能登牛は美味い!!!! (@ 牛や 榮太郎 片町本店 in 金沢市, 石川県) https://t.co/2SdOwRG9Md pic.twitter.com/rw09f7pXZP
— しゅんけー (@shunk031) 2020年8月18日
最高の人生 (@ 小舞子海水浴場 in 白山市, 石川県) https://t.co/nGUlOTylHR pic.twitter.com/KC2Q2EHFUw
— しゅんけー (@shunk031) 2020年8月19日
のどぐろに金粉が乗った米、美味い!!!! (@ SHIROKU) https://t.co/3F1UjgBFkd pic.twitter.com/uDw4GosapQ
— しゅんけー (@shunk031) 2020年8月19日
9 月
ACL2020 オンライン読み会
発表しました。
AACL2020 結果通知
不採択通知をいただきました。
We are sorry to inform you that the following submission was not selected by the program committee of AACL-IJCNLP 2020: XXXX. The selection process was very competitive. Our selection process was not based solely on the reviewers' assessment and scores, but also on discussions among reviewers, careful assessment by Area Chairs, and our goal to assemble a diverse, interesting and high-quality program.
AACL2020 SRW 論文投稿
AACL2020 の論文を元に SRW へ投稿をしました。
IEEE/ACM TASLP 論文投稿
投稿しました。
10 月
GTC Japan TA
本日 NVIDIA Deep Learning Institute #NVDLI にてリモートワークショップのTAを務めさせていただきます。宜しくお願いします! https://t.co/pbAGJB6Q7O
— しゅんけー (@shunk031) 2020年10月6日
NVIDIAの中の人に「一生学生でいてくれ〜〜〜」と言われて、わかる〜〜〜😂😂😂ってなった1日だった
— しゅんけー (@shunk031) 2020年10月7日
WSDM2021 結果通知
不採択通知をいただきました。
Thank you for submitting your work to WSDM 2021. We regret to inform you that your submission below was not selected for the WSDM 2021 conference: XXXX. This year we received 603 submissions. We were able to accept only 112 of these, representing an acceptance rate of 18.6%. Due to the limited number of available slots in the conference schedule, we unfortunately had to make very difficult decisions and decline many submissions. The program committee worked very hard to thoroughly review all the submitted papers, and to provide suggestions to improve your paper. All papers were reviewed by at least three program committee members, and by at least one senior PC member to oversee discussion amongst the reviewers and provide an overall recommendation for the paper. Please find the reviews for your paper below. We hope these will be useful to revise your work for future submissions.
AACL2020 SRW 結果通知
採択通知でした。
On behalf of the AACL-IJCNLP 2020 SRW Program Committee, we are delighted to inform you that the following submission has been accepted to appear at the workshop: XXXX. The Program Committee worked very hard to thoroughly review all the submitted papers. Please repay their efforts by following their suggestions when you revise your paper.
このときに採択された論文とその概要です。
Happy to announce that our paper "Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation" has been accepted at #aacl2020 Student Research Workshop (SRW). Special congrats to my co-author, @blue83044303 🎉 pic.twitter.com/bYV04CiNwp
— しゅんけー (@shunk031) 2020年10月24日
11 月
GoTo 京都
1 週間ほど京都にいました。
論文締め切り1週間前なので京都に行きます。対戦よろしくお願いします
— しゅんけー (@shunk031) 2020年11月16日
後輩が京都に来ているのでノリで来た(フッ軽博士) (@ 京都駅 in 京都市, 京都府 w/ @hitoshu_iyatomy) https://t.co/ztVenOCJot
— しゅんけー (@shunk031) 2020年11月16日
https://twitter.com/shunk031/status/1328555581293162497
NAACL2020 論文投稿
投稿しました。
12 月
AACL2020 SRW 発表
オンラインでポスター発表をしました。
Our #AACL2020 SRW paper "Text Classification through Glyph-aware Disentangled Character Embedding and Semantic Sub-character Augmentation" will be presented in the SRW session on Monday, 7th Dec 10:00-11:00 (CST), 11:00-12:00 (JST). Please come by live session to have a chat 😺 https://t.co/Utq0Gqm9zV
— しゅんけー (@shunk031) 2020年12月4日
IEEE/ACM TASLP 結果通知
不採択通知をいただきました。
I am writing to you concerning the above referenced manuscript, which you submitted to the IEEE Transactions on Audio, Speech and Language Processing. Based on the enclosed set of reviews, I regret to inform you that your manuscript has been rejected for publication.
論文投稿
今年は初めて後輩の共著に入って論文を投稿しました。 また主戦場をトップカンファレンスに移しつつ、初めてジャーナルへ論文を投稿しました。 目標として「まず打席に立つ」を意識しつつ、論文の書き方を模索した一年でした。
ACL2020
- レビュー結果
- [R] 1, 2.5, 2
- お気持ち
- 初めての NLP 系トップカンファレンスへの投稿でした
- かなり厳しいコメントがいくつかあってでぴえんでした
ACL2020 SRW
- レビュー結果
- [A] 4, 4, 3.5
- [R] 2.5, 3.5
- お気持ち
- 初めての SRW 投稿。それぞれ後輩と留学生とともに書きました
- 非常に丁寧なコメントとメンタリングで驚きました
- R の方もコメントはポジティブだったため、AACL の short へ投稿することに
AACL2020
- レビュー結果
- [R] 2, 3, 2.5
- お気持ち
- AACL は第 1 回目の開催であるし、アジアの言語に特化した話だったのでイケるのではと思っていました
- 結果を受け止め AACL2020 SRW へ投稿することに
AACL2020 SRW
- レビュー結果
- [A] 3.8, 2.6, 4.2
- お気持ち
- 全体的にポジティブなコメントが多く報われました
NAACL2021
- Under review
KDD2020
- レビュー結果
- [R] R, R, WA
- お気持ち
- 核心をつくレビューを頂き、それをベースに修正して WSDM 2021 へ投稿することに
WSDM2021
- レビュー結果
- [R] WA, WA, R, A
- お気持ち
- 全体的にかなり良い評価だったが 1 人のレビュアに引っ張られた形に
- 諦めがつかないのでアップデートを準備し、 KDD 2021 へ投稿することに
IEEE/ACM TASLP
- レビュー結果
- [R] R, MR, R
- お気持ち
- Transformer/BERT と比べてほしいらしいです
番外編
買ってよかったもの
読んだ本・読んでいる本

- 作者:一般社団法人日本インタラクティブ広告協会(JIAA)
- 発売日: 2019/10/10
- メディア: Kindle版

Science Research Writing For Non-Native Speakers Of English
- 作者:Glasman-Deal, Hilary
- 発売日: 2009/12/18
- メディア: ペーパーバック

ネイティブが教える 日本人研究者のための論文の書き方・アクセプト術 (KS科学一般書)
- 作者:エイドリアン・ウォールワーク
- 発売日: 2019/12/21
- メディア: 単行本

つくりながら学ぶ! Pythonによる因果分析 ~因果推論・因果探索の実践入門 (Compass Data Science)
- 作者:小川雄太郎
- 発売日: 2020/06/30
- メディア: 単行本(ソフトカバー)
まとめ
- たくさん失敗する中で、成功したときの嬉しさがあった
- 楽しく研究をやって、論文をたくさん書いていく
- いろいろな方たちと関わって、様々なことを学んでいく
*1:春季にはまだ博士課程進学を迷っていました。ここらへんの心境の変化はどこかでなにか書ければよいかなと。
最新の深層学習技術による古典くずし字認識の現状と今後の展望
こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。
この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。
今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。
くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが Kaggle にて「くずし字認識コンペティション」を主催したのは記憶に新しいです。
私はこれまで日本語や中国語の特徴的な文字の形状を考慮した自然言語処理の研究に取り組んできました *2*3。 これらの研究は深層学習モデルである convolutional neural network (CNN)*4 を元にしており、文字を文字画像に変換し文字形状を保持するような訓練を行い予測に利用するモデルを構築しています。 こうした枠組みはくずし字認識においても一定の効果が見込めそうな一方で、現状のくずし字認識タスクで高いパフォーマンスを題しているモデルや予測の枠組みを把握しておりませんでした。
本記事では、まず日本古典籍における「くずし字認識」タスクの現状について述べます 次に Kaggle で開催されたコンペティションの上位解法をまとめます。 これらのまとめから得られた現状について、既存の手法でどの程度認識可能であるか、また研究としてどのような点で貢献可能かの展望について個人的に考えた考察を含め議論・検討します。
- くずし字認識 と 深層学習
- Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture
- 上位解法
- 上位解法を踏まえた研究貢献可能点について
- おわりに
くずし字認識 と 深層学習
深層学習モデルで くずし字
を認識しようと考えたときに一番初めに必要になってくるものはモデルの学習用のデータです。
ROIS-DS 人文学オープンデータ共同利用センター (CODH)*5 では、デジタル化された古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データ
である 日本古典籍くずし字データセット
を提供しています *6。
日本古典籍データセットで公開されるデジタル化された古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データとして提供します。
2019 年 11 月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍 44 点の画像データ 6,151 コマから切り取った、くずし字 4,328 文字種の字形データ 1,086,326 文字です。
CODH では日本古典籍くずし字データセットを用いた AI くずし字 OCR サービスとして「KuroNet くずし字認識サービス」を公開しています *7。
この AI くずし字 OCR サービスのコア技術として、KuroNet
と呼ばれる深層学習をもとにしたくずし字認識の枠組みが使われているようです。次にこの技術の概要について述べます。
KuroNet
KuroNet *8*9 は、U-Net ベースのアーキテクチャである FusionNet *10 を使用して、文字のレイアウトが標準化されていない古典籍のページ画像からくずし字群を認識する深層学習モデルです。 このモデルは前処理を必要とせず、ページ内から得られる広い範囲のコンテキスト情報や大規模な語彙の獲得、標準化されていない文字レイアウトを適切に処理することが可能となっています。
前述のとおりモデルは U-Net をベースにしており、入力としてシンプルに 640x640 にリサイズした古典籍画像を使用しています。 特筆すべき点は mixup を画像のみミックスさせてラベルはミックスさせないで使用している点です。 この設定は文献 *11 と同様の設定のように見えます。
これらの取り組みの初期段階は NeurIPS'18 のワークショップに採択されており *12、非常に注目されておりました。 特に、KuroNet を始めとしたくずし字認識に取り組まれている CODH の @tkasasagi 氏と Google の @hardmaru 氏らがチームを組んで研究しているのは珍しく、個人的にも注目しておりました。
こうしたくずし字認識の取り組みを加速させるために、@tkasasagi 氏ら中心となり Kaggle でくずし字認識のコンペティションを開催しておりました。 くずし字認識タスクの現状の upper bound や使われている手法を調査する上で、上位解法の概要を知ることは重要です。 次のセクションにて、このコンペティションの上位解法について調査した結果を述べます。
Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture
Kuzushiji Recognition - Opening the door to a thousand years of Japanese culture は機械学習コンペティションをホストする Kaggle にて 2019 年 7 月から 10 月に開催されたコンペティションです。 ROIS-DS 人文学オープンデータ共同利用センター をはじめ、大学共同利用機関法人 人間文化研究機構 国文学研究資料館 や 大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 がホストしています。
本コンペティションの目的と評価の概要は以下のとおりです:
- 目的
- 文書画像からくずし字の位置を検出し、くずし字の種類を分類する
- 評価
- 与えられたデータからくずし字が書かれた文書画像 (3881 枚)、くずし字の位置を示すバウンディングボックス、字の種類を認識し、その精度を競う
このセクションでは、まず上位解法で採用されているモデルや手法について全体的な傾向を示し、その後それぞれの手法の概要について述べます。
全体的な傾向
入力画像の文字の位置 (中心座標) および文字種を認識するタスクであるため、コンピュータビジョン分野で発展してきた深層学習モデルが中心に使用されていました。 コンペティションにおいて、文字の検出 (detection) と文字の認識 (classification) を同時に行う手法もあれば、個別に行う手法がありました。 以下は使用されている手法群です。
Data augmentation
Model architecture
- Detection
- Classification
- Others
上位解法
このセクションではくずし字認識コンペティションにおける上位解法の概要について述べます。 解法に関しては、discussion にて公開されている情報や公開されているコードから読み取れる情報をもとに、以下の形式でまとめます:
- Preprocess
- 前処理について記述
- Data split
- 学習用データをどのように分割してモデルの学習に利用したかについて記述
- Model architecture
- モデルのアーキテクチャについて記述
- モデルが single-stage /multi-stage かどうか
- data augmentation の有無やその種類
- pseudo labeling の有無や適用方法
- モデルアンサンブルの有無や適用方法
- モデルのアーキテクチャについて記述
- Discorded ideas / Future work
- 試してみたがあまり効果がなかった方法
- 今後試してみたい方法
なお、学習用データの分割には book title
を元にした分割が多く見受けられました。
これは古典籍 (ここでいう book) ごとに特徴があり、そうした特徴が評価時に leak しないようにするためです。
1st place solution
Preprocess
- 学習時
- 1024x1024 になるようにクロップ & リサイズ
- 推論時
- 最大のサイズを設定して、そのサイズで推論
Data split
- book-level group split
- validation: book_title = umgy, train: others
Model architecture
Single-stage なアーキテクチャを使用。
- Cascade R-CNN
- HRNet w32 (LB: 0.935)
- train scales: 512 ~ 768
- test scales: 0.5, 0.625, 0.75
- HRNet w48 (LB: 0.946)
- train scales: 768 ~ 1280
- test scales: 0.75, 0.875, 1.0, 1.125, 1.25
- HRNet w32 (LB: 0.935)
- Ensemble
- HRNet w32 & HRNet w48 (LB: 0.950)
Discorded ideas / Future work
- N/A
2nd place solution
- Topic: 2nd place solution overview: detection + full-page classification - Kuzushiji Recognition | Kaggle
- Code: lopuhin/kaggle-kuzushiji-2019
Preprocess
- Detection phase
- 学習時
- ページの高さが 1500px になるようにリサイズし、512x384 にクロップして学習
- 推論時
- ページ全体を使って推論
- 学習時
- Classification phase
- 2500 ~ 3000px の高さの画像から 512x768 をクロップして学習
Data split
- book title-based group 5 fold cross validation
Model architecture
Multi-stage (First level model -> Second level model) なアーキテクチャを使用。
- First level model
- Detection
- Classification
- Second level model
First level model
- Detection phase
- Faster R-CNN
- 文字のクラスは当てない
- ground truth と重なりが少ない bbox に対して、追加のクラス
seg_fp
(segmentation false positive) を定義してセグメンテーションモデルの誤りを修正するようにした - ResNet152 をバックボーンに使用
- torchvision を使用
- data augmentation
- albumentations を使用
- scale, minor color augmentations (hue/saturation/value)
- albumentations を使用
- Faster R-CNN
- Classification phase
resnetxt101_32x8d_wsl
(LB: 0.935 (0.925 - 0.930))- ImageNet よりも大きいデータセットを用いて弱教師あり学習で学習
- ハイパーパラメータに非常に敏感であった
- gradient accumulation では敏感さを吸収しきれなかった
- GTX 2080Ti で
resnext101_32x8d_wsl
を訓練するために- 最初の畳込み層・layer1 全体を freeze
- mmdetection でも使われている
- mixed precision training
- 最初の畳込み層・layer1 全体を freeze
- SGD より Adam が良かった
- data augmentation
- albumentations を使用
- hue/saturation/value, random brightness, contrast, gamma
- albumentations を使用
- Test time augmentation (TTA)
- 4 different scales
resnext101_32x8d_wsl
&resnet152
(LB: 0.941)
- Pseudo labeling
- Pseudo lalbeling まわりの実装
Second level model
First-level model において cross valiadtion によってデータセット全てに対して得られた予測を用いて、 LightGBM
と XGBoost
をアンサンブルした second level model を訓練している。
- このモデルは 5k クラス分類問題であった cdiscount 画像分類チャレンジおける Pavel Ostyakov の解法にインスパイアされている
- Classification phase で得られた 4 種類のモデルそれぞれにおいて、予測クラスと上位 3 つの予測スコアを特徴量として入力。他の bbox との最大オーバーラップ量も追加している
- これらの予測クラスと
seg_fp
クラスを使って、これら予測の候補になりそうな候補クラスが予測すべき真のクラスかどうかを 2 値分類問題として学習した
- これらの予測クラスと
Discorded ideas / Future work
- 言語モデル
- 単純な bi-LSTM 言語モデルを学習させたが、画像ベースのモデルよりも loss が比較的大きくほとんど効果がないように思えた
- kNN /metric learning
- 予測モデルの最終層の特徴量を使って、推論時に訓練から最も類似している例を探すことが可能
- 推論時間が非常に長くなる一方で、若干の向上しか得られないために使用しなかった
3rd place solution
- Topic: 3rd place solution overview: 2-stage + FalsePositive Predictor - Kuzushiji Recognition | Kaggle
- Code: knjcode/kaggle-kuzushiji-recognition-2019
Preprocess
- 学習時・推論時
- https://www.kaggle.com/hanmingliu/denoising-ben-s-preprocessing-better-clarity
- Denoising:
cv2.fastNlMeansDenoisingColored
による denoising - Ben's preprocessing: subtract local mean color
- Denoising:
- https://www.kaggle.com/hanmingliu/denoising-ben-s-preprocessing-better-clarity
Data Split
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- train detection model with all train images
- validate with public leaderboard
- Classification
- book-level split
- validation: book_title=200015779 train: others
- validation: book_title=200003076 train: others
- book-level split
Model architecture
- Detection
- Faster R-CNN
- ResNet101 backbone
- Multi-scale train & test
- Data augmentation
- brightness, contrast, saturation, hue, random grayscale
- no vertical and horizontal flip
- Faster R-CNN
- Classification
- ensemble 5 classification models (hard voting)
- EfficientNet-B4
- Grayscale, 190x190, mixup + random erasing, valid book 200015779
- ResNet152
- Grayscale, 112x112, mixup + random erasing, valid book 200015779
- SE-ResNeXt101
- RGB, 112x112, mixup + random erasing, valid book 200015779
- SE-ResNeXt101
- RGB, 112x112, ICAP + random erasing, valid book 200003076
- ResNet152
- RGB, 112x112, ICAP + random erasing, valid book 200003076
- EfficientNet-B4
- Pseudo labeling
- ensemble 5 classification models (hard voting)
- Post processing
- FalsePositive Predictor
- validation の予測結果から誤検知するかどうかを予測する分類器を学習
- FalsePositive Predictor
Future work
4th place solution
- Topic: 4th place solution - Kuzushiji Recognition | Kaggle
- Code: linhuifj/kaggle-kuzushiji-recognition
Preprocess
- Detection phase
- 各文字に対して instance segmentation mask を作成
- ページ全体に対して、すべての文字の semantic segmentation mask を作成
Data split
- book-level group split
Model architecture
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- Hybrid Task Cascade (HTC) で文字を認識
- Connectuinust Text Proposal Network (CTPN) で各行のテキストを認識
- Classification
- Convolutional recurrent neural network (CRNN) で文字認識
- Kenlm による 6-gram 言語モデルを学習し、CTC の出力をデコードするために beam search を使用
- 各文字の位置は元の画像の各行の座標と CTC の出力を考慮して計算
- Data augmentation
- CLAHE, solarize, random brightness, random contrast, random scale random distort
- Ensemble
- 使用しなかった
Discorded ideas / Future work
- Classification
- CRNN における RNN (今回は LSTM を使用) の有無と multi-task learning について
- LSTM 層の有無
- LSTM 層のないモデルでは位置予測は正確だが文字認識精度は低くなる
- LSTM 層を加えると位置予測が不正確になる
- Multi-task learning の有効性
- 出力を制御するような attention を導入することで CRNN の位置予測精度が向上
- LSTM 層の有無
- Attention ベースのネットワークは CTC より精度が悪かった
- 精度は ResNet > VGG だった
- ResNeXt や SENet は性能が上がらなかった。
- CRNN における LSTM が 2 層以上になると精度が悪化した
- CRNN における RNN (今回は LSTM を使用) の有無と multi-task learning について
5th place solution
- Topic
- Code
Preprocess
- N/A
Data split
- 10 fold cross validation
Model architecture
Single-stage (Detection & Classification) なアーキテクチャを使用。
- CenterNet
- Hourglass network を ResNet50 or ResNet101 + FPN decoder へ変更
- loss を penalty-reduced pixel-wise logistic regression with focal loss by binary cross-entropy に変更
- head を無くした
- CenterNet は gaussian カーネルを用いるが、よりシンプルなカーネルを使用した
- ResNet101 に bag of tricks を適用した
- timm の
gluon_resnet101_v1d
を使用すると bag of tricks 適用モデルが使用できる
- timm の
- data augmentation
- shift scale rotate, random crop, clahe, gauss noise, gaussian blur, random brightness contrast, rgb shift, hue saturation
- Ensemble
- scale TTA
Discorded ideas / Future work
- multi-stage なアプローチ
- detection してから classification
- 解像度を上げる
- 1536x1536 で試していたけどこれ以上解像度を上げても予測結果に変化はなかった
- 文字の種類を増やす
- Kaggle Humpback Whale Identification で使われていた、反転させてクラス数を増やす方法
- 予測精度の向上にはあまり貢献しなかった
- Kaggle Humpback Whale Identification で使われていた、反転させてクラス数を増やす方法
7th place solution
- Topic: 7th place solution - Kuzushiji Recognition | Kaggle
- Code: kmat2019/centernet-keypoint-detector
Preprocess
- N/A
Data split
- Book title-based group split
Model architecture
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- CenterNet
- in: 512x512, out: 128x128
- data augmentation
- cropping, brightness, contrast, horizontal flip
- CenterNet
- Classification
- ResNet based
- in: 64x64
- data augmentation
- cropping, erasing, brightness, contrast
- pseudo labeling
- ResNet based
Discorded ideas / Future work
8th place solution
- Topic: 8th place solution: Two stage & kuzushiji data augmentation - Kuzushiji Recognition | Kaggle
- Code: t-hanya/kuzushiji-recognition
Preprocess
- N/A
Data split
- Book title-based 4 fold cross validation
Model architecture
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- CenterNet
- ResNet18 + U-Net
- full training set to train single model
- TTA: scale adjustment -> multi-scale + bbox voting
- CenterNet
- Classification
- MovileNet V3
- standard softmax cross entropy loss
- training: use full training set to train single model
- fine-tuning: use full training set + pseudo label
- No TTA
Discarded ideas / Future work
- Clasification
- 少ないクラスをオーバーサンプリングする方法
- Class-balanced loss
- 言語モデリング
- Detection / Classification
- CODH で公開されている (ラベルがついていない) 文字画像を使った半教師あり学習
9th place solution
- Topic: Top 9th Solution: Simple but complete approach. - Kuzushiji Recognition | Kaggle
- Code: mv-lab/kuzushiji-recognition
Preprocess
Data split
- book title-based group 5 fold cross validation
Model architecture
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- CenterNet
- HourglasNet
- ResNet34
- CenterNet
- Classification
- ResNet18
- Data Augmentation
- fastai standard transforms
- horizontal/vertical flip, rotate, zoom, lighting, wrap, affine
- mixup
- fastai standard transforms
- pseudo labeling
Discorded ideas / Future work
- Focal loss
13th place solution
- Topic: 13th place solution + unsuccessful language model - Kuzushiji Recognition | Kaggle
- Code: jday96314/Kuzushiji
Preprocess
- 学習時・推論時
- 512x512 に画像をリサイズ
- 画像をグレースケールへ変換
Data split
- N/A
Model architecture
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- Faster R-CNN
- ResNet34 を backbone に使用
- 一般的な ResNet34 の畳み込みフィルタの 2 倍のフィルタ数を設定した
- 入力はカラー画像
- Region Proposal Network (RPN) と後段の classifier は層を共有しないようにした
- RPN と classifier を互いに独立して変更可能のため、実験が容易になった
- アンカーのサイズを任意に選ぶのではなく、ground truth の bounding box の高さと幅に対して k-means でクラスタリングを実行してアンカーサイズを選択した
- クラスタの中心をアンカーボックスのサイズとして利用した
- 一般的な ROI pooling の代わりに ROI Align pooling を使用した
- ROI Align pooling の方がわずかに良い結果が得られた
- ResNet34 を backbone に使用
- Faster R-CNN
- Classification
- ResNet34
- 入力はグレースケース画像
- 一般的な ResNet34 の畳み込みフィルタの 3 倍のフィルタを設定した
- ResNet50 や ResNet101 等で実験をしたが、今回の設定のように wide で shallow なほうがよかった
- Residual block の部分にも dropout を導入した
- ResNet34
Discard ideas / Future work
- くずし字認識結果を補正する後処理に言語モデルを活用しようとして失敗
- 人間が読む順番に近い形に文字順を整理する
- クラスタリング等を使い、ソート
- DBSCAN を使って文字を列ごとにグループ化
- グループ化した文字の列に対して水平方向の平均座標でソート
- 各列内の文字を垂直方向に座標でソート
- 以上の操作はほとんどの画像データで正常に機能した
- クラスタリング等を使い、ソート
- 補正処理を行う correction network を訓練する
- ground truth を使って認識誤りを含む結果を擬似的に多数生成した
- これらの認識誤り結果は現実的なものだった
- Fater R-CNN ベースのモデルが cross validation 下でどのように動作するかの統計情報を元にランダムに誤りを追加
- ground truth を使って認識誤りを含む結果を擬似的に多数生成した
- くずし字認識誤りを補正する言語モデルを訓練する
- 人間が読む順番に近い形に文字順を整理する
15th place solution
Preprocess
- 学習時・推論時
- 画像をグレースケールへ変換
- ガウシアンフィルタを適用
- ガンマ補正を適用
- Ben's processing を適用
- https://www.kaggle.com/hanmingliu/denoising-ben-s-preprocessing-better-clarity
- Denoising:
cv2.fastNlMeansDenoisingColored
による denoising - Ben's preprocessing: subtract local mean color
- btgraham/kaggle_Diabetic_Retinopathy_competition/competitionreport.pdf 参照
- Denoising:
- https://www.kaggle.com/hanmingliu/denoising-ben-s-preprocessing-better-clarity
Data split
- train:test = 80:20
Model architecture
Multi-stage (Detection -> Classification) なアーキテクチャを使用。
- Detection
- 以下の 2 段階の CenterNet によってくずし字に対する bonding box を予測
- 各段階は 2 つの CenterNet を用いて構成
- CenterNet (1)
- 入力として、512x512 へリサイズした画像を使用し、予測 bbox (1) を得る
- bbox (1) を使って画像内の最も遠い予測における外側の bbox を取り除く
- CenterNet (2)
- 入力として、512x512 へリサイズした画像を使用
- bbox (1) と bbox (2) をアンサンブル
- CenterNet (1)
- 最終的な detection model の構成は以下:
- CenterNet1: 1 段階目における 2 つの CenterNet のアンサンブル
- data augmentation:
- horizontal movement, brightness adjustment
- data augmentation:
- CenterNet2: 2 段階目における 2 つの CenterNet のアンサンブル
- data augmentation:
- random erasing, horizontal movement, brightness adjustment
- data augmentation:
- CenterNet1: 1 段階目における 2 つの CenterNet のアンサンブル
- 各段階は 2 つの CenterNet を用いて構成
- 以下の 2 段階の CenterNet によってくずし字に対する bonding box を予測
- Classification
- 以下の 3 段階による文字種を認識
- Detection phase によって得られた検出結果をもとにクロップシ、64x64 に画像をリサイズ
- ResNet ベースのモデルを 3 つアンサンブル・9 種の horizontal movement による TTA により、分類結果を得る
- ResNet base (1)
log (bounding vox aspect ratio)
の特徴を全結合層の部分に入れたモデル
- ResNet base (2)
- ResNet base (1) とは学習データを変えたモデル
- ResNet base (3)
- ResNet base (1) と同様だが pseudo labeling によるデータで訓練
- ResNet base (1)
- 以上のモデルを 3 つ作りアンサンブル
3 x ((ResNet base (1) + (2) + (3)) x 9)
- data augmentation
- horizontal movement, rotation, zoom, random erasing
- 以下の 3 段階による文字種を認識
Discorded ideas / Future work
- N/A
上位解法を踏まえた研究貢献可能点について
上記の上位解法を踏まえたうえで、くずし字認識に対して研究の面でどのように貢献できるかを考えます。 高精度なくずし字認識を実現するためには主に以下の 2 つの視点から既存の課題を解決することが重要です:
- コンピュータビジョン
- 自然言語処理
以下では、これら 2 つの分野における視点に対して私の考える研究貢献可能点について検討しました
なお、くずし字認識というタスクにおいて実行速度はあまり重要ではないと考えました。タスクの性質上リアルタイム性はあまり必要なく、少し時間がかかっても精度の高い予測を提供することが重要であると考えたためです。 以下は全体的なモデルのパラメータ数が増えてしまうアイディアも存在しますが、上記のシチュエーションを踏まえて検討しております。
コンピュータビジョンからの視点
デジタル化された古典籍の画像から高精度に「文字検出」し、検出した文字を「文字認識」する必要があることがわかりました。 これらはコンペティションの解法では multi-stage なアーキテクチャとして現れております。 以下では、「文字検出」と「文字認識」の観点から、研究として取り組んでみたいことを列挙します。
文字検出モデルの予測精度向上
文字検出において重要なのは、画像中に複数存在するくずし字に対する detection モデルの精度向上です。
今回私は より高解像度の画像から比較的小さな物体を検出可能な軽量且つ高精度 detection モデル
について検討しました。
高解像度な画像から小さな物体を検出可能な軽量かつ高精度な detection モデル
一般的に、高解像度な画像を入力として与えると予測精度はより向上することが知られており、上位解法においても比較的解像度の高い 1000x1000 以上の画像を入力とするモデルが効果的であることが示唆されております。
また、detection モデルを cascade する構造を持つ Cascade R-CNN が有効であることもわかりました。 しかしながらなぜこうした構造が有効であるかは明らかにはなっていません。
以下は 高解像度な画像を扱える軽量かつ高精度な detection モデル
と 画像中に小さい物体が複数存在する検出タスクに強い detection モデル
の 2 つの側面からくずし字認識に適する検出モデルを検討します。
- 高解像度な画像を扱える軽量かつ高精度な detection モデルの検討
- 画像中に小さい物体が複数存在する検出タスクに強い detection モデルの検討
文字認識モデルの予測精度向上
文字認識において重要なのは、detection によって得られたくずし字領域に対する classification モデルの精度向上です。
今回私は generative adversarial network (GAN)*48 を用いた 文字画像生成による data augmentation
について検討しました。
GAN によるくずし字画像 data augmentation
上位解法からもわかるように、classification モデルを学習させる上で効果的な data augmentation が重要です。 今回私は擬似的にくずし字を生成して data augmentation として活用する方法を検討しました。 昨今では GAN によるさまざまな data augmentation 手法が提案されており、特にフォントを生成するような事例は特に成功しているように見えます。 こうした枠組みを応用することでくずし字認識の精度向上が期待できると考えています。
- 一般的な GAN による data augmentation
- フォントの自動生成
自然言語処理からの視点
今回対象である古典籍は、時代は違えど同じ人間が自然言語として記述したものです。 したがって、背後には言語モデルが存在し、その言語モデルに従って言語が現れていると捉えることができます。 こうした言語モデルを適切に捉えることにより、意図しない文字の列が現れないように補正しようというアイディアは非常に面白いものだと個人的に感じます。 しかしながら、コンペティションではあまり効果がないという報告が少なからずありました。
今回私は、言語モデルを用いて文字認識結果の補正を行うというアイディアに対して、自然言語処理的な観点で補正を行う 言語モデルの予測精度をどのように向上させるか
を検討しました。
昨今使われている現代語による言語モデルの学習事例は星の数ほどありますが、古語に対して言語モデルを学習する事例はほとんどありません。
こうした古語に対するモデルの学習は古語に適した学習法の検討が必要だと考えております。
言語モデルの予測精度向上
学習データの多い、いわゆるリソースの多い現代語で成果を上げているモデルをそのままリソースの少ない古語に適用するのは困難であることは容易に想像できます。
今回私は リソースの多い言語からリソースの少ない言語への転移学習
について検討しました。
リソースの多い言語から少ない言語への転移学習
深層学習は一般的に大規模な学習データが必要であるため、今回の古語のようなリソースが限られている対象をそのまま学習させるのは非常に難しいです。 上位解法には翻訳モデルを使って日本語から英語に変換する補正ネットワークを検討している事例がありましたが、このような難しさによって効果的な補正ネットワークを学習できていないと個人的には考えております。
近年は大規模なラベルなしデータによって訓練された事前学習モデルとして BERT *54 等が存在しており、広く使われてくるようになりました。 BERT はタスクに特化した fine-tuning により少量の学習データから精度の高い予測が可能になる一方で、今回のような同じ言語(日本語)における現代語(事前学習)と古語(fine-tuning)という設定はこれまでに存在しないように思えます。 個人的な興味ですが、こうした現代語から古語の特徴をどれだけ捉えられることが可能かは、くずし字認識に限らず非常に面白い研究トピックの一つになりうると考えています。
おわりに
本記事では、日本古典籍における「くずし字認識」タスクの現状について述べました。 また Kaggle で開催されたコンペティションの上位解法をまとめました。 これらのまとめから得られた現状について、既存の手法でどの程度認識可能であるか、また研究としてどのような点で貢献可能かの展望について個人的に考えた考察を含め検討しました。
コンピュータビジョンと自然言語処理の観点から、私が検討した研究貢献点はおそらくこれまで学術的に検討されていない点が多く含まれていると感じます。 これらは一見すぐに本質的な改善が見られないかもしれませんが、腰を据えてじっくりと取り組むと面白い洞察が得られるのではないかと確信しております。
*1:実は今期の博士課程のコースワークの課題でもあります。
*2:[1810.03595] End-to-End Text Classification via Image-based Embedding using Character-level Networks https://arxiv.org/abs/1810.03595
*3:[2006.11586] AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss https://arxiv.org/abs/2006.11586
*4:Gradient-based learning applied to document recognition - IEEE Journals & Magazine https://ieeexplore.ieee.org/abstract/document/726791
*5:ROIS-DS 人文学オープンデータ共同利用センター / ROIS-DS Center for Open Data in the Humanities (CODH) http://codh.rois.ac.jp/
*6:日本古典籍くずし字データセット | ROIS-DS 人文学オープンデータ共同利用センター http://codh.rois.ac.jp/char-shape/
*7:KuroNet くずし字認識サービス(AI OCR) | ROIS-DS 人文学オープンデータ共同利用センター (CODH) http://codh.rois.ac.jp/kuronet/
*8:[1910.09433] KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning https://arxiv.org/abs/1910.09433
*9:KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition | SpringerLink https://link.springer.com/article/10.1007/s42979-020-00186-z
*10:[1612.05360] FusionNet: A deep fully residual convolutional neural network for image segmentation in connectomics https://arxiv.org/abs/1612.05360
*11:[1801.02929] Data Augmentation by Pairing Samples for Images Classification https://arxiv.org/abs/1801.02929
*12:[1812.01718] Deep Learning for Classical Japanese Literature https://arxiv.org/abs/1812.01718
*13:[1708.04896] Random Erasing Data Augmentation https://arxiv.org/abs/1708.04896
*14:[1710.09412] mixup: Beyond Empirical Risk Minimization https://arxiv.org/abs/1710.09412
*15:[1811.09030] Data Augmentation using Random Image Cropping and Patching for Deep CNNs https://arxiv.org/abs/1811.09030
*16:Information | Free Full-Text | Albumentations: Fast and Flexible Image Augmentations https://www.mdpi.com/2078-2489/11/2/125
*17:[1506.01497] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks https://arxiv.org/abs/1506.01497
*18:[1906.09756] Cascade R-CNN: High Quality Object Detection and Instance Segmentation https://arxiv.org/abs/1906.09756
*19:[1901.07518] Hybrid Task Cascade for Instance Segmentation https://arxiv.org/abs/1901.07518
*20:[1904.07850] Objects as Points https://arxiv.org/abs/1904.07850
*21:[1612.03144] Feature Pyramid Networks for Object Detection https://arxiv.org/abs/1612.03144
*22:[1505.01749] Object detection via a multi-region & semantic segmentation-aware CNN model https://arxiv.org/abs/1505.01749
*23:[1505.04597] U-Net: Convolutional Networks for Biomedical Image Segmentation https://arxiv.org/abs/1505.04597
*24:[1603.06937] Stacked Hourglass Networks for Human Pose Estimation https://arxiv.org/abs/1603.06937
*25:[1703.06870] Mask R-CNN https://arxiv.org/abs/1703.06870
*26:facebookresearch/detectron2: Detectron2 is FAIR's next-generation platform for object detection and segmentation. https://github.com/facebookresearch/detectron2
*27:open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark https://github.com/open-mmlab/mmdetection
*28:pytorch/vision: Datasets, Transforms and Models specific to Computer Vision https://github.com/pytorch/vision
*29:[1908.07919] Deep High-Resolution Representation Learning for Visual Recognition https://arxiv.org/abs/1908.07919
*30:[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks https://arxiv.org/abs/1905.11946
*31:[1709.01507] Squeeze-and-Excitation Networks https://arxiv.org/abs/1709.01507
*32:[1507.05717] An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition https://arxiv.org/abs/1507.05717
*33:[1905.02244] Searching for MobileNetV3 https://arxiv.org/abs/1905.02244
*34:[1708.02002] Focal Loss for Dense Object Detection https://arxiv.org/abs/1708.02002
*35:[1901.05555] Class-Balanced Loss Based on Effective Number of Samples https://arxiv.org/abs/1901.05555
*36:[1909.05235] SoftTriple Loss: Deep Metric Learning Without Triplet Sampling https://arxiv.org/abs/1909.05235
*37:[1609.03605] Detecting Text in Natural Image with Connectionist Text Proposal Network https://arxiv.org/abs/1609.03605
*38:Connectionist temporal classification | Proceedings of the 23rd international conference on Machine learning https://dl.acm.org/doi/abs/10.1145/1143844.1143891
*39:KenLM: Faster and Smaller Language Model Queries - ACL Anthology https://www.aclweb.org/anthology/W11-2123/
*40:Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks - Workshop on challenges in representation learning, ICML. Vol. 3. No. 2. 2013.
*41:[1805.00932] Exploring the Limits of Weakly Supervised Pretraining https://arxiv.org/abs/1805.00932
*42:[1812.01187] Bag of Tricks for Image Classification with Convolutional Neural Networks https://arxiv.org/abs/1812.01187
*43:[1505.07818] Domain-Adversarial Training of Neural Networks https://arxiv.org/abs/1505.07818
*44:[1609.06773] Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning https://arxiv.org/abs/1609.06773
*45:[1911.09070] EfficientDet: Scalable and Efficient Object Detection https://arxiv.org/abs/1911.09070
*46:[2011.08036] Scaled-YOLOv4: Scaling Cross Stage Partial Network https://arxiv.org/abs/2011.08036
*47:ultralytics/yolov5: v3.1 - Bug Fixes and Performance Improvements | Zenodo https://zenodo.org/record/4154370#.X92gpen7R24
*48:[1406.2661] Generative Adversarial Networks https://arxiv.org/abs/1406.2661
*49:[1711.04340] Data Augmentation Generative Adversarial Networks https://arxiv.org/abs/1711.04340
*50:[1801.05401] Low-Shot Learning from Imaginary Data https://arxiv.org/abs/1801.05401
*51:[1803.01229] GAN-based Synthetic Medical Image Augmentation for increased CNN Performance in Liver Lesion Classification https://arxiv.org/abs/1803.01229
*52:[1910.12604] FontGAN: A Unified Generative Framework for Chinese Character Stylization and De-stylization https://arxiv.org/abs/1910.12604
*53:[1701.05703] Automatic Generation of Typographic Font from a Small Font Subset https://arxiv.org/abs/1701.05703
*54:[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805