はじめに
はじめまして、サービスイノベーション部翻訳チーム所属の川原田と申します。 普段は語学学習サービスや機械翻訳に関する研究開発に従事しています。
今回は、今年の5月に開催されたACL2022で発表された論文について、全体の傾向を眺めながらご紹介していきたいと思います。 次回投稿する記事では、ACL2022で採択された論文を2つピックアップしてご紹介いたします。
この記事が対象としている方
- ACL2022で採択された論文のトレンドや概要について知りたい方
- 自然言語処理についてある程度知識がある方
この記事では、主にメインセッションで採択された論文について扱います。
ACLとは
ACLとは、同じ名前の学会組織であるACL(Association for Computational Linguistics)が年に一度開催している自然言語処理の分野で最も権威のある国際会議です。 情報分野では、世界的に権威があり論文採択されるのが難しい会議をトップカンファレンスと呼ぶことが多いですが、ACLもEMNLP、NAACLと共に自然言語処理の分野のトップカンファレンスに該当します。
ACLには、世界中の研究者から論文の投稿がありますが、メインセッションに採択されるのは毎年20%程度なため、採択されるのは非常に狭き門であると言えます。
ACL2022
概要
ACL2022は、5/22-5/27の日程でアイルランドのダブリンで開催されました。2021年はオンラインのみの開催でしたが、今年はオンラインとオフラインのハイブリット形式での開催です。 昨年に引き続き、メインセッションの他にFindingsセッションが設けられました。 ちなみにですが、2022年はACLの設立からちょうど60周年の年だそうです。
投稿論文について
投稿論文数は、long paperとshort paper合わせて3,378でした。昨年は3,350だったので、投稿論文数はほぼ変わらなかった(+28)ということになります。
2018年頃から投稿論文数が急増していましたが、2022年は落ち着いているように見えます。これは、ACLや他のACL系のカンファレンスでもFindingsセッションが設けられた結果、全体として採択される論文数が増え、他会議からの再投稿論文数が減少したためではないかと考えられます。
メインセッションで採択された論文数は、701(long paper=604・short paper=97)でこちらも昨年の採択論文数である710とほぼ同じです。論文採択率は、20.75%と例年並みでした。
採択論文の傾向
ACL2022で採択された論文の傾向を見るために、発表論文が引用している論文を見てみます。 また、ACL2022とACL2021で採択論文数はほぼ同じなので、ACL2021で発表された論文と比較しながら、引用傾向に違いはあるのかについても見ていきたいと思います。
ACL2021で採択された論文の引用傾向
まず、ACL2021で採択された論文が引用している論文について見ていきます。 上の表は、ACL2021のメインセッションに採択された論文が引用している論文のTOP10を並べたものです。
BERT(#1)やRoBERTa(#2)、BART(#7)、T5(#9)などの言語モデルを発表した論文が目立ちます。また、Trasformerの発表論文(#5)やその実装に関する論文(#4)も上位にランクインしています。 2018年にBERTが発表されてから今年で4年目になりますが、Transformerベースの言語モデルを使った研究は、既に一般的なものになっていることが分かります。 これだけ一般化したのは、単に精度が出るということだけではなく、Transformersのようなオープンソースなライブラリが充実しており、誰でも簡単に実装を行えるということも要因の一つと言えそうです。
ACL2022で採択された論文の引用傾向
次に、ACL2022について見ていきましょう。 表を見ていただくとわかるように、ACL2022の採択論文も全体の傾向としては、ACL2021とほとんど変わっていません。
一方で、BART(#2)やT5(#7)の引用数が飛躍的に伸びている(43→101・33→72)ことが分かります。2021年頃から、Promptingと呼ばれる方法についての研究が盛んに行われています。 Promptingには、BARTやT5のようなSequence-to-Sequenceベースの言語モデルが用いられることが多いため、引用数が増加しているのだと考えられます。
また、ACL2021ではTOP10のランク外だった多言語の言語モデルであるXML-R(#10)の引用数も増加しており(26→41)、多言語化の流れは論文の引用数から見て取れます。
2021年発表の論文で多く引用された論文
最後に、去年発表の論文でACL2022で多く引用されていた論文を見てみましょう。 T5の多言語モデルであるmT5の論文(#1)が多く引用されてます。
こうして見ると、Prompting関連の論文(#2・#3・#5)の引用数が多いことが分かります。 特に、PromptingについてのSurvey論文(#5)がランクインしているのは興味深いです。
まとめ
ACL2022に採択された論文の傾向を論文の引用数から見ていきました。 全体の傾向のまとめとしては、次のことが言えると思います。
全体的な傾向はACL2021と変わっておらず、言語モデルを用いた研究が既に一般的となっている
BARTやT5などのSequnce-to-Sequenceの言語モデルの引用数が伸びており、これはPromptingの研究で多く引用されるようになったからだと考えられる
XML-Rなどの多言語に対応した言語モデルの引用数が伸びており、近年の多言語化の流れを反映していると考えられる