NTTドコモR&Dの技術ブログです。

自然言語処理の国際会議を見てみよう(前編)

はじめに

はじめまして、サービスイノベーション部翻訳チーム所属の川原田と申します。 普段は語学学習サービスや機械翻訳に関する研究開発に従事しています。

今回は、今年の5月に開催されたACL2022で発表された論文について、全体の傾向を眺めながらご紹介していきたいと思います。 次回投稿する記事では、ACL2022で採択された論文を2つピックアップしてご紹介いたします。

この記事が対象としている方

  • ACL2022で採択された論文のトレンドや概要について知りたい方
  • 自然言語処理についてある程度知識がある方

この記事では、主にメインセッションで採択された論文について扱います。

ACLとは

ACLとは、同じ名前の学会組織であるACLAssociation for Computational Linguistics)が年に一度開催している自然言語処理の分野で最も権威のある国際会議です。 情報分野では、世界的に権威があり論文採択されるのが難しい会議をトップカンファレンスと呼ぶことが多いですが、ACLもEMNLP、NAACLと共に自然言語処理の分野のトップカンファレンスに該当します。

ACLには、世界中の研究者から論文の投稿がありますが、メインセッションに採択されるのは毎年20%程度なため、採択されるのは非常に狭き門であると言えます。

ACL2022

概要

ACL2022は、5/22-5/27の日程でアイルランドのダブリンで開催されました。2021年はオンラインのみの開催でしたが、今年はオンラインとオフラインのハイブリット形式での開催です。 昨年に引き続き、メインセッションの他にFindingsセッションが設けられました。 ちなみにですが、2022年はACLの設立からちょうど60周年の年だそうです。

投稿論文について

投稿論文数

投稿論文数は、long paperとshort paper合わせて3,378でした。昨年は3,350だったので、投稿論文数はほぼ変わらなかった(+28)ということになります。

2018年頃から投稿論文数が急増していましたが、2022年は落ち着いているように見えます。これは、ACLや他のACL系のカンファレンスでもFindingsセッションが設けられた結果、全体として採択される論文数が増え、他会議からの再投稿論文数が減少したためではないかと考えられます。

メインセッションで採択された論文数は、701(long paper=604・short paper=97)でこちらも昨年の採択論文数である710とほぼ同じです。論文採択率は、20.75%と例年並みでした。

採択論文の傾向

ACL2022で採択された論文の傾向を見るために、発表論文が引用している論文を見てみます。 また、ACL2022とACL2021で採択論文数はほぼ同じなので、ACL2021で発表された論文と比較しながら、引用傾向に違いはあるのかについても見ていきたいと思います。

ACL2021で採択された論文の引用傾向

# 論文名 引用数
1 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 238
2 RoBERTa: A Robustly Optimized BERT Pretraining Approach 140
3 Adam: A Method for Stochastic Optimization 113
4 Transformers: State-of-the-Art Natural Language Processing 68
5 Attention is All you Need 64
6 BLEU: a method for automatic evaluation of machine translation 51
7 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 43
8 Neural Machine Translation by Jointly Learning to Align and Translate 39
9 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 33
10 SQuAD: 100,000+ Questions for Machine Comprehension of Text 31

まず、ACL2021で採択された論文が引用している論文について見ていきます。 上の表は、ACL2021のメインセッションに採択された論文が引用している論文のTOP10を並べたものです。

BERT(#1)やRoBERTa(#2)、BART(#7)、T5(#9)などの言語モデルを発表した論文が目立ちます。また、Trasformerの発表論文(#5)やその実装に関する論文(#4)も上位にランクインしています。 2018年にBERTが発表されてから今年で4年目になりますが、Transformerベースの言語モデルを使った研究は、既に一般的なものになっていることが分かります。 これだけ一般化したのは、単に精度が出るということだけではなく、Transformersのようなオープンソースなライブラリが充実しており、誰でも簡単に実装を行えるということも要因の一つと言えそうです。

ACL2022で採択された論文の引用傾向

# 論文名 ACL2022 引用数 ACL2021 引用数
1 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 224 238
2 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 101 43
3 Transformers: State-of-the-Art Natural Language Processing 101 68
4 Attention is All you Need 92 64
5 RoBERTa: A Robustly Optimized BERT Pretraining Approach 84 140
6 Adam: A Method for Stochastic Optimization 80 113
7 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 72 33
8 BLEU: a method for automatic evaluation of machine translation 65 51
9 Neural Machine Translation of Rare Words with Subword Units 46 29
10 Unsupervised Cross-lingual Representation Learning at Scale 41 26

次に、ACL2022について見ていきましょう。 表を見ていただくとわかるように、ACL2022の採択論文も全体の傾向としては、ACL2021とほとんど変わっていません。

一方で、BART(#2)やT5(#7)の引用数が飛躍的に伸びている(43→101・33→72)ことが分かります。2021年頃から、Promptingと呼ばれる方法についての研究が盛んに行われています。 Promptingには、BARTやT5のようなSequence-to-Sequenceベースの言語モデルが用いられることが多いため、引用数が増加しているのだと考えられます。

また、ACL2021ではTOP10のランク外だった多言語の言語モデルであるXML-R(#10)の引用数も増加しており(26→41)、多言語化の流れは論文の引用数から見て取れます。

2021年発表の論文で多く引用された論文

# 論文名 引用数 発表元
1 mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer 21 NAACL2021
2 Prefix-Tuning: Optimizing Continuous Prompts for Generation 15 ACL2021
3 Making Pre-trained Language Models Better Few-shot Learners 15 ACL2021
4 It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 14 NAACL2021
5 Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing 12 Arxiv

最後に、去年発表の論文でACL2022で多く引用されていた論文を見てみましょう。 T5の多言語モデルであるmT5の論文(#1)が多く引用されてます。

こうして見ると、Prompting関連の論文(#2・#3・#5)の引用数が多いことが分かります。 特に、PromptingについてのSurvey論文(#5)がランクインしているのは興味深いです。

まとめ

ACL2022に採択された論文の傾向を論文の引用数から見ていきました。 全体の傾向のまとめとしては、次のことが言えると思います。

  • 全体的な傾向はACL2021と変わっておらず、言語モデルを用いた研究が既に一般的となっている

  • BARTやT5などのSequnce-to-Sequenceの言語モデルの引用数が伸びており、これはPromptingの研究で多く引用されるようになったからだと考えられる

  • XML-Rなどの多言語に対応した言語モデルの引用数が伸びており、近年の多言語化の流れを反映していると考えられる