NTTドコモR&Dの技術ブログです。

最難関国際会議KDD 2025でドコモが現地発表!

サマリ

初めまして NTT ドコモ R&D戦略部の現在3年目社員の村上友希です。 普段は因果推論や機械学習を用いたデータ分析業務に従事しています。

データ分析コンペであるKDD CUP2025にて全4部門中2部門で特別部門賞を受賞、KDD Workshopにて論文が2本採択され、村上を含む6名がカナダ現地で発表を行ってきました。 KDD CUPの手法やKDD Workshopでの論文内容については、後日公開予定の記事をご覧ください。 本記事では、今回参加したKDD 2025の現地の様子や発表の様子についてメインでご紹介します 。

KDDとは?

 
KDD(Knowledge Discovery and Data Mining)はデータマイニング関連のトップカンファレンスであり、今年は以下の日程で行われました。

  • 会議名:31th ACM SIGKDD Conference on Knowledge Discovery and Data Mining
  • 開催時期 : Sunday, August 3, 2025 – Thursday, August 7, 2025
  • 開催地 :Toronto Convention Centre, Toronto, Canada
  • 論文数と採択率
    • Research Track: 552本(採択率18.6%)
    • Applied Data Science (ADS) Track: 155本(採択率19.0%)

会議は以下のセッションで構成されており、これらのセッションが5日間にわたり並行で開催され、理論と実践の双方において多岐にわたるトピックがカバーされています。

  • Tutorials
    • 特定分野や最新テーマを体系的に学べるチュートリアル
  • Workshops
    • ドメインに特化したワークショップ形式の発表・議論の場
  • Keynotes
    • 招待公演
  • Oral Presentation
    • 採択論文の口頭発表
  • Poster Presentation
    • ポスター形式による採択論文の発表
  • KDD CUP
    • 毎年設定される課題に対してデータ分析手法を競うコンペティション

KDD全体を通じての感想

KDD 2025では、keynote講演と呼ばれる分野を代表する著名研究者や業界リーダーが招待されて行う特別講演が実施されます。単なる研究紹介ではなく、分野の最新トレンドや将来展望、産業界の応用動向などを俯瞰的に語る場として設定されています。今年はMIT・Stanford・Pennsylvania大学など世界的研究者による、マルチモーダルな因果推論、生成AIや言語理解の最前線といった幅広いテーマが提示されました。

執筆者の村上が因果推論と機械学習の研究をしている関係で、4つの講演の中でも特に Caroline Uhler 氏の講演「Causality from Multi-Modal Data」が印象に残りました。彼女の発表では、マルチモーダルデータ(画像・遺伝子発現・細胞計測など)から介入効果を推定する重要性やその手法の紹介が行われました。モダリティ間に共有できる情報とモダリティ固有情報が混在しており、現行AIは相関は抽出できても因果的に「原因」と「結果」を区別することが不得手であるという課題意識を語られていました。例えば、遺伝子データ・医療画像・治療情報などから「薬剤ターゲット発見」といった治療のメカニズムを明らかにできる可能性があり、マルチモーダルデータから相関と因果を区別できる理論基盤を確立することの重要性が強調されていました。

私自身の研究テーマとも重なる部分もあり、改めて因果推論の理論と応用の橋渡しが今後の学術・産業の双方にとってますます重要になると強く感じ、今回の講演を通じて因果推論研究に向けた自らの取り組みに一層の熱意を持って臨みたいと強く感じました。

keynote speaker 一覧

また、KDDには研究重視のResearch Trackと実応用重視のApplied Data Science (ADS) Track の2種類のTrackが存在しています。 多くの論文が各トラックで投稿され、その中から毎年各Trackでベストペーパーが選定されます。ベストペーパーとは、そのトラックで提出された論文の中で、「技術的・理論的あるいは実用的な観点で特に革新性を持つもの」を選び、その分野・コミュニティにおける進歩を示す代表例として認められたものです。

ベストペーパーとして、Research Trackでは「Improving Group Robustness on Spurious Correlation via Evidential Alignment」が、ADS Trackでは「Evaluating Decision Rules Across Many Weak Experiments」が選ばれました。

Improving Group Robustness on Spurious Correlation via Evidential Alignment

モデルの不確実性推定を利用してスプリアス相関(非因果的特徴とラベルの偶然的関連)を抑制し、グループラベルなしで頑健性を向上させる Evidential Alignment を提案。 画像・テキスト両分野で既存手法を上回るworst-group精度(最も精度が低いグループの精度)を達成し、計算効率も高いことを報告。

Evaluating Decision Rules Across Many Weak Experiments

大規模なA/Bテストにおいて「どの実験結果を採用するか」を決める意思決定ルールを、「ビジネスの主要指標(north star metric)への累積改善効果」で評価する手法を提案。 多数の「弱い実験(weak experiments)」から得られた結果を活用して、実際のビジネス意思決定ルールを評価する問題を取り扱う。実験それぞれがノイズ対信号比が低い状況では、単純な指標がバイアスを持つことを指摘。その代替としてクロスバリデーションによる推定器 (cross‐validation estimator)を設計。 シミュレーションとNetflix過去123件の実験分析で、CV推定により提案手法(新しい意思決定ルール)が「ビジネスの主要指標の累積改善効果」を33%向上させると推定され、実際にNetflix内で採用されたことを報告。

各Trackのbest paper

各Trackで取り上げられたトピックはワードクラウドに示されている通り、大規模言語モデル(Large Language Models; LLM)、さらにはLLMを活用した推薦アルゴリズムが目立つように感じました。特に今年は、ほぼどのセッションでも「LLM」という言葉を耳にするほどで、現地でもLLM関連セッションは満席になるものが多かった印象です。実際に参加してみて、昨今のLLMの技術的進展や精度の高さが、研究者・企業双方にとって最重要テーマの一つになっていることを強く実感しました。

そのLLMの流行の一方で、信頼ある意思決定のための実験設計や、因果推論に基づく評価・分析といった研究も発表されており、先述のようにADSのBest Paperとしても選定されています。産業応用の現場ではLLMの活用と同時に、施策効果を正しく測定し、説明可能で再現性のある知見を得ること、バイアスやノイズに左右されない正しい意思決定をすることが重要かつ不可欠なテーマとして設定されていると感じました。

採択論文のキーワードクライド(左:Research Track、右:ADS)

ドコモが行った発表(概要)

学術界と産業界の最新研究が集まる国際会議 KDD 2025 において、ドコモはKDD WorkshopとKDD CUPのそれぞれで現地発表を行いました。

KDD Workshopは毎年20件前後(年度により変動)開催されており、因果推論、GNN、推薦システム、生成AIなど、幅広いテーマに分かれています。その中で我々は、因果推論をテーマとした「Causal Inference and Machine Learning in Practice(CML)」Workshop にて2本の論文が採択され論文発表を行いました。本Workshopは、実世界データにおける因果推論の応用や機械学習手法との融合に関する議論が中心であり、今年で3回目の開催となります。 第1回目は約200名以上、第2回目では250名以上の参加者を集める注目度の高いWorkshopとなります。

KDDCUPは1997年から開催される権威と歴史のある競技形式のコンペティションであり、例年世界的にもトップクラスのデータ分析者が集まる大会となっています。今年はMeta社がVLMによるRAGを用いたハルシネーション抑制タスクのコンペを開催し、世界中から900名以上と多くのデータサイエンティストが参加しました。今回のKDDCUP2025でドコモは全4部門中で特別部門賞を2部門で受賞し、その解法の発表を現地で行いました。ドコモは2016年からKDDCUPへの参加を始め、過去の成績は2016年ファイナリスト、2019年1位、2020年複数部門で入賞(最高3位)、2022年入賞(9位)、2023年入賞(6位・9位)、2024年入賞(最高6位入賞)であり、今年で4年連続で7回目の入賞となります。

CML Workshop

CML Workshopでの発表の様子(左:久保田、右:村上)
CMLにて、久保田は口頭発表、村上はポスター発表を行いました。村上の概算とはなりますが、本Workshopには100~150名以上の聴講者がおり、 大勢の方に興味を持って我々の発表を聴講して頂きました。 CMLでは全世界の21機関から論文が発表されていました。10個の論文の口頭発表、4個の論文のポスター発表が行われ、因果推論と機械学習と分野限定でのWorkshopではありますが、多様な研究が発表されていました。
CML Workshop投稿者の所属機関

詳細は後日公開されるCML Workshop発表の詳細記事をご確認いただければと思いますが、一例として村上の研究概要のご紹介と現地ポスター発表の空気感をご紹介します。 村上は「Estimation of Single and Synergistic Treatment Effects under Multiple Treatments with Deep Neural Networks」というタイトルで、複数の介入が同時に起こる状況で各介入の単体効果と複数の介入が組み合わさることで生じる相乗効果を高精度に推定する新たな深層学習のフレームワークを提案しました。

ドコモに限らず、実世界では複数の介入が同時に実施される状況が多いです(例えば、マーケティング分野では、同一企業が同時期にマーケティングキャンペーンを実施しますし、医療分野では、複数の薬剤や治療法が患者に適用されます)。マーケティング分野では、複数キャンペーンが同時に実施された時の総合的な影響は各キャンペーンの効果を単純に合計しただけでは把握できないことが先行研究からも指摘されていますし、医療分野では複数薬剤の同時投与により、複雑な相互作用や副作用の変化を引き起こす可能性があります。これらの例のように、複数の介入が行われた時の単体効果と相乗効果という2種類の因果効果を正確に理解することは、意思決定に重大な影響を与え得るため、単体効果と相乗効果の両方を正確に特定できる手法が必要です。

この問題にアプローチすべく、タスク埋め込みネットワークとバランスペナルティ付き表現学習を組み合わせた複雑な相乗効果を把握する深層学習フレームワークを提案しました。提案手法は既存の深層学習モデルの推定精度を大きく上回り、その有効性が確認されました。

村上論文概要

セッションの合間のコーヒーブレイクやポスターセッションでは軽食や飲み物も提供されるため、村上のポスター発表ではコーヒーや軽食片手に発表を聴講頂き、大学関係者・企業側参加者問わず10名程度から質問を頂きました。手法の詳細に関して細かな質問もあれば、「実際にこの手法を実データに扱う際にはどうすればよいか?注意点は何か?」と熱心に実際のビジネスの場で使うことを想定した質問など多岐にわたりました。質疑やWorkshop全体を通じて我々と同じ課題を解くために頭を悩ましている/手法を提案している方が多かった印象で、「自分たちと同じ悩みを抱えている研究者・実務者が世界中にいる」ことを肌で感じることができ、実りのある発表となりました。

村上ポスター発表 質疑の様子

KDD CUP

今年はKDDCUPではスマートグラスを活用した高度なAIアシスタントの実現を見据えた3つのタスク(①テキストのRAG検索、②テキストと画像のRAG検索、③複数質問に対するテキストと画像のRAG検索)で回答を生成する性能が競われました。 最新のVision + LLMモデルは真偽不確かな情報を発言する(hallucinate)リスクがつきまといます。特に外部情報を組み込むとき、それが誤情報だったりノイズが多いという一般的課題があります。 本タスクはまさにこの課題に取り組むものであり、AIアシスタントを現実に応用する上で重要な意味を持ちます。さらに、本コンペティションでは応答時間や計算機環境への厳しい制約も課せられ、高い挑戦性がありました。

ドコモはこれらのタスクにおいて、2部門で特別賞を獲得し、授賞式への参加と手法発表を現地で行いました。 この特別賞は、3つのタスクを横断して見て4つの質問カテゴリ(単純な質問、複数の情報を要する質問、複数の情報の比較を要する質問、推論を要する質問)のそれぞれで最も高い精度を達成したチームに与えられるものです。具体的にドコモチームは、「複数の情報を要する質問」、「推論を要する質問」の2つの質問カテゴリそれぞれで受賞しました。

(左)KDDCUP特別賞受賞チーム一覧(右)授賞式の様子

特別賞を受賞した功績が認められ、現地でドコモチームが採用した手法を発表してきました。手法詳細はCML同様別記事でご紹介予定です。 ドコモチームは、主にLlama3.2 11B-Vision-Instructを用いたVLMモデルを軸に、①独自データセット作成によるVLMの教師あり学習、②思考連鎖(Chain-of-Thought)を用いた推論モデル(Reasoning model)作成、③RAG検索結果のリランキングによる検索情報フィルタリング、④ハルシネーション抑止のための自己検証(Self-Verification)機構の追加といった取組みにより、この成果を達成しました。

発表会場はほとんどがKDDCUP参加チームのメンバーで埋め尽くされており、参加者の熱量は非常に高く、互いの手法や成果について活発な議論が交わされました。質疑応答を通じて各チームの工夫を深掘りするだけでなく、共通の課題や関心を共有する場ともなり、参加者同士が切磋琢磨する貴重な機会となりました。また、日本からも複数の企業が参加しており、国際的な舞台で国内研究・技術が存在感を示していたのが印象的でした。

おわりに

本記事では我々ドコモの発表内容の概要、現地の空気感や個人的な印象を中心にKDD2025の参加をご報告しました。 私としては初めてKDDへの参加であり、現地で発表を行う機会が得られたことは実務や研究開発に対して非常に大きな刺激となりました。今回のKDD参加と学会現地参加で得られた技術・知見を活かして、引き続き研究開発に取り組んでいきたいと思います。

KDD参加メンバー
来年のKDD2026は韓国済州島での開催が予定されています。来年もKDD CUPではより上位の入賞、より多くの論文を投稿できるように励みたいと思います。