NTTドコモR&Dの技術ブログです。

ドコモの1年目社員が医療AIコンペに挑戦!第7回 全国医療AIコンテスト参戦記

はじめまして!NTTドコモAIエンジニア・データサイエンティストとして働いております、1年目社員の若尾 紘嵩(わかお ひろたか)と申します。 本記事はKaggle上で開催された、第7回全国医療AIコンテストに参加した感想となります!✨

目次

🙋‍♂️ 自己紹介

私は大学院時代、脳血流画像を用いた認知症の早期診断や疾患鑑別を支援するAIの開発に励んでいました。現在はその専門性を活かし、ドコモの持つビッグデータを活用した医療・ヘルスケア領域の技術開発に従事しています。

「ドコモが医療・ヘルスケア領域の技術開発?」と意外に思われる方も多いかもしれません。実はドコモは、「いつの間にか健康になれる社会の実現」を掲げ、スマートフォンから得られる多種多様なデータを活用し、スマートフォンの日常使いからユーザの健康状態を推定する「免疫力推定AI」「フレイル推定AI」といったAIを開発しています。また、これらAIを「HealthTech(ヘルステック)基盤」という独自プラットフォームに集約し、社内外のサービスがAIを簡易に利用できる環境を構築したり、2022年には「第二種医療機器製造販売業」の許可を取得し、医療機器プログラムの開発にも注力しています。

www.docomo.ne.jp

さて、ドコモのR&D部門には、スキル向上や技術動向把握を目的に、AIコンペティションへの参加を業務の一環として認める文化があります。今回、自身のバックグラウンドである医療画像工学の知見を試し、さらなる技術研鑽を積むべく、「第7回 全国医療AIコンテスト」に挑戦しました。

🏆 コンテスト概要

詳しい概要は以下のKaggleプラットフォームより閲覧できます。

🔗 https://www.kaggle.com/competitions/medical-ai-contest-7th-2025/overview

  • 主催:九州大学医学部情報研(QUMI)
  • 開催期間:2025年12月26日〜2026年2月21日
  • 賞金:1位:10万円 等 (1~3位は、3/20(金)の第25回日本再生医療学会総会にて招待講演)

タスク内容(引用):

背景

再生医療や創薬研究の分野において、ヒトの臓器を模した3次元組織「オルガノイド」が、次世代の医療を切り拓く鍵として注目されています。オルガノイドは、実際の臓器に近い構造と機能を持つため、疾患メカニズムの解明や新薬開発において重要な役割を果たしています。

通常、オルガノイドの分化状態や機能を詳細に解析するためには、「蛍光染色」と呼ばれる手法が用いられます。しかし、この手法には大きな課題があります。蛍光染色は細胞を固定したうえで抗原抗体反応で標的をマーキングするため、多くの場合その細胞は死んでしまいます。また、高価な抗体や試薬、複雑な処理手順が必要で、コストと時間がかかります。 (省略) 一方で、一般的な顕微鏡で観察する「透過画像」は、細胞へのダメージが極めて少なく、低コストで連続的な撮影が可能です。しかし、透過画像だけでは、特定の遺伝子発現や機能細胞の分布といった詳細な情報を人間の目で判別することは困難です。

もし、透過画像から蛍光画像をAIで予測することができれば、細胞を傷つけずに、リアルタイムかつ低コストで詳細な解析が可能になります。これは、臨床応用における大きなブレイクスルーとなります。

タスク

本コンペティションのタスクは、「オルガノイドの透過画像から、対応する蛍光画像を予測生成すること」です。 参加者は、入力された透過画像の特徴を学習し、視床下部・下垂体の分化マーカーであるRAXの発現強度や分布を示す蛍光画像を出力するモデルを構築します。

この技術が確立されれば、特殊な蛍光マーカーを持たない臨床用の細胞株においても、非侵襲的な画像撮影だけでその品質や分化度を高精度に判定できるようになります。再生医療の実用化に向けた重要な一歩となることが期待されます。

まとめると、今回の課題は染色していない細胞の透過画像から、対応する蛍光画像を予測生成することです。 通常、細胞の解析には「染色」が必要ですが、これには「細胞が死滅してしまう」「試薬のコストと時間がかかる」という欠点があります。 もしAIでこの蛍光画像を予測できれば、生きた細胞を傷つけることなく、非侵襲的かつリアルタイムに細胞の状態を解析できる未来が拓ける!ということだそうです。 (細かい点誤っていたらすみません..)

評価指標はSSIM(構造類似度)とPSNR(ピーク信号対雑音比)の組み合わせで、一般的なものでした。 すなわち、画像の構造やテクスチャの類似度と、ピクセル単位の誤差が評価されます。

📊 データセット

国立大学法人等の研究機関から提供された、視床下部・下垂体オルガノイドの画像データセットを使用します。

項目 詳細
入力データ 位相差顕微鏡による透過画像
正解データ 同一視野の蛍光画像
画像総数 1,500組(学習用: 1,200 / Public: 150 / Private: 150)
ラベル情報 分化状態を示すカテゴリラベル(Category A〜C)
配布画像の解像度 1440 × 1920
提出/評価時の解像度 512 × 512

余談ですが、医療データはそもそも集めるのに大変な労力がかかるので、データセットとして揃ってるだけでもワクワクしますよね🩺

🧠 構築したモデルと工夫点

1. モデルアーキテクチャ

  • エンコーダ:Mix Transformer (MiT-B4)

    自分の環境である程度の速度で動くモデルとして、EfficientNetV2などのCNNベースモデルとMiT-B4などのViTベースモデル(またはそのハイブリッド)を検討し、精度的に後者に軍配が上がりました。 大域的な特徴を捉えられるほうが有利だったのかは未検証です。

  • デコーダ:U-Net

    医療画像解析のベースラインであるU-Netを採用しました。 U-Net++などは、精度向上が見られなかったため、導入を見送りました。

2. 工夫まとめ

本コンペの評価指標である SSIMとPSNRを最大化するため、画像特有の性質を考慮した工夫を凝らしました。

① 検証の安定化と損失関数の最適化

  • Stratified K-Fold:
    分化状態ごとのばらつきに対処するため、データの分布を均一に保った分割を行いました。
  • 背景を除いたLoss計算:
    コンペの評価指標が、細胞のマスク領域内のみで計算される仕様だったため、損失計算もそれに合わせました。これは精度向上に直結しました。

② データ拡張(Augmentation)

細胞の柔軟な形状変化を学習するため、以下の手法を導入しました。

  • Elastic Transform / Grid Distortion:
    個体差による歪みを疑似再現。かなり強めにかけても効果が見られました。
  • Adaptive Thresholding:
    画像ごとに動的な閾値を設定してノイズをカット。ノイズ分布の差異を吸収する前処理として有効でした。

③ 高解像度学習と重み付けTTA

  • 高解像度学習:
    学習時は情報の欠落を防ぐために高解像度(1440 × 1920)で学習したかったのですが、モデルが大きくなりすぎるので断念し、512 × 512で学習しました。上位陣との差はここで大きくついたようです。
  • Weighted TTA(Test Time Augmentation):
    推論時には 複数の異なる拡張(回転、反転など)を施し、得られた複数の予測結果を信頼度などに基づいて重み付けを行いました。これはかなり効果的でした。

④ 効果が薄かった手法

効果が見られなかった手法も備忘録として残します。

  • GAN / 拡散モデル:
    見た目は綺麗になりますが、やはりPSNR(ピクセル単位の誤差)との相性が悪かったです。
  • 分類タスクの追加:
    分化が良好に進んだもの(Category A)から、分化が不十分なもの(Category C)までラベルが存在したので学習の補助に加えましたが、精度への寄与は認められませんでした。
  • U-Net++ / scSE Attention:
    デコーダを複雑化しても、計算コストに見合うほどの精度向上は見られませんでしたが、上位解法は計算コストを気にせずに採用していました。

🚩 結果と感想:実業務への還元をめざして

最終結果は、80チーム中21位となりました。🎉

上位陣は、やはり解像度を下げずに学習を行ったり、200層以上あるモデルで学習したりと、パラメータ数の多いモデルを安定して動作させる環境構築がしっかりしていると感じました。 また、もはや自分たちで実装を行わず、Claude Codeによる自動化により実験をひたすら回し、精度向上を追求しているチームもあり、コンペの意義から考えさせられる解法もありました。 医師とエンジニアの組み合わせのチームが多かったことも印象的で、様々な団体が医療AIの開発に向けて動いていることを実感できて良かったです。

入賞に届かなかった要因としては、大きなモデルを自前の環境で動かすことに不慣れな部分があったことと、締め切りまで残り10日程度で飛び入り参加し、そもそもモデルを学習しきる時間が無かったことなどが挙げられます。 一方、モデルの大きさや学習時の解像度以外の工夫や、ドメイン知識を活かした実装は、上位陣とそこまで差がないように感じられたので、自信がつきました。

今回得られた知見は、自業務にも積極的に活かしていきたいです! 例えば、実務においては「精度」と「推論速度やコスト」の両立が不可欠であり、当初は精度を追い求めるKaggleとは別物だと考えていましたが、実際には限られた計算リソース内で実験を回し切る必要があるため、実務に通じる技術も養われるのだと実感しました。

ドコモには、Slackや社内勉強会を通じて、部署の垣根を超えて技術ナレッジを共有し合う土壌があります。今年は1年目でコミュニティに参加できていませんでしたが、KDD Cupで上位に入賞するようなつよつよの先輩方がたくさんいらっしゃるので、次回の勉強会に参加し、積極的に知見を吸収してこようと思っています!

ここまで読んでいただきありがとうございました!


若尾 紘嵩(わかお ひろたか)
NTTドコモ R&Dイノベーション本部 クロステック開発部 医療・ヘルスケア技術開発担当 1年目(2026.3執筆時点)。 大学院にて脳血流画像を用いた認知症診断支援AIの研究を行う。 現在はドコモにてヘルスケア分野の研究開発・社会実装を担当。