NTTドコモR&Dの技術ブログです。

インターン体験記 in 画像認識チーム

こんにちは!NTTドコモ クロステック開発部の画像認識チームです。

NTTドコモでは、8/26 ~ 9/6に現場受け入れ型インターンシップを実施しました。本インターンシップはリモートと現地のハイブリッドの実施となり、参加者はチームに配属された後、2週間の業務体験をしていただきました。

以下、インターン生のKさんによる取り組み内容の報告です。


はじめに

8/26 ~ 9/6の現場受け入れ型インターンシップに参加させていただいたKです。大学院で無線通信分野を専攻しており、動画像情報やLiDAR点群データの無線伝送に取り組んでいます。可用帯域や通信路品質の変動といった無線特有の制約を克服し、高品質な伝送を実現する手法を検討しています。この記事では、インターンシップで取り組んだ「VLMによる大規模映像管理プラットフォーム×通信品質データ統合解析」の体験談について記載したいと思います。

参加目的

私がインターンシップに参加したいと考えた理由は二つあります。

1. 大学と企業における研究開発の違いを体感する

大学院での研究は、アカデミックな成果や理論的な新規性が重視される一方、企業での研究開発はサービス化や価値創出が念頭に置かれます。そこで、実際のプロダクト開発やビジネスに直結した課題設定はどのように行われているのか、どのように組織として動いているのかを肌で感じるために、このインターンシップに参加しました。

2. 実用性や利益を重視した研究開発プロセスを学ぶ

大学では実験室やシミュレーション環境で研究を進めることが多く、本当に使われる技術を検証するプロセスを深く知る機会は限られています。インターンシップを通じて、実データを用いた実用性の評価や、ビジネス的観点(利益・コスト・市場ニーズ)を踏まえた研究開発の進め方を学びたいと考えました。

インターンシップでの業務内容

「VLMによる大規模映像管理プラットフォーム×通信品質データ統合解析」というテーマの業務に取り組みました。具体的には、VLM(Vision-Language Model)を用いてモビスキャOpensignalのデータを統合・分析し、通信品質の可視化・改善に向けた可能性を探りました。初めに、モビスキャとOpensignalについてわかりやすく説明し、その後に業務内容および今後の課題を紹介します。

モバイル・ネットワーク・エクスペリエンス:日本 2024年4月 Report | Opensignal

研究背景

NTTドコモ クロステック開発部では、映像をはじめとする大容量データを扱うプロジェクトが進められています。その一環として、市街地を走行する車両から取得したドラレコ映像を蓄積・管理する「モビスキャ」という大規模映像分散管理プラットフォームを運用しており、これをビッグデータ化して多様な課題解決に活かす取り組みを行っています。

モビスキャサービス
一方で、Opensignalはユーザ端末から収集される通信品質データをまとめたプラットフォームで、通信が悪化しているエリアや速度・カバレッジ情報などを可視化・分析する手段として活用されています。しかし、こうした数値データのみでは「なぜこの地域の通信環境が悪いのか」という原因の深掘りが難しいという課題がありました。

業務内容

本インターンシップにおいて、私は以下のような業務に携わりました。

  1. Opensignalデータとドラレコ映像の統合

    • Opensignalから“NG”と判断された地点(通信品質が悪い場所)の緯度経度情報を抽出し、ドラレコの走行データとマッチング。
    • その結果、問題のある地点の映像(スナップショット)を取り出し、通信環境悪化の要因を可視的に把握できるようにしました。
  2. VLM(Vision-Language Model)を用いた特徴抽出
    • 統合した映像をVLMに入力し、例えば「建物が高い」「周囲がビル群で電波が遮蔽されやすい」「電線が多い」「夜間・雨天で環境が変化している」といった要素をテキストとして自動抽出。
    • 特に「通信環境を専門に分析する」というシステムプロンプトを加えることで、モデルトレーニング時の一般的な認識精度よりも、通信品質に特化した特徴量を出力させる工夫を行いました。
  3. 結果の評価と応用の検討
    • 抽出された要因を頻度分析すると、高いビルや密集した建物など、電波の遮蔽・反射を引き起こす構造物が通信品質を左右している可能性が高いことがわかりました。
    • 今回は通信品質分析が中心でしたが、この技術を渋滞予測や異常検知などに応用することも考えられる、という議論が行われました。

今後の課題

  • 評価指標の整備
    VLMがどの程度、実際の通信品質悪化原因を正しく捉えているかを定量的に示す仕組みが必要です。また、ビジネス面での価値を示すためのKPI策定も求められます。

  • 大規模・リアルタイム対応
    ドラレコ映像は膨大なサイズのデータであるため、リアルタイム分析や大規模処理を行う際のスケーラビリティが課題となります。

  • 多角的なデータ活用
    通信品質以外の分野(交通インフラ管理、防災、観光など)で同様のフレームワークを応用可能であることが期待されますが、実際に適用する場合には、それぞれのドメイン固有の指標や課題を踏まえた調整が必要です。

インターンシップを振り返って

参加した感想

2週間という短い期間ながら、毎日複数回のミーティングを設けていただき、自分の進捗やアイデアを即座にフィードバックしてもらう形で、スピーディに業務を進められました。大学の研究とは異なり、サービス化を前提とした意思決定や、チームとの連携による開発プロセスを実感できたのは大きな学びでした。

参加目的の達成度

  • 大学と企業の研究開発の違いを実感するという目的については、実際に大規模映像やリアルユーザの通信データを扱う場面から多くを学べました。
  • 実用性や利益を重視するプロセスについても、モビスキャやOpensignalなど実際の商用データを活用し、評価基準や改善策を検討する経験が得られたため、十分に目的を果たせたと感じています。

最後に

インターンシップでは、技術的な側面だけでなく、チーム連携の重要性やスケジュール管理の大切さなど、大学とは異なる視点から多くのことを学びました。実際にサービス開発を担う企業の最前線で、映像データ×通信品質の新たな可能性を探る経験ができたことは、今後の研究にとっても大きな糧となります。

今回の体験を通じて培った知見を、引き続き大学院での研究や今後のキャリアに活かしていきたいと思います。ご指導・ご助言いただいた社員の皆さまに深く感謝申し上げます。


NTTドコモでは画像生成・物体検出・姿勢推定・一般物体認識・特定物体認識・文字認識・類似画像検索等、様々なAI技術の研究開発をしています。インターンや新卒・キャリア採用を積極的に実施しているため、気になる方は以下のリンクをご参考にしてください。