NTTドコモR&Dの技術ブログです。

国際学会SIGSPATIALワークショップの位置情報予測コンペHumob2024 ドコモ3位入賞解法&アメリカ現地参加レポート

NTTドコモ R&D Advent Calendar 2024 の1日目の記事です。

はじめに

NTTドコモ クロステック開発部の鈴木明作です!

こちらの記事では、国際学会SIGSPATIAL 2024のワークショップで開催されたユーザの位置情報予測コンペであるHumob challenge 2024にドコモチームとして参加して3位入賞(GEO-BLEU部門)することが出来たため、入賞解法を紹介します。

またアメリカ アトランタで開催された国際学会SIGSPATIAL 2024の現地参加の様子もまとめています。

※別記事で、上位3チームの解法を紹介しているためそちらも興味があれば参照ください。

SIGSPATIAL概要

SIGSPATIALは、位置情報の知的データ処理、データベース、モデリング、ユビキタスコンピューティング、検索、システムなどを扱ったGIS分野トップの国際学会です。位置情報ドメインにおける世界最前線の研究が発表されます。

SIGSPATIAL 2024は、アメリカ アトランタで開催され、本会議の採択率は24%(投稿数185、Full Paper採択は46件)であり、採択難易度の高い学会になります。

SIGSPATIAL 基本情報

  • 会議名:
    • 32th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems
  • 会期:
    • 2024年10月29日〜11月1日
  • 開催地:
    • アメリカ ジョージア州 アトランタ
  • トラック:
    • Paper (Research, Industry, System), Vision paper, Poster/Demo, Data & Resources, Workshop, GISCUP
  • 参加者数:
    • 315人(アメリカ175人、日本30人、ドイツ22人、中国15人など)
SIGSPATIAL本会議の様子
SIGSPATIAL本会議論文のワードクラウド

10/29のワークショップと10/30-11/1の本会議は以下のプログラムで行われ、位置情報に関連する多様な研究発表が行われていました。

また、アトランタにある世界最大級の大きさを誇るジョージア水族館でバンケットが開催され、参加者同士での技術交流が行われていました。

ジョージア水族館でのバンケット
バンケットでの技術交流の様子

Best Paper

Best Paperは、"Urban Mobility Assessment Using LLMs"*1という論文でした。 この論文では、LLM(Large Language Models)を用いて旅行についてのサーベイ(ユーザー調査)を仮想的に生成することで、実際のユーザー調査を行わなくても旅行の調査ができるというものでした。 実際の旅行調査データと生成したデータで比較を行い、旅行調査データでFine-tuningしなくとも旅行に関する情報は捉えられており、Fine-tuningすることで現実の調査に近い結果を生成でき、従来のシミュレーションを上回る性能を示すことが分かった、とのことでした。 Best Paper以外にも、位置情報分野の研究においてもLLMの研究が多数発表されていました。

Best Paper "Urban Mobility Assessment Using LLMs”の発表スライド

Human Mobility Prediction Challenge 2024

今回、ドコモが参加した位置情報予測コンペであるHuman Mobility Prediction Challenge 2024(Humob2024)は、SIGSPATIALのWorkshopとして2024年7月20日~2024年9月20日の2ヶ月間で開催されました。 Humob challengeは2023年にもHumob2023として開催されており、Humob 2024は第二回目の開催でした。 Humob2024のお題は、”複数都市におけるユーザの未来の位置予測”です。

日本の4都市の位置履歴データセット*2が提供され、ユーザごとの過去60日間(1~60日目)の30分間隔の位置データから、未来の15日間(61~75日目)の位置予測を行います。 4都市のユーザー数はそれぞれ都市A 100,000⼈、都市B 25,000⼈、都市C 20,000⼈、都市D 6,000⼈であり、都市B、都市C、都市Dの各都市の3,000人の予測を行います。

位置データは、500m×500mのメッシュのGPSデータであり、横軸と縦軸がそれぞれ200×200クラスに分割されているため、ユーザごとの未来15日間において200×200クラスのどこに滞在しているかを予測します。 ユーザの未来の位置情報を予測できれば、都市計画、交通管理、マーケティング、出店計画、災害リスク管理、など多岐にわたる応用が期待されます。

Humob 2024では、GEO-BLEU*3、DTW*4の2つの評価指標が採用されていました。 Humob 2024では、予測結果の提出が1回のみとなり、一発勝負のデータ分析コンペでした。

ドコモチーム

ドコモでは有志メンバ6名で参加して最終的に入賞となったことから、その中の4名(以下スライド下線の左から鈴木、福島、熊谷、落合)でアメリカ現地参加して解法を発表してきました。

ドコモチームメンバ

ドコモの解法

ドコモ解法の概要は4つのアプローチのアンサンブルです。 この記事では、4つのアプローチの中から、3つのアプローチを紹介します。

ドコモ解法の概要

アプローチ1. Cross-city LP-BERT

自然言語分野で使われるBERT*5を位置予測に応用したLP-BERT(Humob2023の優勝解法*6)をベースにしたアプローチです。 LP-BERTでは、ユーザの過去の位置履歴(60日間)における連続した位置情報に対してランダムにマスクを行いマスクされた位置情報を予測するように学習(時系列の位置情報の穴埋め問題を解かせるイメージ)することで、日、時間、差分時間、位置の埋め込みを獲得して、未来(15日間)の位置情報を予測します。

ドコモ解法では、Humob2024は複数都市A,B,C,Dのデータが与えられたため、LP-BERTに都市を表す都市埋め込み(City Embedding)を追加した上で、複数都市A,B,C,Dデータセットのすべてを学習データに活用するCross-city LP-BERTを提案することで予測精度向上を図っています。

Cross-city LP-BERT

アプローチ2. LP-BERT with LSTM Layer

時系列予測に用いられるLSTM*7をLP-BERTのTransformer Encoder layerの後にLSTM Layerとして追加するアプローチです。 これにより、時系列を考慮した予測を行っています。 これは後段のアンサンブルの多様性を高める効果があると考えられます。

LP-BERT with LSTM Layer

アプローチ3. Time-Decayed Most Frequent Location

2つの最頻度位置ルールを作成し、ユーザー*日ごとにどちらのルールが適しているかを予測する機械学習アプローチ(Humob2023の3位解法*8)です。

まず、基本的に人間の移動は規則的であるため、以下の二つのシンプルな最頻度位置予測ルールを作成します。

  • ルール1. ユーザごとに過去履歴(60日間)の30分間隔の最頻度位置を未来(15日間)の位置予測とする
  • ルール2. ユーザごとに過去履歴(60日間)の90分間隔の最頻度位置を未来(15日間)の位置予測とする

ここで、平日は行動時間(例えば、自宅から出発/帰宅する時間)の規則性が高く、休日は時間が前後する傾向が強いため2つの時間間隔である30分、90分を設定しています。 ユーザごとに曜日の移動パターンは異なるため、ユーザごとに上記2つのルールを分類する機械学習モデルを用いて予測を行いました。

また、直近の行動データの方が未来の移動に影響を与えやすいため、最頻度位置を取得する際に時間減衰(Time decay)を行い直近の位置データが重要となるように重みをかけて最頻度位置を計算することで、予測精度を高めています。

Time-Decayed Most Frequent Location

アンサンブル

Cross-city LP-BERTがGEO-BLEU, DTWで最も精度が高かったので、Cross-city LP-BERTベースにしています。 その上で、以下のルールに沿って、これまでのアプローチの予測確率値の閾値を元にアプローチ選択することでアンサンブルを行いました。

アンサンブルのルール

検証戦略(Validation Strategy)

Humob2024では、予測結果の提出が1回のみとなるため、学習データの一部を検証データとして検証データの予測スコアからモデルの良し悪しの判断を行います。 ドコモチームでは都市Bと都市Cについては、テストデータと同程度のデータを検証データとして使用し、 都市Dについては、全データの半分がテストデータであるため、検証データはテストデータの3分の1とし、トレーニングデータを確保することにしました。

結果

GEO-BLEU、DTWと都市B, C, Dのアプローチごとの検証データスコアが以下の表になります。 アプローチ1のCross-city LP-BERT(複数都市による学習)の方が、LP-BERT(単一都市による学習)よりも、GEO-BLEU, DTWの両方で一貫して精度向上していることがわかります。 これは、データサイズが大きい都市データで学習することで、別のデータが少ない都市への予測も可能になることを示していると考えられます。 これらの手法をアンサンブルすることで、GEO-BLEU、DTWの両方をバランスよくスコア向上させるようにしました。

検証データのGEO-BLEU&DTWスコア

最終順位

Humob2024に100チーム以上が参加して、その中からドコモチームはGEO-BLEU部門において3位入賞となりました。

ドコモ解法はCross-city-aware Spatiotemporal BERTで公開されています。

左からコンペ運営 矢部さん,ドコモメンバ 落合,熊谷,福島,鈴木, 右端 コンペ運営 坪内さん

最後に

  • ユーザの位置予測は、通信事業者であるドコモ事業との親和性が高く、今回のHumob2024やSIGSPATAIL聴講で得た技術知見を今後のドコモ事業で活用を図っていきます。
  • 来年のSIGSPATIAL 2025はアメリカ ミネソタ州での開催です。次回のHumob challenge(2025年は本会議GIS CUP開催予定)も機会があれば参加したいと思います。