みなさん、はじめまして。ARISE analytics の今井裕貴と申します。
普段は弊社が開発しているOMO(Online Merges with Offline)データを集約したプラットフォームを活用し、位置情報やサービス利用ログを組み合わせたデータ分析業務を行っています。
今回はアトランタで開催された国際会議のデータ分析コンペティションに有志メンバーで参加し、銀賞を獲得しました。その経緯についてご紹介します。この記事を通して、どんどんコンペに参加できる弊社ARISE analyticsに興味を持っていただければ嬉しいです。
HuMob’2024概要
参加したコンペティションはHuMob Challenge 2024です。(HuMob Challenge 2024 | Multi-City Human Mobility Prediction (nyu.edu))
こちらは地理情報・空間情報に関する国際会議ACM SIGSPATIAL2024の一環として開催されました。本コンペの上位者はアトランタ現地に招待され、自らの成果を発表する機会が与えられます。主催者はニューヨーク大学のYabe Takahiroさん、LINEヤフーのTsubouchi Kotaさん、Shimizu Toruさんをはじめとする方々です。
対象データセット(Human Mobility Prediction Challenge 2024: Multi-City Prediction)は、携帯電話から取得された位置情報による移動軌跡です。大規模な都市部における人の移動軌跡データセットは、プライバシーの観点から多く存在しません。そのため、本データセットは、手法間の性能を比較するための統一的な基盤として、重要な役割を持ちます。もちろん本データセットも匿名化されています。
本ワークショップでは、4都市での60日間の個人の移動軌跡を学習し、15日間の人流を予測します。(厳密には予測対象者でないユーザーに関しては、60~75日間のデータも与えられます。)
HuMob Challenge 2024では、去年のHuMobと異なり、複数都市のデータが対象となりました。つまり「都市Aの移動軌跡が都市Bの移動軌跡の予測精度向上に寄与するか?」がテーマといえます。もちろん寄与しない(寄与しうる特徴を見いだせない)可能性も十分にあります。最終データ提出までの限られた期間の中で、どのデータを利用するか、もしくはしないかが面白いところだと思いました。
コンペティション参加
本コンペティションは、弊社COO小林から紹介され、興味を持ったARISEの有志メンバーが集まり、エントリーしました。
参加メンバーは普段、位置情報データの分析を行っているメンバーやKaggle部メンバーから計8人が参加しました。過去の入賞アプローチを参考に、GPT-2ベース、BERTベース、テーブルデータベースとアプローチごとに分かれて、取り組みました。エントリーから提出までは約1ヶ月間と全てを検証するには短い期間であるうえに、普段の業務との兼ね合いのため、コンペだけに集中できるわけではありませんでしたが、各々の知見・取り組みを集約してコンペに取り組みました。
最終的には、ルールベースモデルやシンプルな機械学習モデルによるテーブルデータアプローチを採用し、なんとか提出までこぎつけることができました。
テーブルデータアプローチについて
最終的に提出したテーブルデータアプローチでは、ルールベース、サポートベクター回帰の2種類の手法を取り組みました。
ルールベースモデルのロジックは過去の同じ時刻スロット(ex:火曜10時や木曜午前)に一番よくいる場所を予測にも用いるというシンプルなルールですが、こちらでも一定の精度を獲得することができました。
サポートベクター回帰については、HuMob’2023で入賞したSuzukiらのアプローチ(2023)を基にし、前処理の追加や特徴量設計の検討を行いました。前処理には、データ欠損時に前後の位置で線形補間を導入しました。また特徴量の検討については、新規に移動系特徴量(予測対象ユーザーの移動傾向)を追加したり、参考手法では使われていたが、寄与しないだろうと思われる特徴量を除去したりしました。
ルールベースやサポートベクター回帰でも一定の精度で予測できた理由は、人の移動には規則的な移動(毎日の通勤・通学や習い事)と不規則的な移動(週末の用事、思いつきの寄り道など)があり、シンプルなモデルが前者の移動の予測に、うまくマッチしたからと考えています。また不規則な移動をあてるために、日常的な移動軌跡とは大きく異なる場所を予測して外してしまうと指標精度が大きく下がるため、外れ値的な予測をしなかったことも結果的に精度に寄与したと考えています。
Top10入賞報告・現地参加の準備
その後、入賞の連絡が届きました。現地発表まではShort Paperを執筆したり、現地発表の準備をしたりしました。Short Paper執筆や現地発表は、すべて英語のため苦労しましたが、生成AIとの対話を重ねながらブラッシュアップしていきました。準備期間の少し前にChatGPTの高度な音声モードが発表されたので、そちらで、英会話の練習などもしていました。
当日発表
アトランタまで12~14時間のフライトでかけて向かいました。
当日の発表は、日本の企業、大学からの参加者も多かったことから心細さはあまり無かったですが、発表順が最後ということもあり、緊張しました。発表自体は練習通り、こなせたと思います。
その後、また2種類の精度指標のうちの1つであるDTW部門で全チーム中2位を取得し、受賞することができました!参加チームが100チームを超えたうちの2位なので、嬉しいです。
もちろん現手法で満足しているわけではなく、今回の上位入賞チームの多くがTransformerベースの手法を採用していました。我々のチームでは、時間的制約から十分に取り組むことができなかった解法でもあるため、次回のHuMobに向けて精力的に取り組んでいきたいと考えています。
参加してみて・後編へ
このように参加経緯から現地発表まで書かせていただきました。、貴重な機会を得ることができ、改めて参加できよかったです。新卒2年目でこのような機会を与えていただき、十分な機会提供がある会社だなとヒシヒシと感じています。
この記事の後半では、HuMob参加後の本会議ACM SIGSPATIAL聴講内容について紹介します。こちらごも興味があれば、お読みください。
【後編】2位入賞!アトランタ開催データコンペティションHuMob’24参加記 | 株式会社ARISE analytics(アライズ アナリティクス)
最後まで読んでいただきありがとうございました。こちらの記事を読んでARISEに興味が湧きましたら、ぜひお問い合わせ・お声がけください。