Geonix

メソドロジー

本サイトに掲載されている性能数値の算出方法について。

概要

本サイトに記載された性能数値は、特定の雇用主のデータセットではなく、合成車両軌跡データに対してプラットフォームを実行した結果に基づいています。合成データは SUMO (Simulation of Urban MObility) で生成しています。SUMO はドイツ航空宇宙センター (DLR) が開発するオープンソースの交通マイクロシミュレータで、EPL-2.0 ライセンスで公開されています。

合成データ生成

対象都市: 東京、大阪。道路ネットワーク: OpenStreetMap 抽出データ (ODbL)。シミュレーション 1日あたりの車両数: 各都市およそ100万台 (東京・大阪)。シミュレーション期間: 1日 (24時間)。出力: 5秒ごとの合成 GPS データを車両単位で記録し、日付ごとに Parquet パーティションに書き出し。ディスク上の非圧縮データ量: TODO_USER_COPY_JA: サイズ。

パイプライン構成

生 SUMO 出力 → スキーマ検証 → Polars LazyFrame による取り込み → セミジョイン事前フィルタ → HMM+Viterbi マップマッチング (Rust、Rayon 並列) → エンリッチメント + 集計 → Hive 形式 GeoParquet 出力。マッチャは東京・大阪向けに GraphHopper でエクスポートした道路ネットワーク (FlatBuffers バイナリ、起動時に1回ロード) と、エッジセグメントに対する R-tree 空間インデックスを使用し、サブミリ秒の候補検索を実現しています。

ベンチマーク設定

ハードウェア: TODO_USER_COPY_JA: CPU、RAM、ストレージ種別。OS: TODO_USER_COPY_JA: OS。ツールチェーン: rustc TODO_USER_COPY_JA: バージョン (リリースプロファイル、codegen-units 調整済み)。パイプライン構成: 本番デフォルト (Rayon 全コア使用、Polars ストリーミング有効、R-tree maxNodeFill 調整済み)。計測対象: マッチャプロセス起動から GeoParquet 出力フラッシュまでの実時間 — グラフロード、R-tree 構築、全 I/O、マッチング処理を含む。

結果

TODO_USER_COPY_JA: 結果段落 — 取り込み総車両数、生成された matched_links 総行数、実時間 (分)、records/秒 換算スループット。同一ハードウェア上の Python ベースラインとの比較 (あれば)。

注意事項

SUMO の合成軌跡はシミュレートされた運転挙動と理想化された GPS サンプリングに基づいています。実世界のプローブデータには、本番パイプラインの前処理ステージで対応している追加のノイズ (GPS ドリフト、欠損、部分的なトリップ) が含まれますが、SUMO 出力ではこれらは発生しません。本サイトの数値はクリーンな入力に対するマッチャのピーク性能を表しており、実世界のノイズを含むデータでの本番スループットは通常これらの50〜80%の範囲です。本サイトの他箇所で言及される全てのベンチマーク数値は、上記の合成データセット上での実行結果に基づいています。特定の雇用主の業務に関する数値は一切掲載していません。