継続更新

HGP-KMR:RGB とイベントカメラを組み合わせ、地下鉄のキロ程標認識を強くする

HGP-KMR は、通常の RGB 画像だけでは厳しい地下鉄環境のキロ程標認識に対し、イベントカメラ由来の情報を hypergraph prompt として foundation model 側へ注入することで精度を上げる手法です。 あわせて EvMetro5K という 5,599 組の RGB-Event ペアからなる専用データセットを整備し、EvMetro5K で 95.1% 精度、PARSeq 比 +3.4 ポイントを達成しています。 面白いのは、単に RGB と event を結合するだけでなく、両モダリティの高次関係を hypergraph として表現し、それを prompt 的に RGB backbone 各層へ注入した点です。単純融合より精度は高く、推論速度も 89 FPS と実用圏に収まっています。

HGP-KMR:RGB とイベントカメラを組み合わせ、地下鉄のキロ程標認識を強くする の図解
論文図解

TL;DR(結論)

  • HGP-KMR は、通常の RGB 画像だけでは厳しい地下鉄環境のキロ程標認識に対し、イベントカメラ由来の情報を hypergraph prompt として foundation model 側へ注入することで精度を上げる手法です。
  • あわせて EvMetro5K という 5,599 組の RGB-Event ペアからなる専用データセットを整備し、EvMetro5K で 95.1% 精度、PARSeq 比 +3.4 ポイントを達成しています。
  • 面白いのは、単に RGB と event を結合するだけでなく、両モダリティの高次関係を hypergraph として表現し、それを prompt 的に RGB backbone 各層へ注入した点です。単純融合より精度は高く、推論速度も 89 FPS と実用圏に収まっています。

なぜこの問題か

地下鉄のキロ程標認識は、ぱっと見は単なる文字認識に見えますが、一般的な scene text recognition より条件が厳しいです。対象は小さく、走行中にぶれ、照明は不安定で、トンネルでは暗く、屋外では過曝も起こる。文字認識モデルが得意な「見えやすい文字列」とは前提がかなり違います。

核心:何を提案したのか

提案の核心は二つあります。第一に、地下鉄キロ程標認識向けの RGB-Event データセット EvMetro5K を作ったこと。第二に、HGP-KMR という hypergraph prompt ベースの融合手法を提案したことです。どちらも欠けると、この研究の意味は薄れます。

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む