HGP-KMR は、通常の RGB 画像だけでは厳しい地下鉄環境のキロ程標認識に対し、イベントカメラ由来の情報を hypergraph prompt として foundation model 側へ注入することで精度を上げる手法です。 あわせて EvMetro5K という 5,599 組の RGB-Event ペアからなる専用データセットを整備し、EvMetro5K で 95.1% 精度、PARSeq 比 +3.4 ポイントを達成しています。 面白いのは、単に RGB と event を結合するだけでなく、両モダリティの高次関係を hypergraph として表現し、それを prompt 的に RGB backbone 各層へ注入した点です。単純融合より精度は高く、推論速度も 89 FPS と実用圏に収まっています。
地下鉄のキロ程標認識は、ぱっと見は単なる文字認識に見えますが、一般的な scene text recognition より条件が厳しいです。対象は小さく、走行中にぶれ、照明は不安定で、トンネルでは暗く、屋外では過曝も起こる。文字認識モデルが得意な「見えやすい文字列」とは前提がかなり違います。
提案の核心は二つあります。第一に、地下鉄キロ程標認識向けの RGB-Event データセット EvMetro5K を作ったこと。第二に、HGP-KMR という hypergraph prompt ベースの融合手法を提案したことです。どちらも欠けると、この研究の意味は薄れます。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related