GeoRC: 地理的位置推定における推論過程を評価するベンチマーク
TL;DR視覚言語モデルは地理的位置の特定に優れる一方、その根拠となる推論過程で虚偽の情報を生成する課題があります。本研究は、GeoGuessrの世界王者らと協力し、500件の場面に対し800件の専門的な推論過程を含むベンチマーク「GeoRC」を構築しました。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR視覚言語モデルは地理的位置の特定に優れる一方、その根拠となる推論過程で虚偽の情報を生成する課題があります。本研究は、GeoGuessrの世界王者らと協力し、500件の場面に対し800件の専門的な推論過程を含むベンチマーク「GeoRC」を構築しました。
TL;DRC3Boxは、CLIPなどの事前学習モデルを活用したクラス増分学習(CIL)手法を統合したPythonツールボックスです。従来手法から最新のCLIPベースの手法までを統一されたフレームワークにまとめ、JSONによる設定や標準化された実行パイプラインを提供することで、公平な比較と再現性の高い実験を可能にします。
TL;DR路面分類(RSC)の課題である環境多様性への対応不足を解決するため、画像と慣性計測装置(IMU)を融合した新しいマルチモーダルなフレームワークを提案。軽量な双方向クロスアテンションと適応型ゲーティング層を用い、多様な条件を含む新データセット「ROAD」での評価により、従来手法を上回る精度と堅牢性を実証しました。
TL;DR3Dシーン内で人間が機能的にインタラクションする様子を生成する、学習不要のフレームワーク「FunHSI」の提案。任意のタスク指示に基づき、シーン内の機能的要素を特定し、接触グラフを用いて相互作用をモデル化する。視覚言語モデルを活用して3D人体・手姿勢を推定し、物理的な妥当性を最適化することで、多様な屋内・屋外シーンで自然な動作生成を実現した。
TL;DRFAIRT2Vは、テキストから動画を生成するモデル(T2V)における人口統計学的バイアス(特に性別)を、追加学習なしで軽減するフレームワークです。テキストエンコーダー由来のバイアスを中和する変換技術と、初期段階のみに適用する動的なスケジューリングにより、動画の品質を保ちながら公平な生成を実現します。
TL;DRデジタル環境の変化により、GUIエージェントの性能が低下する問題に対処するため、継続学習を行う新しいタスク「Continual GUI Agents」を提案。既存手法の課題であるUI操作点や領域の変動に対応するため、新しい強化学習フレームワーク「GUI-AiF」を導入し、SOTAを超える性能を実証した。
TL;DR自動運転における認識と軌跡予測のための新たなエンドツーエンドモデル「Li-ViP3D++」が提案された。カメラとLiDARを統合する新手法「QGDF」を導入し、クエリ空間での適応的な情報融合を実現。nuScenesデータセットにおいて、従来モデルより高い認識精度と予測性能を達成しつつ、処理速度も向上させた。
TL;DRマルチモーダル大規模言語モデル(MLLM)を用いた画像品質評価(IQA)において、計算コストと大量のラベル依存を解決する「LEAF」を提案。MLLMの知覚能力を軽量な学生モデルに蒸留し、少量のラベルで評価尺度(MOS)を調整することで、低コストかつ高精度な品質評価を実現しました。
TL;DR拡散モデルが訓練データを丸暗記して生成してしまう「記憶(Memorization)」の問題に対し、対数確率分布の異方性に着目した新しい検出指標を提案。従来の手法よりも高速かつ高精度に記憶されたサンプルを特定し、Stable Diffusionを用いた実験でその有効性と、検出に基づく軽減策の実用性を実証した。
TL;DR画像とテキストのペアから皮肉を検出する新しい手法「GDCNet」の提案。マルチモーダル大規模言語モデル(MLLM)で生成した客観的な画像説明をアンカーとして利用し、元のテキストとの意味や感情のズレ(差異)を計算することで、従来手法が苦手とした関連性の薄いデータでも高精度な検出を実現し、MMSD2.0ベンチマークで最高性。
Pricing