論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

運営: Cognitive Research Labs(CRL) / crl.co.jp

新着 論文 人気 料金 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 36 クリック 16

GeoRC: 地理的位置推定における推論過程を評価するベンチマーク

TL;DR視覚言語モデルは地理的位置の特定に優れる一方、その根拠となる推論過程で虚偽の情報を生成する課題があります。本研究は、GeoGuessrの世界王者らと協力し、500件の場面に対し800件の専門的な推論過程を含むベンチマーク「GeoRC」を構築しました。

読了 0 分 1335 字
読む →

C3Box:CLIPベースのクラス増分学習ツールボックス

TL;DRC3Boxは、CLIPなどの事前学習モデルを活用したクラス増分学習(CIL)手法を統合したPythonツールボックスです。従来手法から最新のCLIPベースの手法までを統一されたフレームワークにまとめ、JSONによる設定や標準化された実行パイプラインを提供することで、公平な比較と再現性の高い実験を可能にします。

読了 0 分 1410 字
読む →

カメラとIMUの融合による堅牢な路面分類のための新しいデータセットとフレームワーク

TL;DR路面分類(RSC)の課題である環境多様性への対応不足を解決するため、画像と慣性計測装置(IMU)を融合した新しいマルチモーダルなフレームワークを提案。軽量な双方向クロスアテンションと適応型ゲーティング層を用い、多様な条件を含む新データセット「ROAD」での評価により、従来手法を上回る精度と堅牢性を実証しました。

読了 0 分 1562 字
読む →

オープンボキャブラリーに基づく機能的な3D人物・シーンインタラクションの生成

TL;DR3Dシーン内で人間が機能的にインタラクションする様子を生成する、学習不要のフレームワーク「FunHSI」の提案。任意のタスク指示に基づき、シーン内の機能的要素を特定し、接触グラフを用いて相互作用をモデル化する。視覚言語モデルを活用して3D人体・手姿勢を推定し、物理的な妥当性を最適化することで、多様な屋内・屋外シーンで自然な動作生成を実現した。

読了 0 分 1529 字
読む →

FAIRT2V: 学習不要でテキストから動画生成する際のバイアスを除去する新手法

TL;DRFAIRT2Vは、テキストから動画を生成するモデル(T2V)における人口統計学的バイアス(特に性別)を、追加学習なしで軽減するフレームワークです。テキストエンコーダー由来のバイアスを中和する変換技術と、初期段階のみに適用する動的なスケジューリングにより、動画の品質を保ちながら公平な生成を実現します。

読了 0 分 1173 字
読む →

Continual GUI Agents:変化し続けるデジタル環境に適応するGUIエージェント

TL;DRデジタル環境の変化により、GUIエージェントの性能が低下する問題に対処するため、継続学習を行う新しいタスク「Continual GUI Agents」を提案。既存手法の課題であるUI操作点や領域の変動に対応するため、新しい強化学習フレームワーク「GUI-AiF」を導入し、SOTAを超える性能を実証した。

読了 0 分 1428 字
読む →

Li-ViP3D++: クエリベースの変形可能フュージョンによるエンドツーエンドの認識と軌跡予測

TL;DR自動運転における認識と軌跡予測のための新たなエンドツーエンドモデル「Li-ViP3D++」が提案された。カメラとLiDARを統合する新手法「QGDF」を導入し、クエリ空間での適応的な情報融合を実現。nuScenesデータセットにおいて、従来モデルより高い認識精度と予測性能を達成しつつ、処理速度も向上させた。

読了 0 分 1446 字
読む →

Decoupling Perception and Calibration: ラベル効率の高い画像品質評価フレームワーク

TL;DRマルチモーダル大規模言語モデル(MLLM)を用いた画像品質評価(IQA)において、計算コストと大量のラベル依存を解決する「LEAF」を提案。MLLMの知覚能力を軽量な学生モデルに蒸留し、少量のラベルで評価尺度(MOS)を調整することで、低コストかつ高精度な品質評価を実現しました。

読了 0 分 1307 字
読む →

拡散モデルの記憶問題を対数確率の異方性から検出し軽減する新手法

TL;DR拡散モデルが訓練データを丸暗記して生成してしまう「記憶(Memorization)」の問題に対し、対数確率分布の異方性に着目した新しい検出指標を提案。従来の手法よりも高速かつ高精度に記憶されたサンプルを特定し、Stable Diffusionを用いた実験でその有効性と、検出に基づく軽減策の実用性を実証した。

読了 0 分 1324 字
読む →

GDCNet: マルチモーダル皮肉検出のための生成的差異比較ネットワーク

TL;DR画像とテキストのペアから皮肉を検出する新しい手法「GDCNet」の提案。マルチモーダル大規模言語モデル(MLLM)で生成した客観的な画像説明をアンカーとして利用し、元のテキストとの意味や感情のズレ(差異)を計算することで、従来手法が苦手とした関連性の薄いデータでも高精度な検出を実現し、MMSD2.0ベンチマークで最高性。

読了 0 分 1480 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める