継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

VSCOUT: 高次元データ監視のためのハイブリッド変分オートエンコーダによる外れ値検知

現代の製造やサービス工程で生成される高次元かつ非ガウス的なデータに対し、従来の統計的工程管理(SPC)の手法では、重い裾や非線形な依存関係、データの汚染によって正確な基準構築が困難であるという課題がありました。

6091 字
読む →

MemCtrl: MLLMを能動的メモリコントローラーとして活用するエンボディドエージェント向け新手法

エンボディドエージェント(身体性を持つAI)において、マルチモーダル大規模言語モデル(MLLM)のコンテキストウィンドウの制限や計算資源の制約を解決するため、観測情報をリアルタイムで選別して保存・破棄を判断する「MemCtrl」という新しいフレームワークが提案されました。

5864 字
読む →

言語モデルにおける線形表現は会話を通じて劇的に変化しうる

大規模言語モデルの内部には事実性や倫理といった概念に対応する線形な表現方向が存在するが、これらは会話の進行に伴って劇的に変化し、当初は事実とされていた情報が会話の終盤では非事実として表現されるといった「表現の反転」が起こることが明らかになった。

5664 字
読む →

オープンボキャブラリーに基づく機能的な3D人物・シーンインタラクションの生成

FunHSIは、事前の追加学習を必要としないトレーニングフリーなフレームワークであり、オープンボキャブラリーな指示に基づいて、3Dシーン内の特定の機能的要素と人間が正しく相互作用する様子を生成します。

6341 字
読む →

報酬モデルは事前学習から価値バイアスを継承する

報酬モデル(RM)は、大規模言語モデル(LLM)を人間の価値観に合わせる「アライメント」の中核を担うが、初期化に使用される事前学習済みモデルから心理的なバイアスを直接継承していることが判明した。

5982 字
読む →

深層リサーチャー:省察と進化

Deep Researcher Reflect Evolveは、従来の並列処理による情報の断片化を解決するため、逐次的な研究計画の洗練と「候補の交差」アルゴリズムを導入した新しいAIアーキテクチャである。

5702 字
読む →

$\mathbb{R}^{2k}$ is Theoretically Large Enough for Embedding-based Top-$k$ Retrieval

本研究は、要素数mの集合から最大k個の要素を検索するために必要な最小埋め込み次元(MED)を理論的に解明し、内積やコサイン類似度、ユークリッド距離といった主要な指標において、理論上は要素数mに依存せず2k次元あれば十分であることを数学的に証明した。

6331 字
読む →

カメラとIMUの融合による堅牢な路面分類のための新しいデータセットとフレームワーク

本研究は、カメラ画像と慣性計測装置(IMU)のデータを統合し、軽量な双方向クロスアテンションと適応型ゲーティング層を用いることで、夜間や豪雨、激しい砂埃といった過酷な環境下でも路面を正確に分類する新しいマルチモーダルフレームワークを提案しています。

6821 字
読む →

C3Box:CLIPベースのクラス増分学習ツールボックス

従来の深層学習は静的なデータ分布を前提としており、新しいクラスを順次学習する際に過去の知識を失う「破滅的忘却」が大きな課題となっていました。近年、CLIPのような事前学習済みモデルを活用したクラス増分学習(CIL)が注目されていますが、既存の手法は実装コードが分散しており、実験設定や評価指標が統一されていないため、公平な比較や再現が困難という問題がありました。 本研究では、CLIPを基盤としたクラス増分学習のためのモジュール化された包括的なPythonツールボックスである「C3Box」を提案し、伝統的な手法から最新のCLIP専用手法までを統合しました。C3Boxは、JSON形式の設定ファイルと標準化された実行パイプラインを採用することで、低いエンジニアリング負荷で再現性の高い実験を可能にし、研究者が新しい手法を容易に統合できる環境を提供します。 17種類の代表的な手法を10種類のベンチマークデータセットで検証した結果、CLIPベースの手法が従来のCIL手法を上回る性能を示すことが確認され、本ツールボックスが信頼性の高い評価プラットフォームであることが示されました。このツールボックスは、主要なOSをサポートし、広く普及しているオープンソースライブラリのみに依存しているため、コミュニティ全体での活用と継続的な発展が期待されます。

5847 字
読む →

表形式データ生成のための変分オートエンコーダにおけるTransformerの配置に関する探究

本研究では、表形式データの生成において変分オートエンコーダ(VAE)のどの構成要素にTransformerを配置すべきかを、57種類の多様なデータセットを用いて網羅的に調査しました。実験の結果、Transformerを潜在空間やデコーダに配置することで生成データの多様性は向上するものの、元のデータに対する忠実度が低下するという明確なトレードオフの関係が存在することが判明しました。また、デコーダに配置されたTransformerは層正規化の影響により実質的に線形な挙動を示しており、複雑な特徴間相互作用の学習には限定的な寄与しかしていない可能性が示唆されています。

6138 字
読む →