継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

GFlowPO: 言語モデルプロンプトオプティマイザとしての生成フローネットワーク

GFlowPOは、言語モデルのプロンプト探索を潜在的なプロンプトに対する事後分布推論の問題として定式化し、生成フローネットワーク(GFlowNet)を活用して効率的に最適化を行う新しい確率的フレームワークです。

5711 字
読む →

MeKi: 効率的なLLMスケーリングのためのメモリベースの専門知識注入

スマートフォンなどのエッジデバイスにおいて、計算量やメモリ消費を抑えつつモデルの能力を向上させるため、ストレージ(ROM)を活用して知識を注入する新しいアーキテクチャ「MeKi」が提案されました。

5759 字
読む →

手書き数式認識のための離散拡散モデルを用いたシンボル認識推論

手書き数式認識(HMER)において、従来の逐次的な生成手法ではなく、離散拡散モデルを用いた反復的なシンボル洗練プロセスを提案した。この手法は、先行する予測の誤りが後続に影響する露呈バイアスを排除し、複雑な二次元構造を持つ数式の認識精度を大幅に向上させる。

6146 字
読む →

長期ホライゾンのオフライン・ゴール条件付き強化学習のためのゴールの連鎖階層的方策

従来のオフライン階層的強化学習は、高レベルと低レベルのネットワークが分離されているため、複雑なタスクで最終ゴールを見失いやすく、単一の中間ゴールしか生成できないという構造的な限界を抱えていました。

6563 字
読む →

悪循環から好循環へ:教師なしビデオ物体中心学習のための相乗的表現学習

ビデオ物体中心学習において、エンコーダが生成する鋭いがノイズの多いアテンションマップと、デコーダが生成する空間的に一貫しているが境界がぼやけた再構成マップが、互いの学習を阻害し合う「悪循環」を特定しました。

5716 字
読む →

リスク意識の注入:有用性を損なうことなく安全性のために視覚言語モデルを較正する

視覚言語モデル(VLM)は、視覚情報の統合によって本来の安全ガードレールが機能しなくなる「リスク信号の希釈」という課題を抱えており、画像や動画を悪用したマルチモーダルな脱獄攻撃に対して極めて脆弱です。

7466 字
読む →

SWE-Master:ポストトレーニングによるソフトウェアエンジニアリングエージェントの潜在能力の解放

SWE-Masterは、ソフトウェアエンジニアリング(SWE)タスクを自律的に解決するエージェントを構築するための、完全に再現可能でオープンソース化されたポストトレーニングフレームワークである。

7050 字
読む →

FactNet: 多言語の事実根拠付けのための10億規模ナレッジグラフ

FactNetは、1.7億件の原子的な主張と316の言語版Wikipediaから抽出された30.1億件の証拠ポインタを統合した、世界最大規模の多言語ナレッジグラフであり、LLMのハルシネーション抑制に不可欠な追跡可能な根拠を提供する。

6355 字
読む →

SWE-World:Dockerフリー環境におけるソフトウェアエンジニアリングエージェントの構築

従来のソフトウェアエンジニアリングエージェントは、コード実行やテストのためにDockerなどの重いコンテナ環境に依存しており、環境構築の失敗や膨大な計算リソースの消費が、大規模な学習や評価を妨げる深刻なボトルネックとなっていました。

5849 字
読む →

DiscoverLLM:意図の実行から発見へと導く大規模言語モデルの学習フレームワーク

ユーザーが自身の望みを完全には言語化できていない「未形成の意図」を持つ状況において、従来の大規模言語モデルは具体的な質問を繰り返すだけであり、ユーザーが答えを持っていない場合には効果的に機能しないという課題がありました。

6330 字
読む →