GFlowPO: 言語モデルプロンプトオプティマイザとしての生成フローネットワーク
GFlowPOは、言語モデルのプロンプト探索を潜在的なプロンプトに対する事後分布推論の問題として定式化し、生成フローネットワーク(GFlowNet)を活用して効率的に最適化を行う新しい確率的フレームワークです。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
GFlowPOは、言語モデルのプロンプト探索を潜在的なプロンプトに対する事後分布推論の問題として定式化し、生成フローネットワーク(GFlowNet)を活用して効率的に最適化を行う新しい確率的フレームワークです。
スマートフォンなどのエッジデバイスにおいて、計算量やメモリ消費を抑えつつモデルの能力を向上させるため、ストレージ(ROM)を活用して知識を注入する新しいアーキテクチャ「MeKi」が提案されました。
手書き数式認識(HMER)において、従来の逐次的な生成手法ではなく、離散拡散モデルを用いた反復的なシンボル洗練プロセスを提案した。この手法は、先行する予測の誤りが後続に影響する露呈バイアスを排除し、複雑な二次元構造を持つ数式の認識精度を大幅に向上させる。
従来のオフライン階層的強化学習は、高レベルと低レベルのネットワークが分離されているため、複雑なタスクで最終ゴールを見失いやすく、単一の中間ゴールしか生成できないという構造的な限界を抱えていました。
ビデオ物体中心学習において、エンコーダが生成する鋭いがノイズの多いアテンションマップと、デコーダが生成する空間的に一貫しているが境界がぼやけた再構成マップが、互いの学習を阻害し合う「悪循環」を特定しました。
視覚言語モデル(VLM)は、視覚情報の統合によって本来の安全ガードレールが機能しなくなる「リスク信号の希釈」という課題を抱えており、画像や動画を悪用したマルチモーダルな脱獄攻撃に対して極めて脆弱です。
SWE-Masterは、ソフトウェアエンジニアリング(SWE)タスクを自律的に解決するエージェントを構築するための、完全に再現可能でオープンソース化されたポストトレーニングフレームワークである。
FactNetは、1.7億件の原子的な主張と316の言語版Wikipediaから抽出された30.1億件の証拠ポインタを統合した、世界最大規模の多言語ナレッジグラフであり、LLMのハルシネーション抑制に不可欠な追跡可能な根拠を提供する。
従来のソフトウェアエンジニアリングエージェントは、コード実行やテストのためにDockerなどの重いコンテナ環境に依存しており、環境構築の失敗や膨大な計算リソースの消費が、大規模な学習や評価を妨げる深刻なボトルネックとなっていました。
ユーザーが自身の望みを完全には言語化できていない「未形成の意図」を持つ状況において、従来の大規模言語モデルは具体的な質問を繰り返すだけであり、ユーザーが答えを持っていない場合には効果的に機能しないという課題がありました。