継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

計量時相回答セットプログラミングの実装

回答セットプログラミング(ASP)において、期間や締め切りといった定量的な時間制約を扱う際、時間の精度を上げると接地(グラウンディング)の負荷が爆発的に増大する問題がありました。 / 本研究では、差分制約という簡略化された線形制約を導入して時間処理を外部化することで、時間の粒度に依存しないスケーラブルな計算手法を提案し、その論理的な正当性を証明しました。 / 具体的には、メトリック論理プログラムを通常の論理プログラムや差分制約付きプログラムへ変換する二つの翻訳手法を開発し、時間の最大値や精度に関わらず、プログラムの規模をトレースの長さに比例する範囲に抑えることを可能にしました。

6022 字
読む →

HESTIA: ヘシアン行列を活用した極低ビットLLM向け微分可能量子化トレーニング

大規模言語モデル(LLM)のメモリ消費を抑えるため、重みを{-1, 0, 1}の3値に圧縮する1.58ビット量子化が注目されていますが、従来の量子化手法では硬い丸め処理による勾配の不一致や、重みの更新が停滞する「デッドゾーン問題」が性能向上の大きな障壁となっていました。

6645 字
読む →

REASON: スケーラブルなニューロシンボリック知能のための確率的論理推論の高速化

大規模言語モデルが抱える事実誤認や推論能力の欠如を解決するため、ニューラルネットワークの知覚能力と記号的・確率的な論理推論を統合した「ニューロシンボリックAI」が注目されていますが、従来のGPUやCPUでは記号推論や確率推論の処理効率が極めて低いという課題がありました。

5977 字
読む →

FAIRT2V:テキストからビデオへの拡散モデルのための学習不要な脱バイアス

テキストから動画を生成する拡散モデル(T2V)において、特定の職業が特定の性別に偏って生成される深刻なジェンダーバイアスが存在することを特定し、その主な原因がCLIPなどの事前学習済みテキストエンコーダーにあることを詳細な分析によって明らかにしました。

5795 字
読む →

自己蒸留による強化学習:リッチなフィードバックを密な学習信号へ変換する新手法「SDPO」

現在の強化学習(RLVR)は、成功か失敗かというスカラー値の報酬のみに依存しており、なぜ失敗したかという詳細な情報を学習に活かせないボトルネックがある。本研究が提案するSDPOは、実行エラーや判定結果などの「リッチなフィードバック」をモデル自身に読み込ませ、自己教師として過去の回答を再評価させることで、密度の高い学習信号を生成する手法である。検証の結果、科学的推論やプログラミングにおいて、既存手法のGRPOを大幅に上回る学習効率と精度を達成し、特に難易度の高い課題では3倍少ない試行回数で正解に到達することが確認された。

6468 字
読む →

失敗プレフィックス条件付けによる飽和問題での推論モデルの学習

検証可能な報酬を用いた強化学習(RLVR)において、モデルが問題をほぼ完璧に解けるようになる「飽和状態」では学習信号が消失し、性能向上が停滞するという課題がある。 本研究は、稀に発生する誤った推論の断片(失敗プレフィックス)を問題文に付与して学習を開始させる「失敗プレフィックス条件付け」を提案し、意図的に失敗しやすい状態から探索させることで学習信号を回復させる。 実験の結果、飽和した問題のみを用いても中難易度の問題で学習した場合と同等の性能向上を達成し、推論の堅牢性が向上するとともに、トークン効率を維持したまま反復的な学習によってさらなる改善が可能であることを示した。

5776 字
読む →

MemCtrl: MLLMを能動的メモリコントローラーとして活用するエンボディドエージェント向け新手法

エンボディドエージェント(身体性を持つAI)において、マルチモーダル大規模言語モデル(MLLM)のコンテキストウィンドウの制限や計算資源の制約を解決するため、観測情報をリアルタイムで選別して保存・破棄を判断する「MemCtrl」という新しいフレームワークが提案されました。

5864 字
読む →

オープンボキャブラリーに基づく機能的な3D人物・シーンインタラクションの生成

FunHSIは、事前の追加学習を必要としないトレーニングフリーなフレームワークであり、オープンボキャブラリーな指示に基づいて、3Dシーン内の特定の機能的要素と人間が正しく相互作用する様子を生成します。

6341 字
読む →

報酬モデルは事前学習から価値バイアスを継承する

報酬モデル(RM)は、大規模言語モデル(LLM)を人間の価値観に合わせる「アライメント」の中核を担うが、初期化に使用される事前学習済みモデルから心理的なバイアスを直接継承していることが判明した。

5982 字
読む →

深層リサーチャー:省察と進化

Deep Researcher Reflect Evolveは、従来の並列処理による情報の断片化を解決するため、逐次的な研究計画の洗練と「候補の交差」アルゴリズムを導入した新しいAIアーキテクチャである。

5702 字
読む →