継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

分解と形式化:再帰的に検証可能な自然言語推論

自然言語推論において、大規模言語モデルと定理証明器を統合する際の課題であった、長文や複雑な構文に起因する形式化エラーと、それによる推論チェーン全体の破綻を解決するため、推論過程を「含意ツリー」として構造化し、各ステップを最小単位の命題に分解して再帰的に検証・修正するフレームワーク「LLM-TP Tree」を提案しました。 この手法では、文を最小単位に切り分ける「原子的分解」と、イベントベースの論理形式で意味的な役割結合を厳密に管理する「$\theta$置換」を導入することで、定理証明器との互換性と元の文章への忠実性を両立させ、失敗した箇所のみを特定して局所的に修正する効率的なプロセスを実現しています。 5つの最新の大規模言語モデルを用いた評価の結果、従来手法と比較して検証成功率を最大48.9%向上させ、修正のための反復回数や実行時間を大幅に削減しながら、高い推論精度を維持することに成功し、複雑な多段階推論を論理的に厳密な形で検証できる実用的な可能性を示しました。

6096 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

GMS-CAVPは、映像と音声の間の意味的・時間的な対応関係を高度にモデル化するため、マルチスケールでの対照学習と拡散モデルベースの生成学習を統合した新しい視聴覚事前学習フレームワークである。 従来の単一スケールによるグローバルな整列の限界を克服するため、階層的な空間・時間構造を捉える「マルチスケール空間・時間整列(MSA)」と、モダリティ間の翻訳能力を高める「マルチスケール空間・時間拡散(MSD)」を導入している。 VGGSound、AudioSet、Panda70Mを用いた大規模な実験において、映像からの音声生成および双方向検索の双方で従来手法を大幅に上回る世界最高水準の性能を達成し、高い同期性と音響品質を証明した。

5982 字
読む →

方策事前分布を用いた安全な探索

強化学習エージェントが実世界で学習する際、壊滅的な失敗を避けるための「安全な探索」が不可欠であり、本研究ではオフラインデータやシミュレータから得られる不完全だが保守的な「方策事前分布」を活用する新しいアルゴリズムであるSOOPERを提案した。

6184 字
読む →

最大36倍の高速化:MLLMにおけるキー情報抽出のためのマスクベース並列推論パラダイム

視覚的に豊かな文書(VrD)からのキー情報抽出(KIE)において、従来のマルチモーダル大規模言語モデル(MLLM)が抱えていた自己回帰的な逐次トークン生成による推論速度のボトルネックを解消するため、ターゲットとなる値を「[mask]」トークンで置き換えて一括生成する並列推論パラダイム「PIP」が提案されました。

5820 字
読む →

R^3:LLM強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模言語モデルの強化学習において、グループ内の回答がすべて正解または不正解になり学習信号が消失する「アドバンテージの崩壊」を解決するため、過去の履歴を活用するリプレイ(CCR)、自己反省を促すリフレクション(ISR)、未完の回答をエントロピーで評価するランキング報酬(SERR)を組み合わせた新手法「R³」を提案しました。 この手法をDeepSeek-R1-Distill-Qwen-1.5Bに適用した結果、数学ベンチマークにおいて従来の1.5Bモデルを大幅に上回るだけでなく、パラメータ数が数倍大きい7B規模の既存モデルをも凌駕する性能を達成し、より少ない推論トークン数で効率的に正解に到達できることが実証されました。 具体的には、数学の難問セットであるAIME24において、ベースモデルの28.12から47.50へとスコアをほぼ倍増させ、さらに学習プロセスにおいて人間によるプロセス報酬の注釈を必要としない教師なしの報酬設計を実現することで、計算リソースの効率化と推論能力の深化を両立させています。

5989 字
読む →

たった一つのトークンで十分:シンクトークンによる拡散言語モデルの改良

拡散言語モデル(DLM)において、注意が特定のトークンに過度に集中する「シンク現象」が、推論ステップごとに予測不能に移動する「移動シンク現象」を特定し、これがモデルの不安定性を引き起こす課題を明らかにした。

6478 字
読む →

条件付き分位点対比(CQC)の直接的かつ二重にロバストな推定法

不均一治療効果(HTE)分析において、未治療時の反応値を治療後の対応する分位点へと変換する指標「条件付き分位点対比(CQC)」の新しい直接推定法を提案した。従来のCQC推定は中間関数の推定と複雑な反転操作を必要としていたが、本手法はM推定の枠組みを導入することで、CQC自体をニューラルネットワークや線形モデルで直接パラメータ化し、効率的に学習することを可能にした。 提案手法は「二重にロバスト(Double Robust)」な性質を保持しており、傾向スコアや条件付き累積分布関数といった補助パラメータの推定に誤差が含まれていても、少なくとも一方が正確であればCQCを正しく推定できる。理論的には推定誤差がCQC自体の複雑さに依存することを証明し、数値実験と雇用支援プログラムの実データを用いた検証により、従来手法を上回る推定精度と計算効率、および高い解釈性を実証した。 直接的なパラメータ化により、モデルに滑らかさの制約を課すことや、特定の反応値に対する治療効果の評価が容易になり、意思決定の質を向上させる。特に所得分布の歪みや極端な値が存在するデータセットにおいて、従来の平均的な効果測定(CATE)や分位点ごとの差分(CQTE)よりも直感的で頑健な治療効果の要約を提供し、実世界の複雑な介入シナリオにおけるパーソナライズされた意思決定を強力に支援する。

5638 字
読む →

スケーラブルなビジョンモデル初期化のための自己教師あり重みテンプレート

現代の視覚モデルの急速な大規模化に伴い、特定のサイズで事前学習されたモデルを異なる規模のアーキテクチャに適応させる際の膨大な計算コストが課題となっているが、本研究はこの問題を解決するために、Tucker分解に基づく構造的制約を用いた自己教師あり学習フレームワークであるSWEETを提案した。

5962 字
読む →

不変軌道学習による一般化可能なマルチモーダル大規模言語モデル編集

マルチモーダル大規模言語モデル(MLLM)の知識編集において、従来の固定的なマッピングが引き起こす「因果的な過小適合」と「因果的な過学習」を解決するため、編集を分布外(OOD)汎化問題として再定義しました。

5812 字
読む →

SAM Audio Judge:音源分離の知覚的評価のための統合マルチモーダルフレームワーク

従来の音源分離評価で主流だったSDRなどの指標は、正解信号への依存や人間の知覚との乖離という大きな課題を抱えていましたが、本研究では正解信号を必要とせず、人間の知覚と高度に一致する新しい客観的評価指標「SAM Audio Judge(SAJ)」を開発しました。

7078 字
読む →