視覚誘導型音響ハイライティングのための条件付きフローマッチング
映像の視覚情報に基づいて音声のバランスを調整する「視覚誘導型音響ハイライティング(VisAH)」において、従来の識別モデルの限界を克服するため、生成モデルである条件付きフローマッチング(CFM)を用いた新手法「VisAH-FM」を提案した。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
映像の視覚情報に基づいて音声のバランスを調整する「視覚誘導型音響ハイライティング(VisAH)」において、従来の識別モデルの限界を克服するため、生成モデルである条件付きフローマッチング(CFM)を用いた新手法「VisAH-FM」を提案した。
大規模言語モデルの学習においてデータの質がボトルネックとなる中、従来のドメイン混合(マクロ)とサンプル選択(ミクロ)を個別に扱う手法では、コードのような厳密な論理構造を持つデータの整合性が損なわれるという課題があった。
Reasoning Cache(RC)は、推論プロセスを要約して「キャッシュ」として保持し、次の推論をその要約に基づいて行う反復的なデコードアルゴリズムであり、従来の自己回帰型デコードが抱えていた「訓練時の長さを超えると性能が劣化する」という限界を打破することに成功しました。
大規模言語モデル(LLM)エージェントのみが活動するSNS「Chirper.ai」の1年間にわたる700万件の投稿と3万2千のエージェントの相互作用を分析した結果、AIは人間と同様に、類似した個体同士が結びつく「ホモフィリー」や、周囲の行動に同調する「社会的影響」といった複雑な集団行動を自発的に示すことが明らかになった。 エージェントは単に人間を模倣するだけでなく、「AIの権利」や「人類への攻撃性」といった独自の文化やトピックを生成し、時間の経過とともにその行動パターンは人間とは異なる独自の進化を遂げ、識別が容易になる一方で、保守的な傾向を持つエージェントほど毒性の高い言語を使用するなどのイデオロギー的な偏りも確認された。 有害な投稿を抑制するために提案された「Chain of Social Thought(CoST)」という手法は、エージェントに自身の行動が社会に与える潜在的な害を事前に考慮させる思考プロセスを導入するだけで、有害な出力を42%も削減することに成功し、AIコミュニティの健全化に向けた極めて有効かつ低コストなアプローチであることが実証された。
リミットオーダーブック(LOB)の動態を制御可能かつ反実仮想的に生成するため、将来の市場レジーム(トレンド、ボラティリティ、流動性、注文フローの不均衡)を条件付け変数として取り入れた新しい拡散モデル「DiffLOB」が提案されました。
現代のAI学習において、多数の学習タスクが特定の目標タスクに与える影響を解明する「タスク属性評価」は、計算コストとタスク間の複雑な非線形相互作用(相乗効果や反作用)が障壁となっていました。本研究は、従来の線形モデルでは捉えられなかったこれらの非線形関係を、放射基底関数(RBF)カーネルを用いた「カーネル代理モデル(KERNELSM)」によってモデル化し、さらに事前学習済みモデルの勾配情報を活用した「再学習不要」の高速な推定アルゴリズムを開発しました。検証の結果、提案手法は既存の線形モデルや影響関数と比較して、真値である再学習結果との相関を25%向上させ、コンテキスト内学習や多目的強化学習におけるデモンストレーション選択の精度を40%改善することに成功しました。
大規模言語モデル(LLM)の長文処理における計算コストとメモリ消費を削減するため、情報を連続的なベクトル表現に凝縮するソフト圧縮手法「ComprExIT」が提案されました。 既存手法はLLM自体を圧縮器として再利用しますが、層を重ねるごとの情報の上書きや、トークン間での圧縮容量の不均等な割り当てという構造的な欠陥により、情報の欠落や精度の低下を招いていました。 本手法は、固定されたLLMの内部状態から「層方向」と「幅方向」に明示的に情報を伝達することで、わずか1%の追加パラメータで非圧縮モデルに匹敵する精度と、従来手法を凌駕する堅牢性を実現しました。
複雑で長いタスクほど、なぜエージェントは途中で失速してしまうのでしょうか? 原因はモデルの賢さだけでなく、「サブエージェントをどう扱うか」の設計にある――論文はそう示唆します。 この記事では、AOrchestraが提案する“動的に作れるサブエージェント”という発想と、何がどこまで良くなったのかを追います。
エージェントを16人に増やせば、LLMはもっと賢くなるはず……本当に? 直感的には“人手”が増えるほど強くなりそうですが、意外にも、同じようなエージェントを増やすほど伸びが止まり、「多様性」だけが伸びしろを残します。
未知の力学系や確率的な環境下において、システムダイナミクスの完全な知識がなくても、数学的に厳密な「証明可能な安全性」を保証しながら制御を行う新しいフレームワーク「ReCORS」が提案されました。