継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

本研究は、Whisper ASRの騒音耐性を劇的に向上させるため、視覚的特徴量をエンコーダとデコーダの両方に統合する「デュアルユース」手法を提案し、従来の融合手法が抱えていた学習の不安定さや相互作用の欠如という課題を解決した。

5975 字
読む →

液液分離における稠密充填層の高さ推定:物理情報に基づいたニューラルネットワークによるアプローチ

化学や製薬の工程で不可欠な液液分離において、装置の溢流を防ぐ鍵となる稠密充填層(DPZ)の高さは、光学的な制約により直接測定が困難で高価という課題がありました。本研究では、安価な流量データのみからフェーズ高さを推定するため、低忠実度の機構モデルによる事前学習と少量の実験データによる微調整を組み合わせた「物理情報ニューラルネットワーク(PINN)」を提案しました。このPINNを拡張カルマンフィルタ(EKF)に予測モデルとして組み込むことで、従来の純粋なデータ駆動型モデルや機構モデルを凌駕する精度で、動的なフェーズ高さの推移をリアルタイムに追跡することに成功しました。さらに、物理的な制約をモデルに持たせることで、学習データに含まれない未知の運転条件下でも安定した推定が可能となり、プロセスの安全性向上とコスト削減を両立する新たな監視手法としての有効性が示されました。

6210 字
読む →

超線形多段階アテンション

本論文は、標準的な自己注意機構の二次計算量 $O(L^2)$ を打破し、シーケンス長 $L$ に対して $O(L^{1+1/N})$ の劣二次計算量を実現する「スーパーリニア・アテンション」を提案しています。

5937 字
読む →

ゲームにおける頻度に基づくハイパーパラメータ選択

ゲームの学習における回転ダイナミクス(振動)を抑制するため、離散力学系の周波数推定に基づきLookAheadアルゴリズムのハイパーパラメータを自動選択する新手法「MoLA」を提案した。 複素周波数空間(z平面)でのモード解析により、システムの安定性を最大化する更新回数 $k$ と補間重み $\alpha$ を決定することで、単調かつリプシッツ連続な演算子に対する $O(1/T)$ の収束を理論的に保証した。 双線形ゲームや強凸強凹ゲームを用いた検証において、従来のLookAheadや他の変分不等式手法を上回る収束速度を達成し、計算コストを最小限に抑えつつ訓練を効率的に加速させることに成功した。

5663 字
読む →

LLMを用いた静的バグ検出における誤検知の削減:産業界における実証研究

静的解析ツールは産業界で不可欠ですが、95%を超える高い誤検知率が開発者の大きな負担となっており、Tencentの調査では1件の警告を確認するのに平均10分から20分を費やしている実態が判明しました。

6798 字
読む →

daVinci-Dev:ソフトウェア工学のためのエージェントネイティブな中間トレーニング

従来のコード生成モデルは単発の関数作成から、自律的にリポジトリを操作し編集やテストを行うエージェント型ソフトウェア工学へと進化していますが、学習データが静的なコードの断片に偏っているため、実際の開発現場で求められる動的なフィードバックへの対応や試行錯誤のプロセスを十分に学習できていないという深刻な分布の不一致が課題となっています。 本研究では、GitHubのプルリクエストから開発の文脈と編集の流れを再構成した「文脈ネイティブな軌跡」と、実際のDocker環境での実行結果やテストのフィードバックを記録した「環境ネイティブな軌跡」の二種類からなる「エージェントネイティブ・データ」を提案し、大規模な中間トレーニング(ミッドトレーニング)を実施することで、モデルに基礎的なエージェント能力を植え付ける手法を確立しました。 この手法を用いたdaVinci-Devモデルは、SWE-Bench Verifiedにおいて既存のオープンな手法であるKIMI-DEVを半分以下のトークン数で上回り、32Bモデルで56.1%、72Bモデルで58.5%という高い解決率を達成し、非コード特化型のベースモデルから出発しながらも、エージェント型ソフトウェア工学における新たな状態最高(SOTA)を記録するとともに、科学的推論や一般的なコード生成能力の向上も確認されました。

5902 字
読む →

勾配正則化された自然勾配

深層学習の訓練において、初期段階の収束を劇的に加速させる自然勾配法(NGD)と、損失景観の平坦な領域を探索して汎化性能を高める勾配正則化(GR)を統合した新しい最適化フレームワーク「GRNG」を提案した。

5713 字
読む →

制御可能な高レベル特性を持つ連続最適化問題のLLM駆動設計

本研究では、大規模言語モデル(LLM)と進化計算を組み合わせたLLaMEAフレームワークを活用し、多峰性や分離可能性、探索空間の均一性といった特定の高レベルな構造的特性を備えた連続最適化問題を自動的に設計する新しい手法を提案した。

5694 字
読む →

MulVul:クロスモデル・プロンプト進化による検索拡張マルチエージェント・コード脆弱性検知

大規模言語モデルを用いた脆弱性検知において、多様な脆弱性パターンへの対応とプロンプト最適化の自動化を両立するため、ルーターと専門デテクターで構成されるマルチエージェント枠組み「MulVul」が提案されました。

6513 字
読む →

GCFX:モデルレベルにおける深層グラフモデルの生成的反事実説明

深層グラフ学習モデルの意思決定プロセスを全体的に把握するため、モデルレベルの反事実説明手法であるGCFXが提案されました。この手法は、ベクトル量子化を用いた生成モデルVQ-CFXによって高品質な反事実候補を生成し、要約アルゴリズムGCFSによって代表的かつ多様な説明セットを選択する二段構えの構成をとっています。

6241 字
読む →