SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング
TL;DRSWE-Replayは、ソフトウェアエンジニアリングタスクにおけるLLMエージェントのテスト時スケーリングを効率化する新しい手法である。過去の試行の軌跡を再利用し、重要な中間ステップで分岐することで、ゼロからの探索と過去の経験の活用を動的に切り替える。これにより、コストを最大17.
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRSWE-Replayは、ソフトウェアエンジニアリングタスクにおけるLLMエージェントのテスト時スケーリングを効率化する新しい手法である。過去の試行の軌跡を再利用し、重要な中間ステップで分岐することで、ゼロからの探索と過去の経験の活用を動的に切り替える。これにより、コストを最大17.
TL;DRハミルトニアン系の長時間シミュレーションにおける小さなタイムステップの制約を克服するため、ハミルトニアンフローマップを学習する枠組みを提案する。時間平均されたハミルトニアンダイナミクスに対する平均流整合性条件を導入することで、従来の積分器の限界を大きく超える安定した大規模タイムステップ更新を実現した。
TL;DR回路図画像を機械可読なネットリストへ変換する際、部品認識や接続推論に課題があった。本研究では、深層学習による部品検出、CCLによる接続抽出、OCRとVLMを組み合わせた参照指定子の割り当てを統合したオープンソースツール「SINA」を提案する。実験では、既存の最先端手法の2.72倍となる96.47%の全体精度を達成した。
TL;DR本研究は、複数のドローン(UAS)群の観測データを用いて、4次元の大気風速場を再構成するフレームワークを提案しています。双方向LSTMで局所的な風を推定し、物理法則に基づくニューラルネットワーク(PINN)で時空間的に連続な風速場を復元します。専用センサーなしで高精度な風速場の再構成が可能であることを示しました。
TL;DR少量の検証済み目標情報を用いて、基盤モデルの事前学習を制御する「V-Pretraining」という手法が提案された。この手法は、下流タスクの勾配と整合するように事前学習タスク(データ拡張など)を選択し、計算リソースを効率的に配分する。言語モデルや画像処理において、推論能力や精度の向上が確認された。
TL;DR大規模言語モデル(LLM)の学習において、高精度のマスターウェイトを保持する必要性を排除する新しい最適化手法「ECO」が提案された。ECOは量子化されたパラメータに直接更新を適用し、量子化誤差をオプティマイザのモーメンタムに注入することで補正する。
TL;DR条件付きバリュー・アット・リスク(CVaR)の方策勾配法は、テールの性能に焦点を当てるためサンプル効率が悪いという課題がある。本研究では、CVaRに期待分位点項を追加することで、すべてのサンプリングデータを利用可能な動的計画法を導入し、サンプル効率を改善する手法を提案する。
TL;DR従来の言語モデルの学習ではトークン単位の正則化が主流でしたが、意味的な類似性を捉えきれない課題がありました。本研究は、モデル内部の潜在表現の乖離を抑える手法「GANPO」を提案します。GANの手法を応用して潜在空間での正則化を行うことで、ノイズや分布の変化に強く、より頑健な学習が可能になることを示しました。
TL;DR生成AIにおける推論時のエネルギー消費を最適化するため、46モデル・7タスク・1,858構成に及ぶ大規模な測定を実施した研究である。タスクの種類やGPU使用率の違いがエネルギー消費に数倍から百倍以上の差を生むことを明らかにし、その要因を分析するためのフレームワークを提案している。
TL;DRVTC-R1は、長文脈推論の計算コストを削減する新しい手法である。中間の推論過程をテキストではなく画像としてレンダリングし、「視覚的メモリ」としてモデルに再入力することで、トークン数を約3.4倍圧縮する。これにより、MATH500などのベンチマークで性能を向上させつつ、推論速度を2.7倍高速化した。
Pricing