LLaMEA-SAGE: 説明可能なAIによる構造的フィードバックを用いたアルゴリズム自動設計の誘導
TL;DRLLaMEA-SAGEは、大規模言語モデルを用いたアルゴリズム自動設計において、コードの構造的特徴を活用する新手法です。抽象構文木から抽出した複雑性指標などを説明可能なAIで分析し、性能に影響する要素を自然言語の指示としてモデルにフィードバックします。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRLLaMEA-SAGEは、大規模言語モデルを用いたアルゴリズム自動設計において、コードの構造的特徴を活用する新手法です。抽象構文木から抽出した複雑性指標などを説明可能なAIで分析し、性能に影響する要素を自然言語の指示としてモデルにフィードバックします。
TL;DRLLMを用いた自動アルゴリズム設計において、コードの構造的特徴を活用する新手法「LLaMEA-SAGE」が提案されました。抽象構文木から抽出した特徴を説明可能なAIで分析し、自然言語の指示としてLLMにフィードバックします。
TL;DRDebateCoderは、小規模言語モデルの推論能力を向上させるマルチエージェント協調フレームワークです。3つのエージェントによる役割分担と、95%の閾値を持つ適応型信頼ゲート機構により、精度と効率を両立します。HumanEvalで70.
TL;DR本研究は、小規模言語モデル(SLM)の推論能力を向上させるマルチエージェント枠組み「DebateCoder」を提案しています。3つの役割を持つエージェントと95%の閾値を持つ適応型信頼ゲートを導入し、生成前後の議論と修正プロセスを構築しました。HumanEvalで70.
TL;DR大規模言語モデルを用いたコード評価において、モデルがコードの論理よりも隠された指示の遵守を優先してしまう「コンプライアンス・パラドックス」を指摘する研究です。攻撃手法SPACIを用いて検証した結果、主要なモデルで95%以上の失敗率が確認されました。
TL;DR本研究は、大規模言語モデル(LLM)を協調学習プラットフォームの動的なモデレーターとして統合するフレームワークを提案します。リアルタイムの議論促進や適応型フィードバック、参加の均衡化を通じて、学習者のエンゲージメントや批判的思考、包摂性を高めます。
TL;DRLLMのコード生成能力を向上させるため、プログラミング知識グラフ(PKG)を用いた新しいRAG手法が提案されました。コードとテキストを意味的に構造化し、木の剪定による検索精度の向上と、リランク機構によるハルシネーションの抑制を実現。HumanEvalとMBPPでの評価では、最大20%の精度向上を記録しました。
TL;DRオープンな重みを持つコーディングエージェントにおいて、プライベートなコードベースに低コストで特化できる手法「SERA」が提案されました。教師あり微調整のみを用いながら、既存の強化学習手法の26倍、合成データ手法の57倍という低コストで最先端の性能を達成しました。単一のリポジトリから数千の学習軌跡を生成可能です。
TL;DRLLMのツール使用能力評価において、従来の精度のみの測定では見えなかった認知的なボトルネックを明らかにする新しいフレームワークが提案された。認知負荷理論に基づき、タスクの複雑さを「内在的負荷」と「外在的負荷」に分解して定量化する。調整可能なベンチマーク「ToolLoad-Bench」を用いた実験により、各モデルの能力限界を正確にマッピングすることに成功した。
TL;DRAIコーディングエージェントの効率にリポジトリ設定が与える影響を検証。10リポジトリ・124 PRの実験で、AGENTS.md導入により実行時間中央値が約29%短縮、出力トークンが約17%削減された。
Pricing