タグ: cs.SE | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 41件タグ: cs.SE

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 10 クリック 4

最新人気保存済み長文のみ

AI研究 2026-01-29

StepShield: 暴走エージェントへの介入は「いつ」すべきか

TL;DR既存のエージェント安全性ベンチマークは違反の有無のみを評価し、介入のタイミングを無視している。本研究は、違反が「いつ」検出されたかを評価する初のベンチマーク「StepShield」を提案する。9,213件の軌跡データと新たな時間的指標を用いた評価により、LLMベースの判定器が静的解析よりも早期介入に優れていることを明らかにした。

読了 0 分 1353 字

読む →

AI研究 2026-01-29

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

TL;DR最先端の大規模言語モデル（LLM）は、複雑な企業システム内での自律エージェントとしての能力が未検証です。本研究は、ServiceNowを基盤としたリアルな環境「World of Workflows (WoW)」と、234のタスクを含むベンチマーク「WoW-bench」を提案しました。

読了 0 分 1494 字

読む →

AI研究 2026-01-29

SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング

TL;DRSWE-Replayは、ソフトウェアエンジニアリングタスクにおけるLLMエージェントのテスト時スケーリングを効率化する新しい手法である。過去の試行の軌跡を再利用し、重要な中間ステップで分岐することで、ゼロからの探索と過去の経験の活用を動的に切り替える。これにより、コストを最大17.

読了 0 分 1480 字

読む →

AI研究 2026-01-29

「より良い」プロンプトが逆効果になる時：LLMアプリのための評価主導型反復プロセス

TL;DRLLMアプリ開発における評価主導型ワークフロー（定義、テスト、診断、修正）と、推奨評価セットであるMVESを提案する研究である。実験では、一般的に「改良された」とされるプロンプトが、特定のタスク（抽出やRAG準拠）の性能を低下させるトレードオフが確認された。

読了 0 分 1476 字

読む →

AI研究 2026-01-29

Liquid Interfaces：自律システムのための動的オントロジー

TL;DR現代のソフトウェアアーキテクチャは、適応的で確率的な推論を行う自律エージェントのサポートに苦慮しており、静的なインターフェースが主流です。本論文では、インターフェースを実行時の意図表明と意味交渉によって出現する一時的な関係イベントと捉える「Liquid Interfaces」を提案し、そのプロトコル（LIP）

読了 0 分 1284 字

読む →

AI研究 2026-01-29

古典的プランニングにおけるドメインモデル設計のエネルギーへの影響

TL;DRAI研究ではこれまでアルゴリズムの性能が優先されてきたが、グリーンAIの台頭によりエネルギー消費も重要な指標となっている。本研究は、自動プランニングにおけるドメインモデルの設計がエネルギー消費に与える影響を実証的に調査したものである。

読了 0 分 1190 字

読む →

AI研究 2026-01-29

大規模言語モデルによるビジネスプロセスモデリング能力の評価

TL;DR大規模言語モデル（LLM）によるBPMNモデル生成能力を評価する新しいフレームワーク「BEF4LLM」を提案し、人間と比較検証した研究です。LLMは構文や実用面で優れる一方、意味的な正確さでは人間に劣るものの、その差はわずかであることが示されました。LLMの強みと限界を明らかにし、実用化に向けた課題を提示しています。

読了 0 分 1275 字

読む →

AI研究 2026-01-29

SWE-Spot: リポジトリ中心学習による小規模なリポジトリ専門家モデルの構築

TL;DR小規模言語モデルは未知の複雑なコードベースへの対応が困難という課題がある。本研究は、多様なタスクを学ぶ従来の学習法から、特定のリポジトリを深く理解する「リポジトリ中心学習（RCL）」への転換を提案する。開発されたSWE-Spot-4Bは、軽量ながら大規模モデルや商用モデルに匹敵する性能を、高い効率性で実現している。

読了 0 分 1366 字

読む →

AI研究 2026-01-29

KAPSO: 知識に基づいた自律的なプログラム合成と最適化のためのフレームワーク

TL;DRKAPSOは、自然言語の目標からプログラムを自律的に合成・最適化するモジュール型フレームワークです。Gitベースの実験管理、多様な外部知識の統合、過去の試行から学ぶ認知メモリ層を組み合わせることで、長期的なタスクにおける失敗を抑制します。

読了 0 分 1267 字

読む →

AI研究 2026-01-29

KAPSO: 知識に基づいた自律的プログラム合成と最適化のためのフレームワーク

TL;DRKAPSOは、自然言語の目標からプログラムを自律的に合成・最適化するモジュール型フレームワークです。Gitベースの実験エンジン、多様な情報源を統合する知識システム、過去の試行から学習する認知メモリ層を組み合わせ、長期的な最適化ループを実現します。MLE-Bench等のベンチマークでその性能が評価されています。

読了 0 分 1018 字

読む →

保存済みの記事がまだありません。

読み込み中…

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

StepShield: 暴走エージェントへの介入は「いつ」すべきか

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング

「より良い」プロンプトが逆効果になる時：LLMアプリのための評価主導型反復プロセス

Liquid Interfaces：自律システムのための動的オントロジー

古典的プランニングにおけるドメインモデル設計のエネルギーへの影響

大規模言語モデルによるビジネスプロセスモデリング能力の評価

SWE-Spot: リポジトリ中心学習による小規模なリポジトリ専門家モデルの構築

KAPSO: 知識に基づいた自律的なプログラム合成と最適化のためのフレームワーク

KAPSO: 知識に基づいた自律的プログラム合成と最適化のためのフレームワーク

論文×チャット×知識DBを続けるなら

Free

Plus

Pro