論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

運営: Cognitive Research Labs(CRL) / crl.co.jp

新着 論文 人気 料金 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 40 クリック 16

HalluJudge:コードレビュー自動化における文脈不整合のための参照不要な幻覚検出

TL;DR大規模言語モデル(LLM)によるコードレビュー自動化において、実際のコードに基づかない「幻覚(ハルシネーション)」が課題となっている。本研究では、参照データなしで生成コメントの根拠を評価する「HalluJudge」を提案。Atlassianの大規模プロジェクトでの評価により、低コストかつ高い精度で幻覚を検出し、開発者の好みを反映できることを示した。

読了 0 分 1492 字
読む →

エージェント型プログラム修正におけるバグ再現テストの動的共生成

TL;DR開発者がAI生成パッチを信頼するためには、修正だけでなくバグ再現テスト(BRT)も同時に必要です。本研究は、エージェント型自動プログラム修正(APR)において、修正コードとBRTを単一のパッチ内で共生成(Cogeneration)する手法をGoogleのバグを用いて評価し、修正の質を損なわずエンジニアリング労力を削減できることを示しました。

読了 0 分 1589 字
読む →

検証条件のためのニューラル定理証明:実世界ベンチマーク

TL;DRプログラム検証におけるボトルネックである「検証条件(VC)」の自動証明に特化した、初の実世界・多言語ベンチマーク「NTP4VC」が提案されました。Linux等の実プロジェクトから生成されたデータを用い、Isabelle、Lean、Rocqに対応。LLMの可能性と現状の課題を浮き彫りにしています。

読了 0 分 1528 字
読む →

daVinci-Dev:ソフトウェア工学のためのエージェントネイティブな中間トレーニング

TL;DRLLMを用いた自律的なソフトウェア開発(エージェント型SE)において、エージェント特有のワークフローを反映した大規模データによる「中間学習(Mid-training)」の重要性を検証した研究。実際の開発環境に近い「エージェント・ネイティブ」なデータを体系化し、既存手法より少ない学習量で高い解決率(56.1%〜58.5%

読了 0 分 1542 字
読む →

LLMを用いた静的バグ検出における誤検知の削減:産業界における実証研究

TL;DR静的解析ツール(SAT)は高い誤検知率が課題である。Tencent社の大規模システムを用いた実証研究により、LLMベースの手法が誤検知の削減に有効であることが示された。LLMと静的解析のハイブリッド手法は94-98%の誤検知を排除し、手動レビューに比べ大幅なコスト削減を実現する。

読了 0 分 1372 字
読む →

レガシーな有限差分法コードをリバースエンジニアリングしてDevitoへ翻訳するAIエージェント

TL;DR古い有限差分法のコードをDevito環境へ自動変換するAIエージェントが開発されました。LangGraphとRAG、大規模言語モデルを組み合わせ、コードの静的解析と知識グラフを活用して高精度な変換を実現します。強化学習的なフィードバック機構により、単なる翻訳を超えた適応的な解析を行う点が特徴です。

読了 0 分 1456 字
読む →

TAM-Eval: 自動単体テスト保守における大規模言語モデルの評価

TL;DR大規模言語モデル(LLM)のユニットテスト保守能力を評価するフレームワーク「TAM-Eval」が提案されました。テストの生成・修正・更新という3つの主要シナリオを含み、関数単体ではなくファイルレベルかつリポジトリ全体のコンテキストを考慮します。既存の最先端LLMでも実際の保守作業には限界があることが示唆されました。

読了 0 分 1498 字
読む →

エージェント型ビジネスプロセス管理システム

TL;DR1990年代初頭から進化を続けるビジネスプロセス管理(BPM)において、生成AIとエージェント型AIの台頭により、従来の「自動化」から「自律化」への大きな転換が起ころうとしています。本論文は、プロセスマイニングを基盤とし、自ら状態を感知・推論・改善する「エージェント型ビジネスプロセス管理システム(A-BPMS)」のアー。

読了 0 分 1416 字
読む →

ユーザーフィードバックに導かれたLLMによるプログラミング回答の人間整合的な強化

TL;DR大規模言語モデル(LLM)を用いて、Stack OverflowなどのQ&Aサイト上のプログラミング回答を、ユーザーコメントに基づいて自動修正する手法の研究です。ベンチマーク「ReSOlve」とツール「AUTOCOMBAT」を提案し、人間が修正した回答に近い品質を実現しました。実務家の84.5%が採用意向を示しています。

読了 0 分 1509 字
読む →

Claude Codeを用いたプロンプト駆動開発:Ringプログラミング言語のための完全なTUIフレームワークの構築

TL;DR大規模言語モデル(LLM)を用いたソフトウェア開発において、自然言語の指示のみで大規模なシステムを構築・維持する能力を検証した研究です。Claude Code (Opus 4.5) を使用し、Ring言語用の7,420行に及ぶターミナルユーザーインターフェース(TUI)フレームワークを、人間がコードを一行も書かずに約10時間で完成させました。

読了 0 分 1456 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める