「より良い」プロンプトが逆効果になる時:LLMアプリのための評価主導型反復プロセス
TL;DRLLMアプリ開発における評価主導型ワークフロー(定義、テスト、診断、修正)と、推奨評価セットであるMVESを提案する研究である。実験では、一般的に「改良された」とされるプロンプトが、特定のタスク(抽出やRAG準拠)の性能を低下させるトレードオフが確認された。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRLLMアプリ開発における評価主導型ワークフロー(定義、テスト、診断、修正)と、推奨評価セットであるMVESを提案する研究である。実験では、一般的に「改良された」とされるプロンプトが、特定のタスク(抽出やRAG準拠)の性能を低下させるトレードオフが確認された。
TL;DRJADEは、動的なAgentic RAGにおける計画と実行の不一致を解消する統合フレームワークである。計画担当と実行担当を単一のバックボーン下で協力的なマルチエージェントとしてモデル化し、結果に基づく報酬でエンドツーエンドの共同最適化を行う。
TL;DRProRAGは、複雑な推論タスクにおける検索拡張生成(RAG)を最適化するための新しい強化学習フレームワークである。従来の手法が抱える報酬の希薄さや誤った推論過程の問題を解決するため、ステップごとのプロセス報酬モデル(PRM)を導入し、中間的な推論の質を評価する。
TL;DRColBERTのようなマルチベクトル表現は検索品質が高い一方で、遅延が大きいという課題がある。本研究では、マルチベクトル類似検索を教師あり学習問題として定式化し、さらに潜在空間でのシングルベクトル検索に還元するフレームワーク「LEMUR」を提案する。これにより、従来の手法よりも一桁高速な検索を実現した。
TL;DR本論文は、未成年者や個人データを含む教育現場の敏感さを踏まえ、知的教育における「信頼性」を体系的に整理した調査報告である。学習者の能力評価や推薦などの5つのタスクと、安全性や公平性などの5つの信頼性視点を交差させ、既存研究の手法を分類・要約している。
TL;DR汎用的な検索システムの学習において、多様なデータセットをどう配分するかは重要だが、従来の手法には課題があった。本研究では、強化学習を用いて最適なデータ配分を自動探索する軽量なフレームワーク「Inf-DDS」を提案する。これにより、既存手法より計算コストを抑えつつ、検索精度の大幅な向上を実現した。
TL;DRLLMは文化的な意思決定を支援する一方で、学習データの偏りにより価値観の不一致が生じることが課題です。本研究は、世界価値観調査に基づき文化オントロジーを構築し、複数の価値観ペルソナエージェントを介して推論を行うフレームワーク「OG-MAR」を提案します。これにより、文化的整合性と推論の透明性が向上します。
TL;DREC検索の精度向上に向け、大規模言語モデルの多角的な思考プロセスを軽量モデルに継承させる新手法が提案されました。多視点からの思考連鎖(CoT)を教師モデルに導入し、それを潜在的な推論抽出器として生徒モデルへ蒸留することで、低遅延かつ高度な推論を実現します。大規模な実環境でのテストでも優れた成果を収めています。
TL;DREC検索の関連性向上に向け、多視点Chain-of-Thought(MPCoT)と潜在推論蒸留(LRKD)を組み合わせた新手法が提案されました。大規模言語モデルの多角的な推論能力を軽量な学生モデルに継承させることで、高い精度と低遅延な推論を両立しています。
TL;DR本研究は、従来の[CLS]トークンや平均プーリングに代わる、新しいプーリング手法「ランドマーク(LMK)プーリング」を提案します。シーケンスをチャンクに分割し、挿入したランドマークトークンの埋め込みを平均化することで、情報の偏りや希釈を防ぎます。
Pricing