方策事前分布を用いた安全な探索
TL;DR強化学習エージェントが制御された環境外で適応するためには、安全な探索が不可欠である。本研究では、シミュレータ等から得られる準最適かつ保守的なポリシーを事前知識として活用する手法「SOOPER」を提案する。SOOPERは学習中の完全な安全性を保証しつつ、最先端手法を上回る性能とスケーラビリティを実証した。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR強化学習エージェントが制御された環境外で適応するためには、安全な探索が不可欠である。本研究では、シミュレータ等から得られる準最適かつ保守的なポリシーを事前知識として活用する手法「SOOPER」を提案する。SOOPERは学習中の完全な安全性を保証しつつ、最先端手法を上回る性能とスケーラビリティを実証した。
TL;DRALRM: ロボット操作のためのエージェント型LLM arXiv 要約 背景。 技術要点 インパクト。 限界 次の一手 --- 論文情報 - URL: http://arxiv.org/abs/2601.19510v1。
TL;DRヒューマノイド制御において、人間のデモ動作は最適でない場合やロボットの身体と適合しない場合があり、単純な模倣はタスク性能を低下させる課題がある。本研究は「Task-Centric Motion Priors (TCMP)」を提案し、模倣を対等な目標ではなく条件付きの正則化として扱い、タスク達成を最優先しつつ自然な動作生成を実現する。
TL;DR不確実な状況下での鍵穴挿入などの接触作業において、過去の触覚経験を活用する「触覚メモリ」を再現するシステムTaMeSo-botが提案されました。柔軟な手首による安全な探索と、マスク化触覚軌道Transformer(MAT$^\text{3}$)による触覚検索制御を統合し、未知の状況でも高い成功率で適応可能であることを実証しています。
TL;DRFauna Roboticsは、人間の生活空間での安全な稼働と社会的相互作用を目指した開発者向けヒューマノイド「Sprout」を発表した。軽量で柔らかい外装、コンプライアント制御を備え、全身制御やVR遠隔操作を統合している。産業用でも研究用試作機でもない、開発者が扱いやすいプラットフォームとして、具現化された知能の実用化を促進する。
TL;DR本研究は、家具の隠しロック機構のような隠れ状態を持つシステムを、自律エージェントが学習・推論するための手法を提案します。離散部分観測マルコフ決定過程(POMDP)として問題を定式化し、アクションの遷移行列がフルランクであることや状態が完全観測可能であることといった従来の仮定を緩和しつつ、遷移・観測確率を学習する方法を探求しています。
TL;DREmbodied AIの進展に伴い、複雑なタスクに対応可能なマルチエージェントシステムの重要性が増しています。本論文では、NeurIPS 2025で開催された「MARSチャレンジ」を提案・概説します。
TL;DR足ロボットの状態推定における主要な誤差要因である「足の滑り」に対処するため、Attention-Based Neural-Augmented Kalman Filter (AttenNKF) が提案されました。これは不変拡張カルマンフィルタ(InEKF)に注意機構を用いたニューラル補償器を組み合わせ、滑りの深刻度に応じた誤差推定と補正を行う手法です。
TL;DR産業用ロボット等の安全性が重要な分野で期待されるオフライン強化学習(ORL)において、静的データセットと学習済み方策間の分布シフトの問題に対処する「MoReBRAC」を提案。モデルベースの不確実性認識による合成データ生成と、VAEやMCドロップアウトを用いた多層フィルタリングで高信頼な遷移のみを学習に利用し、D4RLベンチマークで性能向上を達成した。
Pricing