不整合な動作事前知識からのタスク中心の方策最適化
ヒューマノイドロボットの制御において、人間の動作データを模倣する手法は自然な動きを実現する一方で、ロボットの身体構造との違いやタスクとの不整合により、単純な模倣がタスク性能を著しく低下させるという深刻な課題がありました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
ヒューマノイドロボットの制御において、人間の動作データを模倣する手法は自然な動きを実現する一方で、ロボットの身体構造との違いやタスクとの不整合により、単純な模倣がタスク性能を著しく低下させるという深刻な課題がありました。
アナログ集積回路(IC)のレイアウト設計は、物理的な配置や寄生効果、回路性能の複雑な相互依存関係により、依然として手動作業が中心の困難な課題となっています。本研究では、アナログIC設計のためのスケーラブルなデータセット生成パイプラインである「OSIRIS」を提案し、設計空間を体系的に探索して包括的な性能指標とメタデータを生成する手法を確立しました。このフレームワークを用いて生成された87,100個の回路バリエーションを含むデータセットを公開し、強化学習を用いたレイアウト最適化や大規模言語モデルの微調整による自動生成の可能性を実証しています。
大規模言語モデル(LLM)を活用した多言語音声認識において、単一のプロジェクターが抱える音響と意味のマッピングの限界を打破するため、複数の専門家(エキスパート)を動的に統合する「SMEAR-MoE」を提案しました。
従来の強化学習におけるデモンストレーションの活用は、データが最適かつタスクに完全に適合していることを前提としていたが、現実の不完全なデータでは性能が低下するという課題があった。 本研究が提案するAPC(Adaptive Policy Composition)は、複数の正規化流を用いた事前分布を持つアクターと、事前分布を一切持たないアクターを階層的に組み合わせ、オンラインの報酬に基づいて適切な行動を適応的に選択する。 実験の結果、APCはデモンストレーションが不適合な場合でも堅牢性を維持し、適合している場合には学習を大幅に加速させ、さらに不完全なデータからでも最適な行動を導き出すことが確認された。
状態空間モデル(SSM)の表現能力は、採用されるゲート機構の構造と計算に使用される数値の精度に深く依存しており、特に対角ゲート型SSMは固定精度において過去時相論理(PLTLf)で定義可能なスターフリー言語を認識する能力を持つことが証明されました。
侵襲的脳コンピュータインターフェースにおいて、記録セッション間の神経信号の非定常性はデコーダの精度を低下させる大きな課題であり、新しいセッションごとに大量の再学習データを収集することはユーザーの負担となっていた。
学術文献の爆発的な増加に伴い、研究者が自身のニーズに合致する論文を正確に見つける負担が増大している。従来の推薦システムは広範なトピックの類似性に依存しており、特定の研究手法やタスクといった詳細なニーズに応えることが困難であった。
本研究は、複数の物理現象が相互に影響し合う複雑な連成物理システムのシミュレーションにおいて、個別に分離されたデータのみで学習を行い、推論時に結合状態を生成できる革新的な生成パラダイム「GenCP」を提案した。
ソフトウェア開発の自動化において、修正箇所を特定するコード位置特定は計算リソースの半分以上を消費する大きなボトルネックです。従来手法は逐次実行による情報不足や、固定的な並列化による34.9%もの冗長な呼び出しという課題を抱えていましたが、本研究の「FuseSearch」は情報の新規性と呼び出し回数の比率を「ツール効率」として定義し、適応的な並列実行戦略を学習しました。 検証の結果、4Bパラメータの小型モデルでありながらSWE-bench VerifiedでファイルレベルF1スコア84.7%を達成し、実行時間を93.6%、消費トークン量を68.9%削減するという、圧倒的な品質とコストパフォーマンスの両立を実現しています。 この手法は、情報の新規性を常に監視しながら並列度を動的に調整することで、冗長な信号を排除し、最終的な位置特定の精度を向上させるという相乗効果をもたらしており、実用的な自動開発エージェントの構築に向けた新たな標準を提示しています。
本研究は、InfoNCEの幾何学的メカニズムを解明するため、固定された多様体上での表現測度の進化を記述する測度論的フレームワークを導入した。大バッチ極限において、確率的な目的関数が決定論的なエネルギー地形へと収束することを数学的に証明し、学習プロセスを不透明なパラメータ更新から、表現空間における本質的な母集団の幾何学的な動態へと変換することに成功した。 ユニモーダル設定においては、目的関数が厳密に凸なエネルギー地形を形成し、一意のギブス平衡へと収束する性質を持つことを明らかにした。ここでは、従来「一様性」として独立して扱われていた概念が、アライメントによって形成された盆地内でのエントロピー的な分散、すなわち「タイブレーカー」として機能していることを解明し、アライメントと一様性の主従関係を理論的に再定義した。 マルチモーダル設定(CLIPスタイル)では、目的関数に持続的な負の対称ダイバージェンス項が含まれており、これが異なるモーダリティ間の表現分布を押し離す「反発障壁」として機能することを突き止めた。これにより、広く知られるモーダリティ・ギャップは、初期化の不備やサンプリングの偏りによるものではなく、目的関数の構造そのものが課す幾何学的な必然性として生じる平衡状態であることを証明した。