継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

FedBPrompt:背景の紛れと視点ずれを、身体分布を意識した視覚プロンプトで抑える連合ドメイン汎化ReID

FedDG-ReID では、クライアントごとに背景や視点の分布が大きく違うため、ViT の全体注意だけでは「背景に引っ張られる誤一致」と「同一人物でも体の部位がずれて似なくなる失敗」が起きやすくなります。 FedBPrompt は、全身を見る Holistic Full Body Prompts と、上半身・中胴・下半身を合わせる Body Part Alignment Prompts を組み合わせた BAPM と、プロンプトだけを更新する PFTS で、この二つの失敗を同時に抑えます。 強いベースライン SSCU に対しても平均で mAP を 3.3%、Rank-1 を 4.9% 改善し、送信パラメータは全モデルの約 1% まで削減でき、少ない集約ラウンドでも効果が出ます。

6247 字
読む →

Stake the Points:意味アンカーで保持知識の構造を守るインスタンス単位機械アンラーニング

機械アンラーニングでは、消したいデータの影響だけを抜こうとしても、保持すべきデータ同士の意味関係まで崩れると、削除と性能維持の両立が一気に難しくなります。 提案手法 STRUCTGUARD は、言語から作った意味アンカーを基準点として使い、保持データとアンカーの相対関係を保つ alignment と、構造に重要な重みの更新を抑える regularization を組み合わせます。 画像分類、顔認識、画像検索で、既存法より削除と保持のバランスが大きく改善し、分類では平均 32.9%、検索で 22.5%、顔認識で 19.3% の性能改善が報告されています。

6461 字
読む →

ODRL政策比較の本丸:複雑な権利ルールを正規化して「同じか」「含むか」を機械的に判定する

デジタル権利記述の標準である ODRL は表現力が高い反面、同じ意味のポリシーを何通りにも書けてしまい、比較や相互運用を難しくしていました。 提案手法は、複雑な制約や禁止規則を最小単位へ正規化し、互いに重ならない単純ルール集合へ変換することで、包含・等価・重なり判定を単純な一致確認に落とし込みます。 代わりに得られる表現サイズは属性数に対して指数的に膨らみ得るため、理論上の見通しは良くなっても、実装ではどこまで展開するかの設計が重要です。

6782 字
読む →

ThinkStream:動画を見ながら考え、必要な瞬間だけ答えるストリーミング映像推論

ThinkStreamは、動画を小さな塊ごとに受け取りながら短い推論を更新し、答えるべき瞬間だけ応答する Watch–Think–Speak 方式を導入しました。 中核は、途中の推論トークンを意味圧縮された記憶として残す RCSM と、正答・出力形式・応答タイミングを同時に学習する RLVR です。 OVO-Benchで平均59.66、StreamingBench Real-Timeで平均75.00を達成し、長い動画でも推論遅延を0.5秒未満に抑えながら既存のオンライン系モデルを上回りました。

5898 字
読む →

顔・行動・音声をどう混ぜると感情が読めるか:ABAW 競技で試した 感情価・覚醒度 推定の実践設計

自然環境下での感情推定では、顔だけ、音声だけ、行動だけでは取りこぼしが大きい。提案手法は 顔、行動、音声の3モダリティを組み合わせ、valence と arousal を連続値で推定する競技向けマルチモーダル構成です。 行動側では Qwen3-VL-4B-Instruct から得た 行動記述に寄った埋め込み表現 を Mamba で時間モデリングし、音声側では WavLM-Large に 口の開き方を使ったモダリティ横断フィルタリング を組み合わせています。融合は 指向付きクロスモーダルMixture-of-Experts と 信頼度考慮型の音声・映像融合 の 2 系統で比較します。 Aff-Wild2 の開発セットでは、単体の顔モデル平均 一致相関係数(CCC) 0.6189 に対し、3 モダリティ融合で 0.6487、さらに RAA-V では 0.6576 まで向上しました。大きな新理論というより、信頼度の違う情報源をどう役割分担させるかで性能を押し上げた実装論文です。

6927 字
読む →

FECBF:多機 UAV の衝突回避で CBF-QP が詰む原因を「内部非両立」と捉え直し、実際に解ける方向へ押し戻す

多数の UAV が密集すると、Control Barrier Function による安全制約は理屈上正しくても、制約同士が内部で食い違い、CBF-QP が解なしになることがあります。 提案手法 FECBF は、まず複数 CBF 制約の internal compatibility を解析し、そこから導かれる sign-consistency 条件を QP に追加して、制約同士の衝突を起こしにくくします。 50・100・150 機のシミュレーションでは既存法より高い Success Rate と低い Infeasibility Count を示し、遅延付き条件や実機実験でも有効性を確認しています。

5610 字
読む →

VoxelHound:四脚ロボットのための全周・マルチモーダル占有予測を現実環境で成立させる

車載前提の占有予測は、低い視点、高い揺れ、遮蔽、照明変化が激しい四脚ロボット環境ではそのまま使いにくく、しかも全周画像と複数センサを同時に扱う実データ基盤が不足していました。 提案は二本立てで、まず 360 度パノラマ・LiDAR・熱・偏光をそろえた PanoMMOcc データセットを整備し、次に姿勢揺れ補償 VJC と情報融合 MIPF を備えた VoxelHound を導入しています。 PanoMMOcc 上で VoxelHound は 23.34% mIoU を達成し、同条件の比較法を上回りました。特に C+L+T+P の全モーダル構成は、照明変化や複雑な境界での頑健性を押し上げています。

5638 字
読む →

FDeID-Toolbox:顔匿名化研究を再現可能に比較するための統合ツールボックス

顔匿名化は、本人識別を消しながら年齢・性別・表情・ランドマーク・rPPG などの有用属性を残す必要があり、プライバシー・有用性・画質を同時に評価しなければなりませんが、従来研究は実装も評価条件もばらばらでした。 FDeID-Toolbox は、6つの主要データセット、17手法、統一済みの前処理・推論・後処理・評価をひとつの枠組みにまとめ、顔匿名化研究を再現可能に比較できる基盤として設計されています。 統一条件で再実装した結果、強いプライバシーと高い有用性と高い画質を同時に満たす単独手法は見つからず、手法は明確なトレードオフの領域に分かれること、さらに組み合わせ設計が新たな探索対象になることが示されました。

5735 字
読む →

DecoVLN:観測・推論・補正を分離して長距離の視覚言語ナビゲーションを安定化する

視覚言語ナビゲーションでは、長い指示に従って移動する間に観測履歴が膨らみ、しかも途中の小さな行動ミスが累積して大きな逸脱へつながるため、長期記憶と誤り修正の両方がボトルネックになります。 DecoVLN は、観測と推論を分離したうえで、指示との関連性・見た目の多様性・時間的な広がりを同時に見る適応的メモリ精製と、trusted region 内の状態行動対だけを集める補正学習を組み合わせます。 R2R と RxR の Val-Unseen で同条件の既存法を上回り、R2R では SR 56.3、SPL 50.5、RxR では SR 54.2、SPL 46.3、nDTW 63.5 を達成し、実環境デモでも頑健性を示しました。

5961 字
読む →

Relevanceに基づいて「必要な知覚だけ動かす」:マルチモーダル逐次知覚のスケジューリング設計

人間と協働するロボットでは、物体検出や姿勢推定など複数の知覚モジュールを毎フレーム動かすと遅延が蓄積し、逐次処理の現場ではむしろ全体性能を落とします。 提案手法は、前フレームの出力・動き・relevance を使って「今どのモジュールを起動すべきか」を reward ベースで判断し、不要なモジュールは推定でつなぐ軽量スケジューリングです。 実験では通常の並列パイプライン比で遅延を最大27.52%削減し、MMPose の activation recall を最大72.73%改善しつつ、keyframe accuracy も最大98%に達しました。

6035 字
読む →