継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

FDeID-Toolbox:顔匿名化研究を再現可能に比較するための統合ツールボックス

顔匿名化は、本人識別を消しながら年齢・性別・表情・ランドマーク・rPPG などの有用属性を残す必要があり、プライバシー・有用性・画質を同時に評価しなければなりませんが、従来研究は実装も評価条件もばらばらでした。 FDeID-Toolbox は、6つの主要データセット、17手法、統一済みの前処理・推論・後処理・評価をひとつの枠組みにまとめ、顔匿名化研究を再現可能に比較できる基盤として設計されています。 統一条件で再実装した結果、強いプライバシーと高い有用性と高い画質を同時に満たす単独手法は見つからず、手法は明確なトレードオフの領域に分かれること、さらに組み合わせ設計が新たな探索対象になることが示されました。

5735 字
読む →

DecoVLN:観測・推論・補正を分離して長距離の視覚言語ナビゲーションを安定化する

視覚言語ナビゲーションでは、長い指示に従って移動する間に観測履歴が膨らみ、しかも途中の小さな行動ミスが累積して大きな逸脱へつながるため、長期記憶と誤り修正の両方がボトルネックになります。 DecoVLN は、観測と推論を分離したうえで、指示との関連性・見た目の多様性・時間的な広がりを同時に見る適応的メモリ精製と、trusted region 内の状態行動対だけを集める補正学習を組み合わせます。 R2R と RxR の Val-Unseen で同条件の既存法を上回り、R2R では SR 56.3、SPL 50.5、RxR では SR 54.2、SPL 46.3、nDTW 63.5 を達成し、実環境デモでも頑健性を示しました。

5961 字
読む →

Relevanceに基づいて「必要な知覚だけ動かす」:マルチモーダル逐次知覚のスケジューリング設計

人間と協働するロボットでは、物体検出や姿勢推定など複数の知覚モジュールを毎フレーム動かすと遅延が蓄積し、逐次処理の現場ではむしろ全体性能を落とします。 提案手法は、前フレームの出力・動き・relevance を使って「今どのモジュールを起動すべきか」を reward ベースで判断し、不要なモジュールは推定でつなぐ軽量スケジューリングです。 実験では通常の並列パイプライン比で遅延を最大27.52%削減し、MMPose の activation recall を最大72.73%改善しつつ、keyframe accuracy も最大98%に達しました。

6035 字
読む →

NNMFと拡散特徴デノイズで脳腫瘍MRI分類を頑健化する

脳MRIから腫瘍を分類する精度は深層学習で大きく伸びましたが、微小な敵対的摂動で壊れやすいという弱点が医療応用では深刻です。 提案手法は、NNMFで作った解釈しやすい低次元特徴、統計量で選んだ上位成分、小型CNN、そして特徴空間での拡散デノイズを組み合わせ、AutoAttack 下での頑健性を押し上げます。 クリーン精度はほぼ維持したまま、頑健精度を 0.0047 から 0.5953 へ大きく改善しており、「見かけの高精度」ではなく「攻撃下でも崩れにくい診断補助」を目指した構成だと読めます。

5815 字
読む →

見えなくなっても世界は進むべきか:動画ワールドモデルの状態進行を測る StEvo-Bench

水を注ぐ、氷が溶ける、マッチが燃えるといった状態変化は、見ていなくても進む。StEvo-Bench は、その当たり前の性質を動画ワールドモデルが本当に持っているかを測るために作られたベンチマークです。 評価は「隠すことに成功したか」「変化を始められたか」に加えて、「状態が進んだか」「物理的にもっともらしいか」「前後の映像がつながっているか」を分けて判定します。単に見栄えがよい動画かどうかではなく、見えない間の世界状態を保てるかを問う設計です。 結果はかなり厳しく、Veo 3 や Sora 2 Pro のような強いモデルでも観測を遮ると成功率は 10% 未満、カメラ制御型モデルでは状態進行がほぼ止まります。現行の動画モデルは「観測」と「状態進行」をまだ強く結び付けて扱っている、というのが中心的な結論です。

6719 字
読む →

SCOPEは何を変えたのか:極端に偏った連合科学データをグローバル合意つきコアセットで軽く学ぶ

科学データの連合学習では、データを中央集約できないだけでなく、クライアントごとに極端なクラス不均衡や長い尾を引く分布があり、素朴なコアセット選択がむしろ希少な重要サンプルを落としてしまいます。SCOPE はこの問題を「各点の意味的な役割を見て残す」方向から組み替えました。 中核は、共有の表現空間で各サンプルに代表性・多様性・境界近接度という三つの尺度を与え、各クライアントが送るのは特徴ベクトルではなく軽量な数値指標だけにすることです。サーバはそれを集約して全体合意を作り、各クライアントはその合意に沿って異常点を落とし、希少だが大事な境界サンプルを残します。 実験では CIFAR-10、CIFAR-100、Tiny-ImageNet、UHCS で、SCOPE が 128倍から512倍の上り通信削減、7.72倍の実時間短縮、FLOP/VRAM 削減を達成しつつ、極端な偏り条件で既存法より高い精度と安定した収束を示しました。特に全データ利用より高精度になる条件がある点が面白く、「全部残す」こと自体がノイズになる場面を定量化しています。

5652 字
読む →

連合学習で「忘れさせる」を厳密にやるには:凍結基盤モデル+Ridgeヘッドで再学習と一点一致させる正確な継続的忘却

連合学習で「特定ユーザーや特定サンプルの影響だけを消したい」と言っても、通常の深層モデルでは再学習と完全一致させるのが難しく、既存法は近似や選択的再学習に頼りがちです。論文はこの問題を、凍結した基盤モデルの上に ridge 回帰ヘッドだけを載せる実務的設定へ絞ることで、厳密解まで落とし込みました。 核心は、学習結果が各サンプルの生データそのものではなく、二つの加法的十分統計量だけで決まると見抜いた点です。各クライアントは追加・削除要求を固定サイズの統計メッセージとして送り、サーバはその帳簿を更新するだけで、中央で retained data に対して最初から再学習した解と理論上完全一致するヘッドを維持できます。 実験では CIFAR-10、CIFAR-100、FeMNIST、Sentiment140 の4ベンチで、提案した2変種が中央再学習との差を相対 Frobenius 誤差 10^-9 レベルまで抑え、FedAvg 系の exact federated unlearning ベースラインより桁違いに低コストで削除要求を処理しました。つまり「忘却を厳密にやりたいなら、まず何を学習対象にするかを変えるべきだ」という論文です。

5659 字
読む →

人手アノテーションなしで翻訳誤りスパン検出を鍛えられるか:反復MBR蒸留で疑似ラベルを自己生成する

機械翻訳の誤りスパン検出は、どこがどの程度おかしいかを細かく示せる重要課題ですが、人手アノテーションは高価で主観差も大きく、学習データの拡大が難しいという根本問題があります。 提案手法は、LLM 自身に多数の候補スパンを出させ、MBR 復号で最もよい候補を疑似ラベルとして選び、それを使って SFT・DPO・KTO で反復的に再学習する自己進化型の枠組みです。 WMT Metrics Shared Task で評価した結果、人手ラベルで学習した基線より system-level と span-level では上回り、sentence-level でも競争力を保ちました。特に T=2 の設定が強く、最良では SPA 0.864、SOFTF1 0.939 を記録しました。

5564 字
読む →

L2GTX:時系列分類のローカル説明を束ねてクラス全体の説明へ上げるモデル非依存フレームワーク

時系列分類の説明研究は個別サンプル向けの局所説明に偏りがちで、クラス全体としてモデルがどんな波形パターンを重視しているかをまとめて把握する仕組みは不足していました。 L2GTX は、LOMATCE が出す局所的なイベント説明を、代表サンプルの選択・クラスタ統合・属性要約の三段で束ね、クラスごとの大域説明へ変換するモデル非依存手法です。 6つの UCR データセット、FCN と LSTM-FCN の2系統で評価したところ、統合の粗さを上げてクラスタ数を減らしても大域忠実度は概ね安定し、少数の代表事例から読みやすいクラス別説明を作れることが示されました。

5563 字
読む →

GeoChemAD:鉱物探査の地球化学異常検知を、公開ベンチマークとTransformerでやり直す

鉱物探査の地球化学異常検知は重要ですが、既存研究は単一地域・単一元素・非公開データに偏り、手法の一般化性能や再現性を本当に比べにくい状況でした。 GeoChemAD は、複数地域・複数サンプリング媒体・複数ターゲット元素を含む8サブセットの公開ベンチマークで、GeoChemFormer は空間文脈と元素依存を自己教師ありで学ぶ Transformer 型手法です。 ベンチマーク全体では GeoChemFormer が平均AUC 0.7712で最良となり、既存の統計・機械学習・生成モデル系を上回りつつ、異なる地質条件でも安定した性能を示しました。

5593 字
読む →