継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

視覚的質問応答のための効率的なマルチモーダル計画エージェント

視覚的質問応答(VQA)におけるマルチモーダル検索拡張生成(mRAG)の非効率性を解消するため、画像検索やテキスト検索の必要性を動的に判断し、パイプラインを最適化する「マルチモーダル計画エージェント」を開発しました。

5696 字
読む →

ShieldedCode:仮想マシンで保護されたコードのための堅牢な表現の学習

ShieldedCodeは、ソフトウェアの難読化技術である仮想マシン保護(VMP)が施されたコードを理解・生成・比較するために設計された、世界初の保護認識型学習フレームワークである。 ソースコードと正規化されたVM実装のペアデータを用い、階層的な命令依存関係のモデリングと、機能の等価性と保護強度を同時に捉える二重の対照学習(FCLおよびPCL)を導入することで、複雑な難読化コードの深い意味理解を実現している。 実験では、L0レベルのVMコード生成においてGPT-4oを上回る26.95%のPass@1を達成し、バイナリ類似性検出においても既存の最先端手法であるjTransを10%以上上回る高い性能を実証した。

6128 字
読む →

リアルタイムなナラティブ進化監視のためのオンライン密度ベースクラスタリング

ソーシャルメディアの監視において、従来のHDBSCANのようなバッチ処理型のクラスタリング手法は、データの増大に伴うメモリ消費や再計算の非効率性が大きな課題となっており、リアルタイムなナラティブ(物語・言説)の追跡を困難にしている。

5703 字
読む →

礼儀正しさは退屈?チャットボットのフィードバックにおける「関与」と「心理的抵抗」のトレードオフ

チャットボットがユーザーの不適切な行動を修正しようとする際、従来の「礼儀正しい」スタイルは心理的抵抗を抑え行動意図を高めるものの、意外性がなく退屈で不誠実だと感じられるリスクがあります。 一方で、言い間違いやためらいをあえて含める「言語的漏出(Verbal Leakage)」スタイルは、礼儀正しい表現よりも自由への脅威を感じさせるものの、驚きやユーモア、人間らしさを強く引き出し、ユーザーの関心を維持する効果が示されました。 効果的な行動変容支援には、心理的抵抗を最小化する「安全性」と、ユーザーを飽きさせない「エンゲージメント」の間のトレードオフを適切に管理し、文脈に応じてフィードバックのスタイルを使い分ける設計が求められます。

6136 字
読む →

MuRAL-CPD: マルチ解像度と能動学習を組み合わせた新しい変化点検知手法

MuRAL-CPDは、ウェーブレット変換を用いたマルチ解像度解析と能動学習を高度に統合することで、時系列データにおける統計的な性質の変化を複数の時間的スケールで精密に特定する新しい変化点検知手法です。

6483 字
読む →

オンプレミス環境の小規模モデル向け!教師なしで強化学習アライメントを実現する蒸留手法「PU-RL」

オンプレミス環境での小規模モデル運用において、プライバシーやコストの制約から困難だった強化学習によるアライメントを、外部の教師モデルからの「アンカー」生成一回のみで実現する新しい蒸留手法「PU-RL」が提案された。

6344 字
読む →

知覚と較正の分離:ラベル効率の高い画像品質評価フレームワーク

多峰性大規模言語モデル(MLLM)は画像品質評価(IQA)において優れた知覚能力を持つものの、膨大な計算コストと大量の人間による評価ラベル(MOS)への依存が実用上の大きな障壁となっている。 本研究が提案する「LEAF」は、MLLMの知覚能力と特定の評価尺度への校正を分離し、強力な教師モデルから軽量な学生モデルへ知覚知識を蒸留することで、極めて少数のラベルのみで高精度な予測を実現する。 検証の結果、わずか10%のラベルを用いた校正だけで、AI生成画像等のベンチマークにおいて従来のフルデータ学習に匹敵する性能を達成し、デバイス上での動作や大規模データの高速処理を可能にする道を示した。

6129 字
読む →

線形関数近似を用いた外生的MDPにおいて純粋な活用だけで十分か?

外生的MDP(Exo-MDP)は、需要や価格などの外部要因が意思決定者の行動に依存せず進化するモデルであり、本研究は探索を一切行わない「純粋な活用(Pure Exploitation)」のみで理論的に最適な学習が可能であることを初めて証明しました。

5747 字
読む →

フェロチタン産業におけるマルチタイプTransformerを用いた企業資源計画(ERP)

製造業の企業資源計画(ERP)において不可欠なジョブショップ・スケジューリング(JSP)やナップサック問題(KP)といった組合せ最適化に対し、複数のアテンション機構を統合した「マルチタイプTransformer(MTT)」を適用し、異なる構造を持つ課題を統一的に解決するフレームワークを構築しました。

6595 字
読む →

構造的には人間的、意味的にはバイアス的:埋め込みとGNNを用いたLLM生成リファレンスの検出

大規模言語モデル(LLM)が生成する参考文献リストは、引用ネットワークの構造的側面(中心性やクラスター係数など)において人間が作成したものと極めて高い類似性を持っており、従来のグラフ解析のみでは識別が困難であることが判明しました。

6924 字
読む →