論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

運営: Cognitive Research Labs(CRL) / crl.co.jp

新着 論文 人気 料金 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 40 クリック 16

Person Re-ID in 2025: 教師あり、自己教師あり、言語アライメント。何が機能するのか?

TL;DR人物再同定(ReID)における3つの学習パラダイム(教師あり、自己教師あり、言語アライメント)を比較評価した研究。11モデル・9データセットでの検証の結果、教師ありモデルは学習ドメイン内で優位だがクロスドメインで脆弱である一方、SigLIP2などの言語アライメントモデルは、明示的な学習なしにクロスドメインで驚くべき堅牢性を示すことが明らかになった。

読了 0 分 1398 字
読む →

トポロジーを考慮した最適輸送による異常セグメンテーションのテスト時適応

TL;DRトポロジカルデータ解析(TDA)を用いた新しい異常セグメンテーション手法「TopoOT」が提案された。局所的な変動ではなく大域的な構造の崩れとして異常を捉え、テスト時適応(TTA)と最適輸送(OT)を統合。2Dおよび3Dベンチマークにおいて、F1スコアで最大24.1%の性能向上を達成した。

読了 0 分 1348 字
読む →

物理法則で視覚的な質量推定を導く:RGB画像1枚からの挑戦

TL;DR単眼RGB画像から物体の質量を推定するという困難な課題に対し、物理的な構造に基づいた新しいフレームワークを提案した研究です。物体の体積(幾何学的情報)と密度(材質的情報)という、質量を決定する2つの物理的要因に着目し、これらを個別に推論・統合することで、従来手法を上回る推定精度を実現しました。

読了 0 分 1338 字
読む →

中間を見よ:スケーラブルなVisual RAGインデクシングのための構造的アンカープルーニング

TL;DR近年の視覚言語モデルは高精度な画像文書検索(VDR)を実現しましたが、インデックスサイズが巨大になる問題があります。本研究では、追加学習なしでインデックスサイズを90%以上削減可能な「Structural Anchor Pruning (SAP)」を提案しました。中間層から重要な視覚パッチを特定することで、高い検索精度。

読了 0 分 1522 字
読む →

サイズは重要:単眼画像からの食事量推定のための実寸3Dモデル再構築

TL;DR肥満や糖尿病などの食事関連疾患の増加に伴い、正確な食事摂取量の把握が求められています。本研究では、単眼画像から実寸大(true-to-scale)の3Dモデルを再構築し、食事量を正確に推定する新手法を提案します。大規模データセットで学習した特徴を活用してスケールを推定し、既存手法と比較して体積推定誤差を約30%削減しました。

読了 0 分 1497 字
読む →

自己教師あり重みテンプレートによるスケーラブルな視覚モデル初期化

TL;DRモデル展開時に様々なサイズのアーキテクチャが必要となる課題に対し、SWEETという自己教師あり学習フレームワークを提案。固定サイズの事前学習ではなく、共有の重みテンプレートとサイズ固有のスケーラーを学習する。これにより、分類・検出・分割・生成タスクにおいて、可変サイズのモデル初期化でSOTA性能を達成した。

読了 0 分 1170 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

TL;DR音と映像(V-A)の理解と生成において、従来手法では不十分だったマルチスケールな構造のモデル化を改善する「GMS-CAVP」が提案されました。この手法は、対照学習による詳細な位置合わせと、拡散モデルを用いた生成学習を組み合わせることで、音と映像のクロスモーダルな理解と生成の両方で従来手法を上回る性能を示しました。

読了 0 分 1340 字
読む →

Tri-Reader:スクリーニングCTにおける肺結節の一次アノテーションのためのオープンアクセスかつ多段階のAIパイプライン

TL;DR複数の公開データセットで訓練されたオープンアクセスモデルを組み合わせ、肺のセグメンテーション、結節検出、悪性度分類を統合した3段階のAIパイプライン「Tri-Reader」が開発されました。アノテーターの負担軽減と高感度の両立を目指し、多様なデータセットで専門家のアノテーションと比較検証されています。

読了 0 分 1259 字
読む →

Innovator-VL:科学的発見のためのマルチモーダル大規模言語モデル

TL;DRInnovator-VLは、多様な科学領域での理解と推論を進化させるために設計された科学的マルチモーダル大規模言語モデル(MLLM)です。大規模な事前学習に依存せず、精選されたデータと透明性の高い学習設計により、科学的タスクと一般的な視覚タスクの両方で高い性能を実現しました。

読了 0 分 1302 字
読む →

UniPCB:オープンエンドなPCB品質検査のための統一視覚言語ベンチマーク

TL;DRUniPCBは、プリント基板(PCB)の品質検査に特化した初の統一ビジョン言語ベンチマークです。既存の断片的なデータセットを統合・標準化し、PCB特有の複雑な検査タスクにおけるマルチモーダル大規模言語モデル(MLLM)の性能を定量的に評価します。さらに、専門家の学習過程を模倣したPCB-GPTを提案し、欠陥特定で既存モデルの2倍以上の性能を達成しました。

読了 0 分 1600 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める