継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

Vision Transformerのスケーリング:画像中心のワークロードにおけるDeepSpeedの評価

Vision Transformerは画像内のパッチ間の関係を自己注意で同時に扱える一方、計算量とメモリ要求が大きく、GPUを増やしても学習が素直に速くならない状況が起こり得ます。 / 本研究はDeepSpeedをVision Transformer(ViT b16)の学習に組み込み、ノード内・ノード間のデータ並列を複数GPU構成で動かし、学習時間・通信オーバーヘッド・強いスケーリングと弱いスケーリングの傾向を、主にCIFAR-10とCIFAR-100で追跡しています。 / 実測では、GPUの同質性が崩れると同期待ちが増えてスケーリングが乱れやすく、またバッチサイズを大きくすると同期コストが下がる傾向が見られ、64または128が通信とメモリの折り合いとして有望だと整理されています。

7140 字
読む →

時間的文脈とアーキテクチャ:自然主義的な脳波デコーディングのためのベンチマーク

本研究は、映画鑑賞時の脳波(EEG)データを用い、S5(状態空間モデル)やEEGXF(安定化Transformer)を含む5つのモデルで時間的コンテキストの影響を検証した。 結果として、S5は64秒の長いセグメントで98.

5635 字
読む →

ME-WARD:職場における慣性およびビデオデータからの筋骨格系リスク評価のためのマルチモーダル人間工学分析ツール

ME-WARDは、慣性計測装置(IMU)とビデオベースのポーズ推定技術を統合し、上肢の姿勢評価手法であるRULAをデジタル化することで、職場における筋骨格系疾患のリスクを自動かつ客観的に評価するマルチモーダルな分析システムである。

6219 字
読む →

ToS: 動画内の距離推定を伴うステレオ音響イベントの定位と検出のためのスペシャリストチーム・アンサンブルフレームワーク

音響イベントの検出、定位、距離推定を同時に行う3D SELDは、意味(何が)、空間(どこで)、時間(いつ)という3つの次元を統合的に推論する必要があり、単一のモデルではこれら全ての要素を最適化することが困難という課題がありました。

7300 字
読む →

RPNT:堅牢な事前学習済みニューラル・トランスフォーマー ―― 汎用的な運動デコーディングへの道筋

脳活動を解釈して行動へと翻訳する脳デコードにおいて、異なるセッション、被験者、記録部位、行動タイプといった多様なバリエーションを越えて汎化可能な新しいモデル「RPNT」が提案されました。 このモデルは、実験メタデータを統合する多次元回転位置埋め込み(MRoPE)、神経活動の非定常性に対処するコンテキストベースのアテンション、そして一様ランダムマスキングを用いた自己教師あり学習という独自の構成要素を備えています。 非ヒト霊長類の運動データセットを用いた検証により、RPNTはセッション間や被験者間を跨ぐデコードタスクにおいて既存のモデルを一貫して上回る性能を示し、脳コンピュータインターフェースの発展に寄与する可能性を証明しました。

5701 字
読む →

RIR-Mega-Speech:網羅的な音響メタデータと再現可能な評価を備えた残響音声コーパス

RIR-Mega-Speechは、LibriSpeechの音声と約5,000のシミュレーションされた部屋インパルス応答(RIR)を組み合わせた、約117.5時間の新しい残響音声コーパスである。最大の特徴は、全ファイルに対してRT60、直接音対残響音比(DRR)、明瞭度指数(C50)といった詳細な音響メタデータが付与されている点にあり、WindowsおよびLinux環境でデータセットの再構築や評価結果の再現が可能なスクリプトが提供されている。Whisper smallモデルを用いた検証では、残響によって単語誤り率(WER)が5.20%から7.70%へと相対的に48%悪化することが示され、RT60の増加やDRRの低下に伴って認識精度が単調に低下する物理的特性と一致する傾向が確認された。

6182 字
読む →