継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

SD-E$^2$:トークン予算制約下での推論のための意味的探索

小規模言語モデル(SLM)が限られたトークン予算内で高度な推論を行うため、生成される推論プロセスの「意味的な多様性」を報酬として最適化する新しい強化学習フレームワーク「SD-E$^2$」が提案されました。

6076 字
読む →

均質なTransformerモデルを用いたペアなしマルチモーダルデータのための連合学習

従来のマルチモーダル学習は画像とテキストのペアが揃った大規模な中央集権的データを必要としていましたが、医療や金融などの機密分野ではデータが分散し、かつペアが存在しない「ペアなしデータ」の状態が一般的であるという課題がありました。

6626 字
読む →

CanaryBench:クラスタレベルの会話要約におけるプライバシー漏洩のストレステスト

CanaryBenchは、大規模言語モデル(LLM)の会話データをトピックごとにクラスタ化して要約する際、個人の特定につながる情報(PII)がどの程度漏洩するかを測定する新しいベンチマークである。実験の結果、元の会話を直接引用する「抽出型」の要約手法を用いると、特定の識別文字列(カナリア)を含むクラスタの96.

6820 字
読む →

最小限の深層学習アーキテクチャの体系的な特性評価:収束、枝刈り、量子化の統一的解析

本研究は、深層ニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、およびビジョン・トランスフォーマー(ViT)を対象に、特定のタスクを解決するために必要な「最小限のアーキテクチャ」を特定するための統一的な計算手法を提案し、学習の収束性、枝刈りへの耐性、量子化の堅牢性を体系的に解析した。

5851 字
読む →

より効果的な炭素削減に向けた大規模負荷シェイピングのためのチェリーピッキング・アプローチ

データセンター等の大規模負荷において、単一の指標に頼らず日々の系統信号に基づき最適な制御戦略を「チェリーピッキング(厳選)」することで、従来の価格ベースの手法より2〜3倍高いCO2削減効果が得られることが判明しました。

7076 字
読む →

ハーン・コルモゴロフ・アーノルド・ネットワークを用いた時系列予測

従来の時系列予測で主流だったTransformerの計算量の多さや、MLPが抱える高周波成分の学習の苦手さ(スペクトルバイアス)を解決するため、Hahn多項式を学習可能な活性化関数として組み込んだ新しいネットワーク構造「HaKAN」が開発されました。

5904 字
読む →

フローベースモデルによる極値的な数学的構造の発見

数学の極値幾何学における構造発見において、従来の離散的な手法や大規模言語モデル(LLM)に依存する手法の限界を打破するため、連続的な空間で直接動作する新しい生成フレームワークであるFlowBoostを提案しました。

7031 字
読む →

PEAR:機械翻訳における自動相対スコアリングのためのペアワイズ評価

PEARは、機械翻訳の品質評価(QE)において、従来の1つの翻訳文を独立して絶対評価する手法ではなく、2つの翻訳文を同時に読み込ませてその品質差の方向と大きさを直接予測する「段階的なペアワイズ比較」という新しいフレームワークを提案している。

5780 字
読む →

確率的焼きなまし法のメモリ効率的なFPGA実装

組合せ最適化問題を高速に解く手法として期待される確率的シミュレーテッドアニーリング(SSA)において、ハードウェア実装時の課題であった膨大なメモリ使用量を削減するため、中間状態の保存タイミングを最適化したHA-SSAアルゴリズムが提案されました。

6334 字
読む →

給与システムのための大規模言語モデルにおける意味論的および構文論的理解の評価

給与計算は、わずか数セントの誤差が法令遵守に影響を与えるため、大規模言語モデル(LLM)にとって極めて高い精度と監査可能性が求められる過酷なテストケースとなります。現在のLLMは文章作成や分析において優れた能力を示していますが、厳密な数値計算や、複雑なビジネスルールを正しい順序で適用する能力については依然として不確実性が残っており、本研究ではその限界と可能性を検証しました。 研究では、GPT 5 Auto、Claude Sonnet 4、Perplexity Pro、Grok Auto、Gemini 2.5 Proといった主要なモデルを対象に、5段階の難易度を持つデータセットと4段階のプロンプト手法を用いて、給与計算スキーマの意味理解と計算精度を評価しました。検証の結果、単純な計算では多くのモデルが100%の精度を達成したものの、複雑なシナリオではプロンプトの詳細度が精度に大きく影響し、特に明示的な数式を提供したレベル4においてPerplexity Proが最も高い信頼性を示しました。 実験データによれば、単純な乗算を超えた複雑なタスクにおいて、LLMが単独で正確な結果を出すには限界があり、明示的なアルゴリズムの提示や外部ツールの活用が不可欠であることが明らかになりました。特に、多州にまたがる税金の按分や為替変換を含む高度なシナリオでは、モデル間で性能の差が顕著に現れており、実務への導入には慎重なプロンプト設計と検証プロセスの構築が求められるという結論に至っています。

6532 字
読む →