状態空間モデル(SSM)の表現能力は、採用されるゲート機構の構造と計算に使用される数値の精度に深く依存しており、特に対角ゲート型SSMは固定精度において過去時相論理(PLTLf)で定義可能なスターフリー言語を認識する能力を持つことが証明されました。
状態空間モデル(SSM)の表現能力は、採用されるゲート機構の構造と計算に使用される数値の精度に深く依存しており、特に対角ゲート型SSMは固定精度において過去時相論理(PLTLf)で定義可能なスターフリー言語を認識する能力を持つことが証明されました。 計算精度を対数精度へと拡張した場合、SSMは系列内の特定の要素を数え上げる計数操作が可能となり、正規言語の枠組みを超えた非文脈自由言語などの複雑なパターンを捉えることができるようになる一方で、固定精度では特定の周期的なパターンを認識できないという構造的な限界も存在します。 本研究では、時不変ゲートや混合レイヤーを持つSSMのバリアントについても体系的な比較を行い、トランスフォーマーの表現能力に関する既存の知見と統合することで、大規模言語モデルの代替候補としてのSSMが持つ理論的な計算能力の階層構造を論理学の視点から明確に位置づけています。
近年、大規模言語モデルの分野において、従来のトランスフォーマー・アーキテクチャに代わる有力な選択肢として状態空間モデル(SSM)が急速に注目を集めています。実証的な研究によってSSMの性能向上は目覚ましいものがありますが、その一方で、これらのモデルが原理的にどのような情報を表現でき、どのような計算が不可能なのかという理論的な基盤の解明は依然として不十分な状態にあります。本研究は、学習データや最適化の手法に依存しない、アーキテクチャそのものが持つ表現能力の限界を明らかにすることを目的としています。トランスフォーマーに関しては、論理学や計算複雑性理論を用いた解析が先行して行われており、それによってモデルの特性が深く理解されるようになりました。SSMについても同様の枠組みを適用することで、トランスフォーマーとの正確な比較が可能になり、特定のタスクにおける適性を理論的に評価できるようになります。 具体的には、パターンマッチングや周期的な位置の追跡、全域的な計数といった能力が、SSMのどのバリアントに備わっているのかを特定することが重要です。…
本研究では、状態空間モデル(SSM)の表現能力を、有限トレース上の線形時相論理(LTLf)の断片や拡張を用いて解析する手法を提案しています。具体的には、入力に依存してゲート行列が変化する対角ゲート型SSM(S6など)と、入力に関わらずゲート行列が一定である時不変型SSM(S4など)の二つの主要なクラスに焦点を当てています。さらに、計算に使用される数値の精度が表現能力に与える影響を評価するため、ビット数が一定の固定精度演算と、入力長に応じて対数的に精度が向上する対数精度演算の二つの設定を導入しました。これらのモデルバリアントを、過去時相論理(PLTLf)の特定の断片に対応付けることで、それぞれのモデルが認識可能な言語のクラスを厳密に定義しています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related