← 用語集

Transformer

Self-Attention

Self-Attention を中核とするニューラル構造。 LLM・VLM・音声・蛋白質構造予測まで横断的に使われる。

Transformer は、 2017 年の論文「Attention is All You Need」 で提案されたニューラル構造。 Self-Attention によって系列内の任意の位置同士の関係を直接計算できる。 RNN / CNN を置き換え、 LLM (GPT / Claude / Llama) / VLM (LLaVA / Flamingo) / 音声 (Whisper) / 蛋白質構造予測 (AlphaFold 2) まで広く使われる。

なぜ強いか

  • 系列長に対して並列計算しやすく GPU を埋めやすい
  • 長距離依存を Attention で直接捉える
  • スケール則 (パラメータ数 × データ量で性能が乗算的に上がる) が観測された

限界と派生

  • Attention の計算量は系列長 ^2 で増える → Flash Attention / Linear Attention / Mamba (SSM) などの代替系
  • ロボティクス用途では Decision Transformer / Gato / RT-2 などへ展開