Transformer は、 2017 年の論文「Attention is All You Need」 で提案されたニューラル構造。 Self-Attention によって系列内の任意の位置同士の関係を直接計算できる。 RNN / CNN を置き換え、 LLM (GPT / Claude / Llama) / VLM (LLaVA / Flamingo) / 音声 (Whisper) / 蛋白質構造予測 (AlphaFold 2) まで広く使われる。
なぜ強いか
- 系列長に対して並列計算しやすく GPU を埋めやすい
- 長距離依存を Attention で直接捉える
- スケール則 (パラメータ数 × データ量で性能が乗算的に上がる) が観測された
限界と派生
- Attention の計算量は系列長 ^2 で増える → Flash Attention / Linear Attention / Mamba (SSM) などの代替系
- ロボティクス用途では Decision Transformer / Gato / RT-2 などへ展開