Diffusion Policy は、 画像生成で著名な拡散モデル (Diffusion Model) を、 ロボットの 行動方針 (policy) 生成に応用した手法。 2023 年に Columbia / TRI / MIT が共同提案した。
入力は観察 (カメラ・関節角度) で、 出力は数十ステップ先までの連続的な行動軌道。 ガウシアンノイズから segments を逆拡散させて軌道を生成する。
強み
- 多峰な行動分布 (右でも左でも掴める、 など) を 1 つのモデルで扱える
- 模倣学習 (imitation learning) と相性が良く、 数百件のデモで実用に近づく
弱み
- 推論コストが高い (毎ステップ拡散) → リアルタイムには蒸留や caching が必要
- データ収集に依存 (ロングテール失敗パターンを学べない)