← 用語集

Diffusion Policy

拡散方策

拡散モデルを行動方針に応用した、 連続的なロボット動作を高い表現力で生成する手法。

Diffusion Policy は、 画像生成で著名な拡散モデル (Diffusion Model) を、 ロボットの 行動方針 (policy) 生成に応用した手法。 2023 年に Columbia / TRI / MIT が共同提案した。

入力は観察 (カメラ・関節角度) で、 出力は数十ステップ先までの連続的な行動軌道。 ガウシアンノイズから segments を逆拡散させて軌道を生成する。

強み

  • 多峰な行動分布 (右でも左でも掴める、 など) を 1 つのモデルで扱える
  • 模倣学習 (imitation learning) と相性が良く、 数百件のデモで実用に近づく

弱み

  • 推論コストが高い (毎ステップ拡散) → リアルタイムには蒸留や caching が必要
  • データ収集に依存 (ロングテール失敗パターンを学べない)