HuRoC Human-Robot Commons

Timeline 用語集 About ニュースレター

LATEST

Diffusion Policy

拡散方策

拡散モデルを行動方針に応用した、連続的なロボット動作を高い表現力で生成する手法。

Diffusion Policy は、画像生成で著名な拡散モデル (Diffusion Model) を、ロボットの 行動方針 (policy) 生成に応用した手法。 2023 年に Columbia / TRI / MIT が共同提案した。

入力は観察 (カメラ・関節角度) で、出力は数十ステップ先までの連続的な行動軌道。ガウシアンノイズから segments を逆拡散させて軌道を生成する。

強み

多峰な行動分布 (右でも左でも掴める、など) を 1 つのモデルで扱える
模倣学習 (imitation learning) と相性が良く、数百件のデモで実用に近づく

弱み

推論コストが高い (毎ステップ拡散) → リアルタイムには蒸留や caching が必要
データ収集に依存 (ロングテール失敗パターンを学べない)