Imitation Learning (模倣学習) は、 ロボットの行動方針 (policy) を、 専門家 (人間オペレーターや別ロボット) のデモを観察するだけで学習させる枠組み。
最も単純な形は Behavior Cloning = (状態 → 行動) の教師あり学習だが、 観察分布の偏り (DAgger 問題) や、 多峰の最適行動を 1 つの平均にぼかしてしまう問題が知られている。 Diffusion Policy はこの平均化問題への 1 つの解決策。
なぜ重要か
- 強化学習では避けられない 報酬関数設計 が不要
- 工場・倉庫・家庭など、 タスク数が膨大で報酬の言語化が難しい現場で実用化されつつある
関連
- ALOHA / Mobile ALOHA: 双腕模倣のデモ収集装置
- Implicit Behavioral Cloning, Diffusion Policy