Reinforcement Learning
RL / 強化学習
試行錯誤と報酬で方策を学ばせる機械学習の枠組み。 ロボティクスではシミュレーションでの大量試行と sim-to-real が鍵。
Reinforcement Learning (RL / 強化学習) は、 環境とのやり取りから得られる 報酬 を最大化するように方策を学ばせる枠組み。 AlphaGo / AlphaZero などのゲーム AI で広く知られる。
ロボティクスでは、 シミュレーション環境で数十億ステップ試行 → 実機に転移 (sim-to-real) する形が主流。 Boston Dynamics や Agility Robotics の歩行制御は基本この線で進化してきた。
主要手法
- PPO (Proximal Policy Optimization)
- SAC (Soft Actor-Critic)
- DreamerV3 (世界モデル + RL)
残る課題
- 報酬設計が難しい (報酬ハッキング)
- sim-to-real ギャップ: シミュレーションで学んだ方策が現実で通用しない
- データ効率: 安全に試行錯誤できる環境が限られる