← 用語集

Reinforcement Learning

RL / 強化学習

試行錯誤と報酬で方策を学ばせる機械学習の枠組み。 ロボティクスではシミュレーションでの大量試行と sim-to-real が鍵。

Reinforcement Learning (RL / 強化学習) は、 環境とのやり取りから得られる 報酬 を最大化するように方策を学ばせる枠組み。 AlphaGo / AlphaZero などのゲーム AI で広く知られる。

ロボティクスでは、 シミュレーション環境で数十億ステップ試行 → 実機に転移 (sim-to-real) する形が主流。 Boston Dynamics や Agility Robotics の歩行制御は基本この線で進化してきた。

主要手法

  • PPO (Proximal Policy Optimization)
  • SAC (Soft Actor-Critic)
  • DreamerV3 (世界モデル + RL)

残る課題

  • 報酬設計が難しい (報酬ハッキング)
  • sim-to-real ギャップ: シミュレーションで学んだ方策が現実で通用しない
  • データ効率: 安全に試行錯誤できる環境が限られる