HuRoC Human-Robot Commons

Timeline 用語集 About ニュースレター

LATEST

Reinforcement Learning

RL / 強化学習

試行錯誤と報酬で方策を学ばせる機械学習の枠組み。ロボティクスではシミュレーションでの大量試行と sim-to-real が鍵。

Reinforcement Learning (RL / 強化学習) は、環境とのやり取りから得られる報酬を最大化するように方策を学ばせる枠組み。 AlphaGo / AlphaZero などのゲーム AI で広く知られる。

ロボティクスでは、シミュレーション環境で数十億ステップ試行 → 実機に転移 (sim-to-real) する形が主流。 Boston Dynamics や Agility Robotics の歩行制御は基本この線で進化してきた。

主要手法

PPO (Proximal Policy Optimization)
SAC (Soft Actor-Critic)
DreamerV3 (世界モデル + RL)

残る課題

報酬設計が難しい (報酬ハッキング)
sim-to-real ギャップ: シミュレーションで学んだ方策が現実で通用しない
データ効率: 安全に試行錯誤できる環境が限られる