Vision-Language Model (VLM) は、 画像 (動画) と自然言語を同じ意味空間に埋め込んで扱うマルチモーダルモデル。 GPT-4o / Gemini / Claude 系の上位モデルや、 Hugging Face の LLaVA、 Cloudflare Workers AI に乗っている @cf/llava-hf/llava-1.5-7b-hf などが該当する。
ロボティクスでは、 カメラ映像から「目の前で何が起きているか」 を言語で記述したり、 言語コマンド (「赤いコップを取って」) を行動方針に翻訳する用途で使われる。 LBM や Diffusion Policy の入力段に VLM を置く構成が増えている。
なぜ重要か
- ラベル付きデータが少なくても 「ゼロショット」 に近い形で物体・状況を解釈できる
- 言語指示 → 行動マッピングの中間表現として汎用性が高い
残る課題
- 推論コストが高く、 リアルタイム制御に乗せるには量子化や蒸留が必要
- 視点・照明・遮蔽による失敗が安全性に直結する