← 用語集

Vision-Language Model

VLM

画像と文章を同じ意味空間で扱うマルチモーダル基盤モデル。 ロボットの「見て・指示を理解する」 能力の中核。

Vision-Language Model (VLM) は、 画像 (動画) と自然言語を同じ意味空間に埋め込んで扱うマルチモーダルモデル。 GPT-4o / Gemini / Claude 系の上位モデルや、 Hugging Face の LLaVA、 Cloudflare Workers AI に乗っている @cf/llava-hf/llava-1.5-7b-hf などが該当する。

ロボティクスでは、 カメラ映像から「目の前で何が起きているか」 を言語で記述したり、 言語コマンド (「赤いコップを取って」) を行動方針に翻訳する用途で使われる。 LBM や Diffusion Policy の入力段に VLM を置く構成が増えている。

なぜ重要か

  • ラベル付きデータが少なくても 「ゼロショット」 に近い形で物体・状況を解釈できる
  • 言語指示 → 行動マッピングの中間表現として汎用性が高い

残る課題

  • 推論コストが高く、 リアルタイム制御に乗せるには量子化や蒸留が必要
  • 視点・照明・遮蔽による失敗が安全性に直結する