Vision-Language Model

VLM

画像と文章を同じ意味空間で扱うマルチモーダル基盤モデル。ロボットの「見て・指示を理解する」能力の中核。

Vision-Language Model (VLM) は、画像 (動画) と自然言語を同じ意味空間に埋め込んで扱うマルチモーダルモデル。 GPT-4o / Gemini / Claude 系の上位モデルや、 Hugging Face の LLaVA、 Cloudflare Workers AI に乗っている @cf/llava-hf/llava-1.5-7b-hf などが該当する。

ロボティクスでは、カメラ映像から「目の前で何が起きているか」を言語で記述したり、言語コマンド (「赤いコップを取って」) を行動方針に翻訳する用途で使われる。 LBM や Diffusion Policy の入力段に VLM を置く構成が増えている。

なぜ重要か

ラベル付きデータが少なくても「ゼロショット」に近い形で物体・状況を解釈できる
言語指示 → 行動マッピングの中間表現として汎用性が高い

残る課題

推論コストが高く、リアルタイム制御に乗せるには量子化や蒸留が必要
視点・照明・遮蔽による失敗が安全性に直結する

なぜ重要か

残る課題

この用語を扱う記事

関連用語