ひとことで言うと
AI が画像を読み取る機能。Claude も画像認識に対応。
Visionは、AIが画像を読み取って理解する機能のことです。写真・図表・スクリーンショット・手書きメモなどを入力でき、「何が写っているか」「どんな内容か」を文章で説明させたり、画像をもとに質問に答えさせたりできます。Claude もこの画像認識に対応しています。
文章と画像を同時に扱える点で、これはマルチモーダルな能力の中心です。実務では、請求書やグラフの読み取り、UIのスクリーンショットを見せて改善案を相談する、といった使い方ができます。なお画像内の文字だけを抜き出す専門技術はOCRと呼ばれ、Vision はそれを含むより広い「画像の意味理解」を担います。