ひとことで言うと
画像・音声・動画など複数の種類の情報を扱える AI の特性。
マルチモーダルとは、文章(テキスト)だけでなく、画像・音声・動画など複数の種類の情報をまとめて扱えるAIの特性を指します。「モーダル=情報の様式」が複数あるという意味で、人間が文字も写真も同時に理解するのに近い能力です。
たとえば Claude は文章と画像の両方を入力でき、図表を見せて「この資料を要約して」と頼んだり、手書きメモを読み取らせたりできます。この画像読み取り機能がVisionです。テキスト専用のAIではできなかった、紙の書類・スクリーンショット・グラフを絡めた業務に対応できる点が、マルチモーダルの実務的な価値です。