用語解説

マルチモーダルとは?

ひとことで言うと

画像・音声・動画など複数の種類の情報を扱える AI の特性。

マルチモーダルとは、文章(テキスト)だけでなく、画像・音声・動画など複数の種類の情報をまとめて扱えるAIの特性を指します。「モーダル=情報の様式」が複数あるという意味で、人間が文字も写真も同時に理解するのに近い能力です。

たとえば Claude は文章と画像の両方を入力でき、図表を見せて「この資料を要約して」と頼んだり、手書きメモを読み取らせたりできます。この画像読み取り機能がVisionです。テキスト専用のAIではできなかった、紙の書類・スクリーンショット・グラフを絡めた業務に対応できる点が、マルチモーダルの実務的な価値です。

「マルチモーダル」が登場する記事・レッスン

← AI用語集一覧へ