ひとことで言うと
AI が学習済みモデルを使って実際に応答を生成する処理。
AIにおける推論(inference)とは、学習を終えたモデルを実際に動かして、入力に対する応答を生成する処理のことです。大量のデータで訓練する「学習」フェーズと区別され、私たちがAIに質問して答えが返ってくる瞬間は、すべてこの推論にあたります。
推論には計算資源と時間がかかり、扱うトークンが多いほど処理は重くなります。Claude に上位のOpusと軽量のHaikuがあるように、モデル選びは推論の速度・コスト・賢さのバランスを決める判断です。なお「考える過程を出力させる」Chain-of-thought の意味で“推論”という語が使われることもあり、文脈で読み分ける必要があります。