ひとことで言うと
AI の振る舞いを人間の意図・価値観に合わせる調整作業。Anthropic の重点研究分野。
アライメント(alignment)とは、AIの振る舞いを人間の意図や価値観に「合わせる」ための調整を指します。AIは指示通り動いているつもりでも、人間が本当に望む結果とずれることがあるため、安全で役立つ応答をするよう方向づける取り組み全体を意味します。
具体的には、有害な出力を避ける、嘘をつかない、ユーザーの真意をくみ取る、といった性質を訓練を通じて身につけさせます。AnthropicのConstitutional AIや、AIの設計指針であるHHH(役立つ・無害・正直)はアライメントの代表的な考え方です。アライメントは一度で完成するものではなく、モデルが賢くなるほど継続的な調整と検証が欠かせない、AI安全性の中心テーマです。