ひとことで言うと
OSS のメトリクス収集・モニタリングシステム。SRE 分野の標準。
Prometheusは、サーバーやアプリの数値データ(メトリクス)を定期的に集めて保存・監視するオープンソースのシステムです。CPU使用率やリクエスト数、エラー率といった時系列の数字を取り込み、独自のクエリ言語PromQLで集計したり、しきい値を超えたらアラートを飛ばしたりできます。Kubernetes環境の定番監視基盤として広く使われています。
仕組みは、監視対象が公開する数値をPrometheusが「取りに行く(プル型)」のが特徴です。生成AIアプリでも、API応答時間やトークン消費、レート制限の発生回数などを指標化すれば、異常を早期に検知できます。集めた数字をグラフで見せるのは苦手なので、可視化はGrafanaと組み合わせ、計測コードはOpenTelemetryで統一するのが定番構成です。