AI系统监控与可观测性
AI 系统监控与可观测性是从 Demo 到 Production 的分水岭。生产环境中,如果看不到系统在做什么,就没法持续优化它。AI 工程师必须建立对系统行为的全面可观测性。
监控维度
- Agent 工作流 tracing
- 请求日志与交互记录
- Token 与成本追踪
- 响应时延、失败率、重试次数
- 用户反馈闭环
常见工具
- OpenTelemetry
- Grafana
- Prometheus
面试关键问题
企业在面试中常问:“你的 AI 系统上线后,怎么监控性能、成本和失败原因?” 这个问题答得好不好,往往决定面试官认为你是"做 Demo 的人"还是"能扛生产的人"。
与现有维基的连接
监控与可观测性是 [[verification-and-rework-cost]] 中隐性成本管控的关键手段,也是 [[you-are-not-using-agent-you-are-leading-ai-junior-engineers]] 中管理"AI 初级工程师"团队的必要基础设施。