coze loop

1. 背景

跟着团队去开发 AI 应用时，经常会遇到如下情景：

直到把 Coze-Loop 加入到 Agent 中，终于实现了“像观测微服务一样观测 Agent”。

一句话：字节 2025.7 开源的 AI Agent 生命周期管理平台，定位等价于“LLM 时代的 Prometheus + Grafana + JMeter”。

支持多模型并行对比（OpenAI/Ark/千帆/通义/Gemini/Claude），一个输入六份输出，差异一眼可见；

每次调试自动生成语义哈希，相同 Prompt 只存一份快照，节省 60% 空间；

一键“版本冻结”→ 生成 /prompt/v1.3.0 这样的只读端点，供线上服务通过 SDK 热加载，彻底告别“改完就回滚”。

数据集管理：支持 CSV、JSONL、飞书多维表，自动采样、去重、敏感词过滤；

评估器工厂：内置 BLEU、ROUGE、BERTScore、LLM-as-Judge（用更强的模型给弱模型打分）；

实验报告：自动计算↑↓变化率、p-value，红绿指标一键导出 PPT，老板再也不拍脑袋。