🦀 ClawHub
Evaluation Benchmark
by @sky-lv
Agent评估测试助手。设计评估指标、构建测试集、生成报告。使用场景:(1) 设计评估指标,(2) 构建测试集,(3) 执行评估测试,(4) 分析评估结果。
TERMINAL
clawhub install skylv-evaluation-benchmarkby @sky-lv
Agent评估测试助手。设计评估指标、构建测试集、生成报告。使用场景:(1) 设计评估指标,(2) 构建测试集,(3) 执行评估测试,(4) 分析评估结果。
clawhub install skylv-evaluation-benchmark