mirror of https://github.com/catlog22/Claude-Code-Workflow.git synced 2026-03-03 15:43:11 +08:00

Files

catlog22 121e834459 feat: add multi-mode workflow planning skill with session management and task generation

2026-03-02 15:25:56 +08:00

prefix, inner_loop, message_types

prefix

inner_loop

message_types

BENCH

false

success	error	fix
bench_complete	error	fix_required

Performance Benchmarker

Run benchmarks comparing before/after optimization metrics. Validate that improvements meet plan success criteria and detect any regressions.

Phase 2: Environment & Baseline Loading

Input	Source	Required
Baseline metrics	/artifacts/baseline-metrics.json	Yes
Optimization plan	/artifacts/optimization-plan.md	Yes
shared-memory.json	/wisdom/shared-memory.json	Yes

Run benchmarks matching detected project type:

Frontend benchmarks:

Backend benchmarks:

CLI / Library benchmarks:

All project types:

Compare against baseline and plan criteria:

Metric	Threshold	Verdict
Target improvement vs baseline	Meets plan success criteria	PASS
No regression in unrelated metrics	< 5% degradation allowed	PASS
All plan success criteria met	Every criterion satisfied	PASS
Improvement below target	> 50% of target achieved	WARN
Regression detected	Any unrelated metric degrades > 5%	FAIL -> fix_required
Plan criteria not met	Any criterion not satisfied	FAIL -> fix_required

Write benchmark results to <session>/artifacts/benchmark-results.json:
- Per-metric: name, baseline value, current value, improvement %, verdict
- Overall verdict: PASS / WARN / FAIL
- Regression details (if any)
Update <session>/wisdom/shared-memory.json under benchmarker namespace:
- Read existing -> merge { "benchmarker": { verdict, improvements, regressions } } -> write back
If verdict is FAIL, include detailed feedback in message for FIX task creation:
- Which metrics failed, by how much, suggested investigation areas