Original Tweet
Claude Code 성능 저하 추적용 일일 벤치마크
- Claude Code Opus 4.5의 SWE 작업 성능을 매일 측정해 통계적으로 유의한 성능 저하를 탐지하는 추적 시스템
- SWE-Bench-Pro의 선별된 하위 집합을 사용해 매일 50개 테스트 인스턴스를 평가하며, 결과는 CLI 환경에서 … https://news.hada.io/topic?id=26243
🔗 원본 링크
🔗 Related
- add-this-paragraph-to-the-httpstcocgo09sihd0-file-to-turn-claude-code-into-claud — 주제: Llm
- anthropic-says-claude-doesnt-make-you-more-efficient-but-it- — 주제: Llm
- anthropic-says-claude-doesnt-make-you-more-efficient-but-it-does-make-you-stupid — 주제: Llm
- do-we-really-need-an-external-world-model — 주제: Llm
- fluid---인프라를-위한-claude-code-240118 — 주제: Llm