GeekNews (@GeekNewsHada)

2026-01-30 | ❤️ 33 | 🔁 10


Claude Code 성능 저하 추적용 일일 벤치마크

  • Claude Code Opus 4.5의 SWE 작업 성능을 매일 측정해 통계적으로 유의한 성능 저하를 탐지하는 추적 시스템
  • SWE-Bench-Pro의 선별된 하위 집합을 사용해 매일 50개 테스트 인스턴스를 평가하며, 결과는 CLI 환경에서 … https://t.co/8GSZkq9Ipv

Tags

LLM agent-benchmarking