SWE-bench explicado: el benchmark que separa “demo bonita” de agente que arregla bugs de verdad

Qué mide, por qué es más duro que “hacer un script”, cómo se puntúa y qué trampas (contaminación) hay que vigilar.

INTELIGENCIA ARTIFICIAL

2/22/2026