ProgramBench: 97% de tareas fallan con IA actual
¿Qué es ProgramBench y por qué cambia las reglas del juego?97% de las tareas de desarrollo de software completo fallan cuando se delegan a modelos de lenguaje actuales, según el benchmark más exigente publicado hasta la fecha. ProgramBench, presentado por Facebook Research (Meta AI) el 5 de mayo de 2026, evalúa la capacidad real de …









