M5 Max vs Threadripper 96 nucleos: falla Geekbench 6

El titular que hizo ruido: ¿M5 Max gana de verdad?

A principios de marzo de 2026, Tom’s Hardware publicó una comparativa que generó revuelo en comunidades tech: el Apple M5 Max de apenas 18 núcleos aparecía superando en puntaje multicore de Geekbench 6 a un AMD Ryzen Threadripper de 96 núcleos. El titular fue explosivo, los reposts inmediatos, y la indignación (o euforia, según el bando) llegó rápido. Pero antes de sacar conclusiones y, más importante, antes de tomar decisiones de compra de hardware para tu startup basándote en ese número, conviene entender qué está midiendo realmente ese benchmark y cuáles son sus límites.

Qué dice realmente Geekbench 6 sobre procesadores de muchos núcleos

Geekbench 6 fue diseñado principalmente para evaluar procesadores de uso cotidiano: laptops, desktops de consumo, chips de hasta 16 a 32 núcleos. Su modelo de medición multicore, llamado shared task, pone a todos los hilos a colaborar sobre una misma tarea grande en lugar de asignarles tareas independientes como hacía Geekbench 5. Esto introduce un problema estructural grave cuando el procesador tiene muchos núcleos: la comunicación entre hilos, los errores de caché y la sobrecarga de sincronización crecen exponencialmente.

El resultado, documentado por múltiples análisis técnicos independientes, es que Geekbench 6 prácticamente deja de escalar a partir de los 32 a 64 núcleos. En procesadores de 96, 128 o incluso 180 núcleos, el puntaje multicore no representa el potencial real del chip: se estanca en una ganancia de apenas 10 a 12 veces el rendimiento de un solo núcleo, sin importar cuántos núcleos adicionales tenga el procesador.

Por qué el Threadripper parece perder cuando en realidad no pierde

El sitio especializado ServeTheHome documentó en detalle este fenómeno con ejemplos concretos: un Ryzen Threadripper 3995WX de 64 núcleos apenas triplicaba o cuadruplicaba el puntaje de un procesador quad-core de Intel en Geekbench 6 multicore, algo que desafía cualquier lógica de rendimiento paralelo real. Incluso procesadores Xeon de 512 hilos mostraban niveles absurdamente bajos de utilización dentro del benchmark.

Las razones técnicas detrás de esto son:

Thrashing de caché L3: a mayor número de núcleos, más presión sobre el caché compartido, lo que provoca fallos masivos. En tareas como compresión de archivos, la tasa de fallos L3 puede llegar al 46%, destruyendo la eficiencia paralela.
Cuellos de botella seriales: la Ley de Amdahl establece que cualquier porción no paralelizable del código limita el escalado. Geekbench 6 tiene porciones seriales significativas.
Límites térmicos y de energía: en procesadores de alta densidad de núcleos, el benchmark puede provocar condiciones de throttling que artificialmente reducen el puntaje.
Workloads hardcodeados: algunas tareas multicore están diseñadas para escalar a 4 veces el tamaño del test de un solo núcleo, ignorando completamente los núcleos adicionales.

Geekbench 5 vs. Geekbench 6: un cambio que importa

Esta distinción es crítica para entender el debate. En Geekbench 5, el modelo de tareas independientes permitía que un procesador de 180 núcleos obtuviera hasta 63 veces el rendimiento de un solo núcleo en la prueba multicore, reflejando mejor el potencial real del hardware paralelo. En Geekbench 6, ese mismo procesador de 180 núcleos apenas alcanza 10 a 12 veces el rendimiento de un núcleo. El chip no empeoró: el benchmark cambió su forma de medir.

Esto no significa que Geekbench 6 sea inútil. Para procesadores de uso general —exactamente el segmento donde compite el Apple M5 Max— el benchmark sigue siendo relevante y consistente. El M5 Max está optimizado para cargas de trabajo que caben en su caché, con núcleos de alto rendimiento individual y eficiencia energética sobresaliente. Geekbench 6 mide bien eso. El problema es comparar ese resultado directamente contra un Threadripper de 96 núcleos diseñado para cargas de trabajo masivamente paralelas en entornos de producción, renderizado profesional o workloads de data science.

¿Qué benchmarks sí son válidos para muchos núcleos?

Si necesitas evaluar hardware para tu startup y la decisión involucra procesadores de alta densidad de núcleos, estos son los benchmarks con mayor validez:

Cinebench R23 / R24: renderizado 3D altamente paralelizable, excelente para ver escalado real de núcleos.
SPEC CPU 2017: estándar de la industria para comparativas científicas y de ingeniería.
Benchmarks de aplicación específica: compilar tu propio código, ejecutar tu pipeline de ML, procesar tu workload real. Nada supera medir lo que tu startup necesita hacer.
Geekbench 6 single-core: sigue siendo confiable para medir el rendimiento de un solo núcleo tanto en el M5 Max como en el Threadripper.

Qué significa esto para founders que toman decisiones de hardware

Como founder o CTO, la lección de fondo no es técnica: es sobre pensamiento crítico aplicado a datos. Los titulares de benchmark hacen clicks, pero rara vez cuentan la historia completa. Antes de invertir en infraestructura —ya sea cloud, workstations o servidores on-premise— hazte estas preguntas:

¿Qué workload específico voy a ejecutar? Un M5 Max es extraordinario para desarrollo, edición de video y modelos de ML medianos con frameworks optimizados para Apple Silicon. Un Threadripper de 96 núcleos es imbatible en renderizado batch, compilaciones masivas o simulaciones científicas.
¿El benchmark que citan replica mi caso de uso? Geekbench 6 multicore no replica bien cargas masivamente paralelas.
¿Quién financió o publicó la comparativa? El contexto editorial siempre importa.

El Apple M5 Max es un chip extraordinario por su eficiencia energética, rendimiento por watt y su integración con el ecosistema macOS. El AMD Ryzen Threadripper de 96 núcleos es una bestia para workloads paralelos masivos que ningún chip de laptop puede igualar en producción real. No son competidores directos: son herramientas para casos de uso distintos que un benchmark mal elegido pone artificialmente en la misma balanza.

Conclusión

El M5 Max no destruye al Threadripper de 96 núcleos. Geekbench 6 simplemente no está diseñado para medir procesadores de alta densidad de núcleos, y sus resultados multicore se vuelven engañosos a partir de los 32 a 64 núcleos. El benchmark favorece estructuralmente a chips como el M5 Max, que tienen pocos núcleos muy rápidos, sobre chips diseñados para paralelismo masivo. Para founders y equipos técnicos que toman decisiones de hardware con presupuesto real en juego, la conclusión práctica es clara: elige el benchmark que replica tu workload, no el que produce el titular más impactante.

Profundiza estos temas con nuestra comunidad de founders tech: discutimos hardware, IA y decisiones de stack con criterio real.

Unirme a la comunidad