Definición rápida
La Latencia es el tiempo que transcurre entre que un usuario realiza una acción (clic, request) y recibe la respuesta del sistema. En servicios digitales, es la medida del retraso percibido, y tiene impacto directo en la experiencia de usuario y las tasas de conversión.
¿Qué es la Latencia?
La latencia se mide en milisegundos (ms). Para contexto: 100ms es prácticamente imperceptible para el ojo humano; 1,000ms (1 segundo) se siente como una pausa notable; 3,000ms+ se siente como lentitud grave y muchos usuarios abandonan.
Amazon publicó hace años que cada 100ms de latencia adicional reduce sus ventas en un 1%. Google encontró que pasar de 400ms a 900ms en resultados de búsqueda reduce el tráfico en un 20%. Estos datos demuestran que la latencia no es solo un problema técnico —es un problema de negocio.
La latencia total que experimenta un usuario es la suma de múltiples componentes: red (tiempo de viaje de datos), procesamiento del servidor, consultas de base de datos, renderizado del cliente. Cada capa contribuye.
¿Cómo se mide y gestiona la Latencia?
Las métricas de latencia más importantes son:
- P50 (percentil 50 / mediana): La mitad de los requests responden en menos de X ms. Representa al «usuario típico».
- P95 (percentil 95): El 95% de los requests responden en menos de X ms. Representa la experiencia de la mayoría.
- P99 (percentil 99): El 99% de los requests responden en menos de X ms. Representa los casos extremos.
Es crítico medir P99 además de la media, porque los promedios ocultan casos extremos. Si tu latencia media es 200ms pero tu P99 es 8,000ms, un 1% de tus usuarios tiene una experiencia terrible —y en un producto con 1 millón de usuarios, eso son 10,000 personas.
Las estrategias para reducir latencia incluyen: CDN (servir contenido desde servidores cercanos al usuario), caché (evitar recalcular lo ya calculado), Edge Computing (procesar datos cerca del usuario), y optimización de base de datos (índices, queries eficientes).
Ejemplos reales en LATAM
El problema de latencia geográfica: Un servidor en us-east-1 (Virginia, EE.UU.) tiene una latencia de red de ~100-150ms hacia Santiago, Chile, y ~180-200ms hacia Buenos Aires. Esto es solo el viaje de red —sin contar procesamiento. Por eso startups con usuarios en LATAM consideran usar servidores en São Paulo (AWS sa-east-1) o usar CDNs con nodos en la región.
Fintechs de pagos: En sistemas de pago, la latencia tiene implicaciones directas. Clip y Conekta en México optimizan la latencia de sus APIs porque cada milisegundo en el proceso de autorización de pago afecta la experiencia del comerciante y comprador.
Plataformas de streaming: Claro Video y Movistar Play en LATAM usan CDNs con nodos en la región para reducir la latencia de streaming de video. Sin CDN, un video streameado desde un servidor en EE.UU. tendría buffering constante.
Tipos de Latencia
| Tipo | Qué mide | Cómo reducirlo |
|---|---|---|
| Latencia de red | Tiempo de viaje de datos A→B | CDN, servidores más cercanos |
| Latencia de servidor | Tiempo de procesamiento del backend | Optimización de código, caché, auto-scaling |
| Latencia de base de datos | Tiempo de queries DB | Índices, query optimization, read replicas |
| Latencia de renderizado | Tiempo de pintar la pantalla | Code splitting, lazy loading, SSR |
Errores comunes sobre Latencia
- Medir solo el promedio: El promedio oculta casos extremos. Siempre mide percentiles (P95, P99).
- Ignorar la latencia en desarrollo local: Tu laptop potente con servidor local tiene latencia de 1ms. Tu usuario en Cochabamba con 3G tiene 800ms. Testa en condiciones realistas.
- No considerar la latencia en diseños de arquitectura: Llamar a 10 microservicios en serie suma sus latencias. Llamadas en paralelo o reestructurar el diseño puede reducir el total significativamente.
Preguntas Frecuentes (FAQ)
¿Cuál es una buena latencia para una API?
Para APIs de uso interactivo (usuario esperando): P99 < 500ms es aceptable; P99 < 200ms es bueno; P99 < 100ms es excelente. Para APIs de batch/background: los requisitos son más flexibles.
¿Latencia y ancho de banda son lo mismo?
No. Latencia es el tiempo de respuesta (velocidad de reacción). Ancho de banda es la cantidad de datos transferibles por segundo (capacidad de transferencia). Una conexión puede tener alta latencia pero alto ancho de banda, o viceversa. En gaming online, la latencia importa más que el ancho de banda.
¿Cómo el Edge Computing reduce la latencia?
Procesando datos en servidores físicamente más cercanos al usuario (en el «borde» de la red), en lugar de enviar todo al datacenter central. Si el usuario está en Buenos Aires y el servidor de edge está en Buenos Aires, la latencia de red es mínima.









