¿Qué son los circuitos en Transformers?
Los circuitos en Transformers son subconjuntos interpretables dentro de modelos basados en la arquitectura transformer, formados por cabezas de atención y MLPs (perceptrones multicapa). Estos circuitos se encargan de tareas específicas dentro del modelo, como el seguimiento de objetos, el agrupamiento de tokens o la interpretación contextual. Su estudio es fundamental en la interpretabilidad mecanicista de la IA moderna.
La intuición detrás del funcionamiento interno
Un transformer procesa información a través de un residual stream, por donde fluye la información en cada capa. Las diferentes cabezas de atención leen y escriben sobre este canal, permitiendo que cada una capture patrones únicos, desde relaciones posicionales hasta asociaciones semánticas profundas. La composición de estas cabezas y capas permite la formación de circuitos funcionales que ejecutan pasos de razonamiento o comportamientos complejos. Por ejemplo, investigaciones recientes muestran que los primeros layers agrupan tokens por posición, los intermedios resaltan eventos y los más profundos realizan inferencias.
Desacoplamiento y descubrimiento de circuitos
El avance en modelos dispersos (sparse) permite identificar circuitos más compactos y fáciles de interpretar. Técnicas como el entrenamiento con sparsity fuerzan a que la mayoría de los pesos sean cero, lo que da lugar a circuitos humanos comprensibles. Al eliminar nodos de estos circuitos, se comprueba su relevancia real, ya que el rendimiento del modelo se ve afectado. El análisis y la interpretación de unidades conceptuales dentro de transformers, como mostrado en algoritmos de descubrimiento de conceptos, han permitido explicar decisiones de IA tradicionalmente vistas como una ‘caja negra’.
👥 ¿Quieres ir más allá de la noticia?
En nuestra comunidad discutimos las tendencias, compartimos oportunidades y nos ayudamos entre emprendedores. Sin humo, solo acción.
👥 Unirme a la comunidadImplicaciones para founders y aplicaciones prácticas
Comprender estos mecanismos es clave para founders que implementan IA aplicada. Desde la depuración y alineación de modelos (reduciendo riesgos en IA de uso crítico) hasta optimización para tareas concretas, la capacidad de aislar y comprender circuitos puede marcar la diferencia en aplicaciones SaaS, plataformas de automatización o herramientas de análisis de lenguaje natural.
Conclusión
La investigación en circuitos de transformers representa el puente entre la IA de caja negra y un enfoque transparente, escalable y aplicable al mundo real. Dominar estos conceptos abre nuevas oportunidades para innovar en productos de software e IA, haciéndolos no solo más potentes, sino también más confiables y alineados con los objetivos de negocio.
Descubre cómo otros founders implementan estas soluciones para IA aplicada y comparte retos en comunidad.
Fuentes
- https://www.connorjdavis.com/p/intuitions-for-transformer-circuits (fuente original)
- https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf (fuente adicional)
- https://dl.acm.org/doi/10.1145/3787104 (fuente adicional)
- https://arxiv.org/html/2401.10831v3 (fuente adicional)
- https://openaccess.thecvf.com/content/CVPR2024/papers/Kowal_Understanding_Video_Transformers_via_Universal_Concept_Discovery_CVPR_2024_paper.pdf (fuente adicional)
- https://papers.ssrn.com/sol3/Delivery.cfm/5345552.pdf?abstractid=5345552 (fuente adicional)
- https://aiethics.turing.ac.uk/module-pages/appendix-c-generative-ai-and-explainability-model-opacity-and-complexity/ (fuente adicional)













