Circuitos en Transformers: Interpretabilidad y aplicaciones IA
¿Qué son los circuitos en Transformers?Los circuitos en Transformers son subconjuntos interpretables dentro de modelos basados en la arquitectura transformer, formados por cabezas de atención y MLPs (perceptrones multicapa). Estos circuitos se encargan de tareas específicas dentro del modelo, como el seguimiento de objetos, el agrupamiento de tokens o la interpretación contextual. Su estudio es …









