Investigadores presentan MHLA, una atención lineal multi-cabeza para modelos de inteligencia artificial
Un equipo de la Universidad de Peaking, presentó MHLA, una atención lineal multi-cabeza que aborda el problema del colapso de contexto global en modelos de inteligencia artificial. MHLA divide los tokens en bloques y utiliza un mecanismo de mezcla multi-cabezas aprendible para restaurar la selectividad de las condiciones de consulta. Los resultados muestran una mejora significativa en tareas como generación de vídeo, imágenes y NLP, y una aceleración de 8.2x sobre la atención del flash.