Novedades

70

Investigadores presentan MHLA, una atención lineal multi-cabeza para modelos de inteligencia artificial

Investigadores presentan MHLA, una atención lineal multi-cabeza para modelos de inteligencia artificial

Un equipo de la Universidad de Peaking, presentó MHLA, una atención lineal multi-cabeza que aborda el problema del colapso de contexto global en modelos de inteligencia artificial. MHLA divide los tokens en bloques y utiliza un mecanismo de mezcla multi-cabezas aprendible para restaurar la selectividad de las condiciones de consulta. Los resultados muestran una mejora significativa en tareas como generación de vídeo, imágenes y NLP, y una aceleración de 8.2x sobre la atención del flash.

Inteligencia Artificial Atención Lineal Multi-Cabeza MHLA Modelos de IA Aprendizaje Automático NLP
Investigadores presentan SSO, un optimizador que estabiliza el entrenamiento de modelos de lenguaje grandes

Investigadores presentan SSO, un optimizador que estabiliza el entrenamiento de modelos de lenguaje grandes

El optimizador de esfera espectral (SSO) aborda la inestabilidad en el entrenamiento de modelos de lenguaje grandes mediante el tratamiento de la inestabilidad como un problema geométrico fundamental. SSO restringe las actualizaciones de los pesos y los parámetros para mantener la estabilidad en el entrenamiento.

Modelos de lenguaje Entrenamiento de modelos Optimización Estabilidad Investigación en IA
Investigadores desarrollan método de aprendizaje escalable para predicciones en el mundo real

Investigadores desarrollan método de aprendizaje escalable para predicciones en el mundo real

Un nuevo enfoque de aprendizaje llamado 'aprendizaje en el sitio' o 'Forsight Learning' ha sido desarrollado para abordar el desafío de entrenar modelos de inteligencia artificial en tareas de predicción en el mundo real. Este método utiliza un marco de supervisión escalable que aprovecha los resultados objetivos retrasados como señal de entrenamiento, lo que permite al modelo aprender a predecir de manera más precisa y calibrada. En pruebas, un modelo de 32 mil millones de parámetros entrenado con este enfoque superó a un modelo mucho más grande de 235 mil millones de parámetros.

aprendizaje automático inteligencia artificial predicciones aprendizaje escalable modelos de IA entrenamiento de modelos
Investigadores presentan modelo de inteligencia artificial multimodal de 10 mil millones de parámetros con rendimiento sorprendente

Investigadores presentan modelo de inteligencia artificial multimodal de 10 mil millones de parámetros con rendimiento sorprendente

Un equipo de investigadores ha desarrollado un modelo de inteligencia artificial multimodal de 10 mil millones de parámetros que logra un rendimiento sorprendente en diversas tareas, superando a modelos mucho más grandes. El modelo, llamado Step 3 VL 10B, utiliza una arquitectura de codificador de visión optimizado de lenguaje y un decodificador de lenguaje robusto, y se ha entrenado con un conjunto de datos de 1.2 billones de tokens multimodales. Los resultados muestran que el modelo alcanza un rendimiento del 2.2% en el MM Bench y del 80.11% en MM MU, lo que lo hace competitivo con modelos propietarios de primer nivel. El modelo también demuestra habilidades de razonamiento complejo, como la capacidad de contar objetos en una imagen y de realizar tareas de percepción de grano fino.

Inteligencia Artificial Modelo Multimodal Aprendizaje Automático Rendimiento Sorprendente Investigación en IA Arquitectura de Codificador
Investigadores desarrollan agente de búsqueda autoevolucionado sin datos de capacitación

Investigadores desarrollan agente de búsqueda autoevolucionado sin datos de capacitación

Un equipo de investigadores de Meta Super Intelligence Labs y UIUC ha desarrollado un marco llamado Dr. Zero, que permite a agentes de búsqueda autoevolucionarse sin necesidad de datos de capacitación humana. El Dr. Zero utiliza un motor de búsqueda externo para la verificación y se basa en dos avances técnicos clave: un bucle de retroalimentación del proponente simbiótico y una optimización de política relativa hopcouped (HRPO). Estos avances permiten al agente generar preguntas complejas y mejorar su razonamiento a través de la autoevolución. Los resultados muestran que el Dr. Zero coincide o supera a los agentes completamente supervisados en tareas de búsqueda multi-turn, con un aumento relativo del 14.1% en algunos parámetros.

Agente de búsqueda Autoevolución Aprendizaje automático Inteligencia artificial Búsqueda multi-turn
Investigadores desarrollan una cadena de vistas que mejora el razonamiento espacial en modelos de lenguaje de visión

Investigadores desarrollan una cadena de vistas que mejora el razonamiento espacial en modelos de lenguaje de visión

Un equipo de investigadores ha presentado una cadena de vistas que transforma los modelos de lenguaje de visión estándar en razonadores de punto de vista activo. Este enfoque, llamado CoV, utiliza un curso de dos etapas para encontrar exploración. En la primera etapa, selecciona vistas de anclaje clave y, en la segunda, ajusta dinámicamente la cámara para recopilar más información. Los resultados muestran una mejora promedio de más del 11,5% en el índice de referencia OpenEQA y una mayor precisión en otros benchmarks.

Modelos de lenguaje Razonamiento espacial Visión artificial Aprendizaje automático Investigación en IA
Ministral 3: Modelos de lenguaje eficientes con destilación de cascada

Ministral 3: Modelos de lenguaje eficientes con destilación de cascada

Se presentó Ministral 3, una familia de modelos de lenguaje denso diseñada para eficiencia en computación y memoria. Utiliza destilación de cascada para lograr rendimiento competitivo en tres tamaños: 3B, 8B y 14B parámetros. Entrenados con 1-3 billones de tokens, son más eficientes que modelos como Llama 3 y Qwen 3. Ofrecen variantes de instrucción y razonamiento bajo licencia Apache 2.0.

Modelos de lenguaje Destilación de cascada Eficiencia computacional Inteligencia artificial Aprendizaje automático
Nvidia presenta Personaplex, un modelo de AI de voz avanzado

Nvidia presenta Personaplex, un modelo de AI de voz avanzado

Nvidia ha lanzado Personaplex, un modelo de AI de voz que permite conversaciones más naturales y fluidas. Este modelo de 7 mil millones de parámetros puede escuchar y hablar al mismo tiempo, permitiendo a los usuarios definir cualquier papel a través de texto y elegir entre diversas voces. Personaplex soluciona problemas comunes en los sistemas de AI de voz, como la falta de conciencia de cuándo el usuario está tratando de intervenir y la incapacidad para mantener una conversación natural. El modelo ha sido probado en una conversación con un usuario, demostrando su capacidad para responder de manera natural y coherente.

Inteligencia Artificial Modelo de Voz Conversaciones Naturales AI Avanzado Nvidia Personaplex
Lanzan herramienta de IA para generar anuncios con consistencia de producto

Lanzan herramienta de IA para generar anuncios con consistencia de producto

Una nueva herramienta de inteligencia artificial llamada Short Money permite generar anuncios comerciales con imágenes de productos y un mensaje de texto, ofreciendo consistencia del producto y sin errores de texto. La herramienta ofrece diferentes estilos y modos de personalización, incluyendo un modo de director avanzado. Está disponible a partir de $100 por mes.

Inteligencia Artificial Generación de Anuncios Personalización Consistencia de Producto Automatización de Marketing
Herramientas Ver Fuente
Flova AI integra modelo Sora 2 para generar videos con habilidades profesionales

Flova AI integra modelo Sora 2 para generar videos con habilidades profesionales

Flova AI es una herramienta de creación de videos que utiliza inteligencia artificial para manejar todo el proceso, desde el guión hasta la generación de video y música. Recientemente, ha integrado el modelo Sora 2, que permite crear clips de 12 segundos con movimiento natural de la cámara. La herramienta también cuenta con una función llamada 'habilidades', que permite obtener salidas profesionales predecibles y coherentes. El usuario puede crear un proyecto, describir su idea y dejar que la IA genere un plan de acción, incluyendo la definición del personaje, la división en escenas y la descripción de cada disparo. Luego, puede diseñar el personaje y generar el video.

Generación de videos Inteligencia artificial Sora 2 Creación de contenido Automatización de video Edición de video
Herramientas Ver Fuente
Black Forest Labs presenta un modelo de generación de imágenes de 9 mil millones de parámetros

Black Forest Labs presenta un modelo de generación de imágenes de 9 mil millones de parámetros

Black Forest Labs ha lanzado un modelo de generación de imágenes llamado Flux, que cuenta con 9 mil millones de parámetros y es capaz de generar imágenes de alta calidad a partir de texto o imágenes en cuestión de segundos. El modelo ha sido destilado para requerir solo 4 pasos de inferencia y puede funcionar en hardware de consumo como la tarjeta gráfica RTX 4090. Según el creador, Flux puede igualar o superar a modelos 5 veces su tamaño mientras se ejecuta en menos de medio segundo.

Generación de Imágenes Modelos de lenguaje Inteligencia Artificial Hardware de consumo Tecnología de imágenes
Google lanza modelo de traducción Gemma con capacidades multilingües y multimodales

Google lanza modelo de traducción Gemma con capacidades multilingües y multimodales

Google ha lanzado un nuevo modelo de traducción llamado Gemma, que ofrece traducción automática de alta calidad en 55 idiomas y puede ejecutarse en hardware cotidiano. El modelo viene en tres tamaños diferentes (4, 12 y 27 mil millones de parámetros) y cuenta con capacidades multimodales, lo que le permite extraer y traducir texto directamente de imágenes.