Saltar al contenido principal
DiffusionGemma: la IA abierta que revoluciona el hardware local
Escrito porSofía Quiroga3 min de lectura

DiffusionGemma: la IA abierta que revoluciona el hardware local

Google DeepMind acaba de lanzar DiffusionGemma, un modelo de IA abierto que promete revolucionar la generación de texto al funcionar hasta cuatro veces más rápido que sus predecesores en hardware local. A diferencia de los modelos tradicionales que escriben palabra por palabra, este sistema genera bloques completos de texto en paralelo. Ars Technica reportó los detalles técnicos de este lanzamiento que podría cambiar cómo usamos la IA en nuestras propias PCs.

Qué hace diferente a DiffusionGemma

¿Sabías esto?

Artículo actualizado el 10 de junio de 2026. Seguimos cubriendo las últimas novedades en oldschoolclub.gg.

La mayoría de los modelos de lenguaje actuales son autoregresivos. Generan texto de izquierda a derecha, un token a la vez. Es como escribir con una máquina de escribir que solo permite una letra por segundo.

DiffusionGemma rompe ese patrón. Funciona más como los generadores de imágenes: parte de un lienzo lleno de ruido y lo va "limpiando" en múltiples pasadas simultáneas. El resultado es un bloque de texto finalizado de golpe, no construido palabra por palabra.

Este enfoque de difusión aplicado al lenguaje es lo que permite la aceleración masiva. Según las pruebas de Google, el modelo alcanza 700 tokens por segundo en una RTX 5090 y supera los 1,000 tokens por segundo en un H100.

Hardware accesible y parámetros inteligentes

Google DeepMind releases DiffusionGemma, a model that runs local AI 4x faster

DiffusionGemma es un modelo MoE (Mixture of Experts) con 26 mil millones de parámetros totales, pero solo activa 3.8 mil millones durante la inferencia. Este diseño lo hace viable para ejecutarse en GPUs de consumo con 18GB de VRAM.

La comparación con Gemma 4, también familia de modelos abiertos de Google, pone en perspectiva el salto. Modelos autoregresivos de tamaño similar quedan rezagados frente a esta arquitectura de difusión optimizada para paralelización.

El lanzamiento llega bajo licencia Apache 2.0, continuando la estrategia de Google de competir en el ecosistema de IA abierta contra Meta, Mistral y la proliferación de modelos derivados de Llama.

Dato curioso

La técnica de difusión que usa DiffusionGemma proviene originalmente de la generación de imágenes (Stable Diffusion, DALL-E). Adaptarla al lenguaje natural era considerado técnicamente inviable hasta hace poco. Google DeepMind logró resolver el problema de coherencia en textos largos donde otros intentos previos fallaron.

Impacto en la industria y para gamers

Para la comunidad hispanohablante de entusiastas de tecnología, este modelo representa una oportunidad concreta. Los usuarios con GPUs gaming de gama alta ya pueden experimentar con IA generativa local sin depender de suscripciones en la nube ni conexiones constantes a internet.

La velocidad de 700 tokens por segundo en una RTX 5090 transforma la experiencia de uso. Tareas que antes tomaban minutos, como resumir documentos largos o generar código, ahora se completan en segundos. Esto acerca la IA productiva al escritorio doméstico.

Desde el lado del desarrollo, la arquitectura MoE con activación selectiva de parámetros se está convirtiendo en estándar. Permite escalabilidad teórica masiva sin penalizar el costo computacional real de cada consulta.

Qué sigue para DiffusionGemma y la IA local

El verdadero test para DiffusionGemma será la adopción por parte de desarrolladores independientes. Los modelos abiertos solo ganan tracción cuando comunidades como Hugging Face y proyectos derivados los integran en herramientas concretas.

Google ha publicado el modelo con documentación técnica detallada. Se espera que en las próximas semanas aparezcan implementaciones optimizadas para distintas plataformas, incluyendo versiones cuantizadas que reduzcan aún más los requerimientos de memoria.

La competencia con Meta (Llama 4) y con los modelos cerrados de OpenAI y Anthropic se intensifica en este terreno de eficiencia. La velocidad de inferencia local se está convirtiendo en métrica clave, no solo capacidad de razonamiento.

Preguntas frecuentes

¿Cuántos parámetros activa DiffusionGemma durante el uso?

Solo 3.8 mil millones de parámetros activos, aunque el modelo total almacena 26 mil millones. Esto permite ejecutarlo en GPUs con 18GB de VRAM.

¿Qué GPU necesito para correr DiffusionGemma localmente?

Una GPU de gama alta como la RTX 5090 es suficiente. También funciona en aceleradores profesionales como el Nvidia H100, donde alcanza más de 1,000 tokens por segundo.

¿DiffusionGemma es gratis para usar comercialmente?

Sí, se distribuye bajo licencia Apache 2.0, que permite uso comercial, modificación y distribución sin restricciones de royalties.

Relacionados

Etiquetas

Comentarios