Tecnología

La industria se obsesionó con entrenar modelos de IA mientras Google preparaba su obra maestra: los chips de inferencia – Desde dentro

En los últimos años ha sido realmente relevante entrenar modelos de IA para mejorarlos. Ahora que han madurado y

La industria se obsesionó con entrenar modelos de IA mientras Google preparaba su obra maestra: los chips de inferencia

 – Desde dentro

En los últimos años ha sido realmente relevante entrenar modelos de IA para mejorarlos. Ahora que han madurado y la formación ya no escala tan notablemente, lo más importante es la conclusión: cuando utilizamos chatbots con IA, funcionan de forma rápida y eficiente. Google ha reconocido este cambio de enfoque y ha preparado sus chips exactamente para ello.

palo de hierro. Este es el nombre de los nuevos chips de la famosa familia de Unidades de Procesamiento Tensoriales (TPU) de Google. La compañía, que comenzó su desarrollo en 2015 y lanzó el primero al mercado en 2018, ahora está cosechando frutos especialmente interesantes de todos estos esfuerzos: unos chips realmente prometedores, no para entrenar modelos de IA, sino para que los utilicemos de forma más rápida y eficiente que nunca.

Conclusión, conclusión, conclusión.. Estos “TPUv7” estarán disponibles en las próximas semanas y se podrán utilizar para entrenar modelos de IA, pero están especialmente destinados a “servir” estos modelos a los usuarios para que puedan utilizarlos. Es la otra gran rama de los chips de IA, la que es realmente visible: una cosa es entrenar los modelos y otra muy distinta es «ejecutarlos» para responder a las solicitudes de los usuarios.

Eficiencia y desempeño por bandera. La ventaja de rendimiento de estos chips de IA es enorme, al menos según Google. La compañía afirma que Ironwood ofrece cuatro veces el rendimiento de la generación anterior tanto en entrenamiento como en inferencia y es «el silicio personalizado más potente y energéticamente eficiente hasta la fecha». Google ya llegó a un acuerdo con Anthropic, otorgando a Anthropic acceso a hasta un millón de TPU para ejecutar Claude y proporcionárselo a sus usuarios.

La supercomputadora de inteligencia artificial de GoogleY. Estos chips son los componentes clave del llamado AI Hypercomputer, un sistema de supercomputación integrado que, según Google, permitirá a los clientes reducir los costos de TI en un 28% y lograr un retorno de la inversión del 353% en tres años. O lo que es lo mismo: prometen que si utilizas estos chips, el retorno de la inversión se multiplicará por más de cuatro veces en este periodo.

Casi 10.000 chips conectados entre sí. Los nuevos Ironwoods también están equipados con la capacidad de combinar sus poderes a gran escala. Es posible combinar hasta 9216 de estos en un solo nodo o pod, eliminando teóricamente los cuellos de botella de los modelos más sofisticados. El tamaño de este tipo de clusters es enorme, permitiendo hasta 1,77 petabytes de memoria HBM compartida, mientras que estos chips se comunican a un ancho de banda de 9,6 Tbit/s gracias a la llamada Inter-Chip Interconnect (ICI).

Más FLOPS que nadie. La compañía también afirma que un “Ironwood pod” (un grupo que contiene estos 9216 TPU de Ironwood) ofrece 118 veces más ExaFLOPS FP8 que su mejor competidor. Los FLOPS miden cuántas operaciones matemáticas de punto flotante pueden resolver estos chips por segundo, lo que garantiza que básicamente cualquier carga de trabajo de IA se ejecute en un tiempo récord.

NVIDIA cada vez tiene más competencia (y eso es bueno). Los chips de Google son una prueba de la clara intención de las empresas de evitar una dependencia excesiva de terceros. Google tiene todos los ingredientes para ello, y su TPUv7 es prueba de ello. No es el único, y muchas otras empresas de IA llevan mucho tiempo intentando desarrollar sus propios chips. El dominio de NVIDIA sigue siendo claro, pero la empresa tiene un pequeño problema.

En conclusión, CUDA ya no es tan importante. Una vez que se ha entrenado el modelo de IA, se aplican reglas diferentes a la inferencia que al entrenamiento. El soporte CUDA sigue siendo un factor relevante, pero su importancia para la conclusión es mucho menor. La inferencia se centra en obtener la respuesta más rápida posible. Los modelos están «compilados» y pueden ejecutarse de manera óptima en el hardware de destino. Esto puede hacer que NVIDIA pierda importancia frente a alternativas como Google.

En | Si estás usando OpenAI y no puedes comprar suficientes GPU, la solución es obvia: crea la tuya propia

Redacción Desde Dentro
About Author

Redacción Desde Dentro