Característica Los modelos generativos de IA no solo han explotado en popularidad en los últimos dos años, sino que también han crecido a un ritmo precipitado, lo que requiere cantidades cada vez mayores de aceleradores para mantenerse al día.
A falta de un avance en el aprendizaje automático y con el poder convirtiéndose en un factor limitante, el crecimiento continuo de la IA puede depender de un nuevo tipo de supercomputadora, uno que abarca países enteros y potencialmente incluso continentes.
La idea aquí es bastante sencilla. Si ya no es práctico construir centros de datos más grandes, comience a unir los que ya tiene.
Esto ciertamente parece ser hacia dónde se dirige la industria. «La distribución es inevitable», dijo el analista de Dell’oro Sameh Boujelbene El registro.
Ella tampoco es la única en pensar esto. Gilad Shainer, vicepresidente sénior de marketing de Mellanox Networking en Nvidia, cree «En la próxima generación verá la capacidad de construir realmente esos centros de datos remotos y formar un centro de datos único, virtual y virtual».
Distribuir grandes cargas de trabajo en múltiples máquinas no es nada nuevo en el espacio informático de alto rendimiento. Esto es esencialmente cómo funciona cada supercomputadora moderna, IA o científica, utilizando interconexiones de alta velocidad como el inbiniband de Nvidia o el tirachinas de HPE para unir miles de nodos.
En muchos aspectos, la distribución de cargas de trabajo en múltiples centros de datos es una extensión de un modelo existente, aunque con su propio conjunto único de desafíos para superar.
La buena noticia es que, al menos hasta cierto punto, ya existe la infraestructura requerida para unir centros de datos. Las interconexiones de centros de datos de alta velocidad (DCI) no son nuevas y son ampliamente empleadas por los principales proveedores de nubes.
Para cargas de trabajo científicas más tradicionales, Nvidia, y antes de Mellanox, ha ofrecido su Metro Línea de productos, que utilizan la multiplexación de división de olas densas para unir las telas de infinib y calcular los tejidos en múltiples centros de datos en un lapso de hasta 40 kilómetros.
Desafortunadamente, la última generación de estos electrodomésticos se lanzó a fines de 2022 solo semanas antes de que Chatgpt provocara la fiebre del oro de IA. Como tal, se sintonizó más para la recuperación ante desastres y la alta disponibilidad en lugar del tipo de entrenamiento de IA a gran escala que se proliferó en los años transcurridos desde el debut del chatbot.
Según Shainer, la investigación ya está en marcha para extender este rango de decenas de kilómetros a miles, lo que ciertamente ayudaría a abordar los desafíos de potencia al permitir que los centros de datos en diferentes regiones funcionen como uno solo.
Sin embargo, la naturaleza de las cargas de trabajo de IA y las distancias involucradas traen sus propios desafíos.
Latencia de equilibrio y ancho de banda
Como regla general, las cargas de trabajo de IA aman el ancho de banda y la latencia de odio. Dentro del centro de datos, gran parte del desafío gira en torno a la pérdida de paquetes, o las conexiones se detienen, dejando el cálculo inactivo mientras los datos se retransmiten. Según AMD, en promedio el 30 por ciento del tiempo de entrenamiento es gastado Esperando que la red se ponga al día.
Se han desarrollado numerosas tecnologías para superar estas limitaciones. Infiniband de Nvidia es uno, pero las unidades de procesamiento de datos especializadas y los interruptores optimizados de IA también han surgido para abordar estos desafíos cuando se trabaja con Ethernet.
Cuando se habla de las redes de centro de datos a Datacenter, la latencia es un hecho inevitable de la vida. La luz solo viaja tan rápidamente a través de fibras de vidrio: aproximadamente 4.9 microsegundos por kilómetro. Eso es bastante rápido, pero durante un tramo de 1,000 kilómetros funciona con un viaje de ida y vuelta de casi 10 milisegundos antes de llevar al protocolo y procesar los gastos generales. Sobre este tipo de tramos, las retransmisiones son mucho más problemáticas.
Dependiendo del ancho de banda y las distancias involucradas, se pueden requerir repetidores y amplificadores para aumentar la señal, lo que puede exacerbar el problema. Sin embargo, existen tecnologías emergentes en el horizonte que podrían ayudar a abordar esto, dijo Rodney Wilson, tecnólogo jefe de redes de investigación en el proveedor de óptica Ciena. Regular.
Una de ellas es la fibra de núcleo hueco, lo que debería ayudar a frenar las latencias reduciendo el número de repetidores requeridos. La desventaja del núcleo hueco es que todavía es relativamente nuevo, y ya hay una gran cantidad de fibra oscura en el suelo.
La latencia no es el único problema; El ancho de banda es otro problema. Dentro del centro de datos, las redes de escala utilizadas para unir los servidores GPU generalmente cuentan con ocho enlaces de 400 Gbps, uno por GPU, para un ancho de banda agregado de 3.2 Tbps. Si intentara extender esta red de escala sobre el DCI, requeriría múltiples petabits de ancho de banda agregado.
Las ópticas modernas utilizadas en redes de operadores ahora admiten anchos de banda de hasta 1.6 Tbps por longitud de onda, dice Wilson. Y con múltiples longitudes de onda, estás hablando de un paquete de fibras bastante fuerte.
La buena noticia es que muchos de estos desafíos de latencia y ancho de banda se pueden mitigar a través de la optimización del software, afirma Shainer. Dependiendo de cómo distribuya la carga de trabajo en los centros de datos, es posible ocultar la latencia al tiempo que minimiza el ancho de banda requerido.
Si, por ejemplo, desea ejecutar una carga de trabajo de capacitación en dos grupos físicamente dispares, desea distribuir la carga de trabajo de una manera que los cálculos se completen en los centros de datos y solo enviar esos datos a través de la interconexión del centro de datos al combinar los resultados , él explicó.
«La forma en que ejecuta el trabajo determina cuánto ancho de banda necesita entre los centros de datos», agregó. «Podría ser el 10 por ciento del ancho de banda total (escala fuera de la red) … depende de cómo estructura la red».
Realidades prácticas
Si bien es relativamente simple en concepto, la capacitación de múltiples datacentros también enfrenta un buen número de obstáculos que deberán superarse.
Idealmente, explica Shainer, querrá que sus centros de datos sean homogéneos, es decir, deben usar la misma arquitectura de cómputo, para evitar cuellos de botella.
Nvidia ya ha estado preparando el escenario para esto durante algún tiempo con sus diseños de referencia DGX y SuperPod. En teoría, estos deberían ayudar a los operadores de centros de datos a evitar los dolores de cabeza del trato con arquitecturas de cómputo desagradables.
Sin embargo, si mantener múltiples centros de datos de cortador de cookies no es práctico y se ve obligado a hacer que las generaciones anteriores de cómputo funcionen junto con nuevas y Shainer notas, todavía se puede hacer; Simplemente no será necesariamente tan eficiente. «La generación más antigua determinará el rendimiento de la generación más nueva».
Probablemente tampoco serán solo dos centros de datos que compartan la carga. Para la redundancia y la diversidad de enrutamiento, puede ser necesario interconectar múltiples centros de datos en una red de malla.
Esto, explica Wilson, se debe a que a lo largo de estas largas distancias, el tráfico se estará fluyendo sobre redes de operadores, lo que puede verse interrumpido por cualquier número de fenómenos.
«Estaría buscando una infraestructura de malla inteligente que proporcione múltiples rutas, y luego una superposición de software que proporciona el tipo de red adaptativa que permite un tipo de control de esos flujos», explicó.
Idealmente, agrega Wilson, la red sería ajustada de manera proactiva por las máquinas o la aplicación en lugar de depender del enrutamiento reactivo. «Cuando hay un problema en la red, si se trata de una restricción de flujo, o algún otro deterioro, tiene que ser lo suficientemente adaptativo como para auto sanar, detectar, auto sanar y redirigir o reequilibrar en consecuencia».
Cuestión de tiempo
La necesidad de distribuir cargas de trabajo AI en múltiples centros de datos puede ser inevitable; La pregunta sigue siendo en qué punto será necesario.
Si bien la potencia limita cuántas GPU se pueden abarcar en un centro de datos, no necesariamente limita cuán grande se puede capacitar un modelo, cuán rápido. Suponiendo que ya no está limitado por la memoria, puede entrenar un modelo enorme con cinco cifras de GPU; solo llevará más tiempo.
Esto puede parecer la meseta natural para estos mega grupos. Sin embargo, a medida que los grupos se hacen más grandes, también se vuelven más problemáticos. En grupos realmente grandes, el tiempo medio de falla (MTTF) puede ser bastante corto, lo que resulta en mayores interrupciones que cuanto más grande sea el clúster.
Mientras entrenaba Llama 405b, Meta experimentado Una falla cada tres horas con más de tres cuartos relacionados con problemas de hardware y un 58 por ciento directamente atribuido a problemas con las GPU.
Entonces, a medida que los grupos se hacen más grandes, cuanto más rápido pueda completar el trabajo, mejor, ya que minimiza la posibilidad de falla antes del próximo punto de control.
Desafortunadamente, con los modelos de IA que crecen a un ritmo de 4X-5X cada año y las GPU que requieren más potencia para lograr un rendimiento generacional, parece que es solo cuestión de tiempo antes de que estos sistemas superen los límites de un solo centro de datos. ®