(011) 15-5117-1073

Se conoció el secreto de la extrema eficiencia de DeepSeek: ha esquivado el estándar CUDA de NVIDIA


Sus ingenieros utilizan PTX para sacar el máximo partido posible a las GPU H800

 


Categoría: TECNOLÓGICAS

Buenos Aire-(Nomyc)-La publicación del modelo V3 de la Inteligencia Artificial (IA) DeepSeek como código abierto es una bendición, debido a que se van conociendo con detalle la estrategia que han pergeñado los ingenieros de esta compañía china para poner a punto un modelo de IA tan eficiente y hay que destacar que DeepSeek asegura que entrenó su modelo con solo 2.048 chips H800 de NVIDIA.

 

Algunos analistas defienden que, en realidad, su infraestructura aglutina 50.000 GPU H100 compradas a través de intermediarios, pero por el momento es solo una conjetura. 

Este chip es más potente que el H800, pero es perfectamente creíble que DeepSeek se haya visto obligada a conformarse con este último debido a que las sanciones del Gobierno de EEUU impidieron el acceso de las empresas chinas a la GPU H100, e incluso, desde noviembre de 2023 NVIDIA tampoco puede entregar a sus clientes chinos su chip H800.

 

Una de las claves del éxito de DeepSeek se llama PTXen la receta del trepidante crecimiento que experimentó NVIDIA durante los últimos cinco años, no intervienen solo sus GPU, ya que la tecnología Compute Unified Device Architecture (CUDA ) también tiene un rol esencial en su negocio

 

La mayor parte de los proyectos de IA que se desarrollan en la actualidad, están implementados sobre CUDA, tecnología que aglutina el compilador y las herramientas de desarrollo utilizados por los programadores para desarrollar su software para las GPU de NVIDIA y reemplazarla por otra opción en los proyectos que ya están en marcha es un problema.

 

Huawei, que aspira a hacerse con una porción importante de este mercado en China, tiene Compute Architecture for Neural Networks (CANN), que es su alternativa a CUDA, pero por el momento CUDA domina el mercado

 

Además, esta herramienta de NVIDIA pone en las manos de los programadores un lenguaje de alto nivel que les permite acceder al hardware de la GPU de una manera asequible. 

Aun así, los ingenieros de DeepSeek no emplearon CUDA para desarrollar su IA: utilizaron Parallel Thread Execution (PTX).

 

Este lenguaje es similar al ensamblador y de alguna manera es el ensamblador que propone NVIDIA a los desarrolladores que utilizan sus GPU y necesitan implementar optimizaciones de bajo nivel en su código. 

 

Programar con PTX es más difícil que hacerlo con CUDA, pero tiene la ventaja de permitir a los desarrolladores escribir un código más eficiente, y por lo tanto, aprovecha mejor los recursos que les ofrece el hardware de la GPU.

 

De manera presunta, los ingenieros de DeepSeek han decidido utilizar PTX para sacar el máximo partido posible a las GPU H800 que tenían en su poder. 

Una de las estratagemas que han ideado ha consistido en asignar solo 20 Streaming Multiprocessors (SM)de cada GPU a la comunicación entre los servidores, lo que les ha permitido dedicar los 112 SM restantes de cada chip a procesos de cálculo y en esencia, DeepSeek ha sido construido desde cero recurriendo a este tipo de optimizaciones, lo que en gran medida explica por qué este modelo de IA es tan eficiente.

 

Los programadores de esta compañía china, de manera  objetiva, materializaron un logro en el ámbito de la ingeniería que con toda probabilidad va a tener un impacto profundo en la forma en que los desarrolladores de modelos de IA van a afrontar sus proyectos en el futuro, lo que es la prueba palpable de que China se está adaptando con éxito a la escasez de GPU que han desencadenado las sanciones de EEUU en sus empresas.

Nomyc-29-1-25

 

 

 

 

 

 

Consultá por este producto
@

*Los campos son obligatorios

Cargando
¡Contactanos!
clave

NOTICIAS
con contraseña