Tachyum taquine le processeur 128 cœurs : 5,7 GHz, 950 W, 16 canaux DDR5

Lorsque Tachyum a dévoilé le concept de son processeur universel Prodigy à Hot Chips 18, ce fut un grand succès avec une puce conçue pour exécuter n’importe quel code à l’aide d’un traducteur binaire dynamique. Il a démontré de hautes performances lors de l’exécution de code natif et traduit. La société a mis un certain temps à concevoir le matériel réel, acceptant les précommandes sur les kits d’essai. (s’ouvre dans un nouvel onglet); la société divulgue également les spécifications exactes de son Prodigy. Ils ont certainement l’air impressionnants, mais ils sont aussi terrifiants avec une puissance de conception thermique de 950 W par puce.

Des performances formidables avec une puissance formidable

Chaque processeur Tachyum Prodigy possède jusqu’à 128 cœurs propriétaires couplés à 16 canaux de mémoire DDR5 (pour une interface 1024 bits) prenant en charge des taux de transfert de données allant jusqu’à 7200 MT/s (et fournissant ainsi jusqu’à 921,6 Gbit/s de bande passante) ainsi que 64 voies PCIe 5.0. De plus, la puce prend en charge jusqu’à 8 To de mémoire DDR5 au total, ce qui correspond à ce que nous verrons dans les prochains processeurs de serveur tiers. En ce qui concerne les fréquences d’horloge, le Prodigy de Tachyum est conçu pour fonctionner jusqu’à 5,7 GHz et est un produit de la technologie de processus N5P optimisée en termes de performances de TSMC.

(Crédit image : Golem.de)

En matière de performances, Tachyum attend son vaisseau amiral Prodigy T16128-AIX (s’ouvre dans un nouvel onglet) pour offrir jusqu’à 90 FP64 TFLOPS pour HPC, ainsi que jusqu’à 12 ‘AI PetaFLOPS’ pour l’inférence et la formation, vraisemblablement lors de l’exécution de code natif et consommant jusqu’à 950 W (et en utilisant le refroidissement liquide) conformément aux spécifications publiées (s’ouvre dans un nouvel onglet) par l’entreprise et sur Golem.de (s’ouvre dans un nouvel onglet). Pendant ce temps, les processeurs Prodigy de Tachyum peuvent fonctionner dans des configurations à 2 et 4 voies. Pour mettre les chiffres en contexte, l’Instinct MI250X d’AMD a un taux de transfert maximal de 96 FP64 TFLOPS pour HPC à environ 560 W. En revanche, le H100 SXM5 de Nvidia peut fournir jusqu’à 20 INT8/FP8 PetaOPS/PetaFLOPS pour l’IA (jusqu’à 40 PetaOPS/PetaFLOPS avec parcimonie) à 700W. Cependant, aucun GPU de calcul ne fonctionne pour les charges de travail à usage général. Et c’est exactement là que ça devient intéressant.

Un nouveau CPU est né

Tachyum’s Prodigy est un processeur homogène universel qui contient jusqu’à 128 cœurs VLIW 64 bits propriétaires qui comportent deux unités vectorielles 1024 bits par cœur et une unité de matrice 4096 bits par cœur. De plus, chaque cœur dispose d’un cache d’instructions de 64 Ko, d’un cache de données de 64 Ko, d’un cache L2 de 1 Mo et peut utiliser les caches L2 inutilisés d’autres cœurs comme cache L3 victime.

(Crédit image : Tachyum)

Les cœurs VLIW de Tachyum sont des cœurs dans l’ordre, mais lorsque les compilateurs effectuent les optimisations appropriées, ils peuvent prendre en charge les problèmes de panne à 4 voies, selon Radoslav Danilak, directeur général et cofondateur de Tachuym, qui s’est entretenu avec Golem.de (s’ouvre dans un nouvel onglet). Il a également souligné que l’architecture du jeu d’instructions Prodigy peut atteindre un parallélisme de niveau d’instruction très élevé avec des logiciels utilisant des bits dits poison.

Leave a Comment