Une mauvaise utilisation du matériel réduit la compression de l’IA


L’un des défis les plus urgents dans le déploiement de l’apprentissage en profondeur à grande échelle, en particulier pour le géant des médias sociaux Meta, consiste à utiliser pleinement le matériel pour l’inférence et la formation.

Les chercheurs résolvent ce problème grâce à diverses techniques de compression et d’élagage, la plus récente étant MetaPruning, qui en 2019 représentait l’état de l’art en matière d’élagage pour une efficacité matérielle maximale. Cela a été utilisé dans Meta (bien qu’étrangement, les techniques aient été développées par un ensemble d’universités en Asie et ne soient pas liées aux efforts de Facebook/Meta).

Malgré les gains d’efficacité du matériel, il reste encore beaucoup à faire, selon des chercheurs de la Meta and Rice University. L’équipe examine de plus près les efficacités matérielles laissées sur la table en utilisant des techniques de compression plus traditionnelles pour les tâches d’apprentissage en profondeur, le tout sans sacrifier la précision.

Il existe un « dilemme entre les tendances de la conception DNN efficace et les avancées de la plate-forme informatique moderne. Alors que les plates-formes informatiques modernes (GPU et TPU) ont constamment évolué pour favoriser un degré plus élevé de calcul parallèle, les modèles DNN efficaces existants adoptent généralement des opérations légères qui souffrent d’une faible utilisation du matériel et donc d’une efficacité matérielle inférieure réalisable », explique l’équipe.

Plus précisément, les modèles de calcul s’avèrent irréguliers, ce qui est particulièrement difficile pour les processeurs de l’appareil. Cela est dû à «leurs possibilités réduites de réutilisation des données [which] limiter les DNN efficaces existants pour libérer leur potentiel théorique.

En bref, l’objectif était de créer des DNN plus centrés sur le matériel qui pourraient mieux utiliser le parallélisme.

“Comment pouvons-nous concevoir des DNN efficaces qui peuvent simultanément profiter de la puissante expressivité des structures DNN efficaces de nouvelle génération et de la capacité de calcul parallèle améliorée des plates-formes informatiques modernes?”

Le résultat est “DepthShrinker”, qui se concentre sur des réseaux de neurones super compacts et sensibles au matériel qui peuvent transformer des modèles informatiques irréguliers en réseaux plus étroits pour un débit et une précision plus élevés. L’équipe affirme que ses techniques de compression permettent “une précision 3,06 supérieure et un débit 1,53X dans [Nvidia] Tesla V100 sur la méthode d’élagage de canal de pointe, MetaPruning.

Au lieu des couches convolutives plus agréables et plus simples d’autrefois, DepthShrinker prend tous les calculs irréguliers qui sont maintenant la norme et fusionne “des couches compactes consécutives, entre lesquelles les fonctions d’activation sont apprises à ne pas être importantes pour l’inférence, en une seule couche dense. Les DNN dérivés de DepthShrinker peuvent largement tirer parti du degré élevé de parallélisme des plates-formes informatiques modernes et ainsi augmenter l’efficacité du matériel tout en conservant la précision des modèles d’origine.

Comme le travail doit être effectué sur des serveurs et des périphériques d’inférence, l’équipe a testé la méthode sur un GPU Nvidia Tesla V100 et côté desktop et edge, un Nvidia RTX 2080Ti et un Jetson TX2.

Alors que la plupart des analyses comparatives effectuées par l’équipe étaient axées sur l’inférence, le même concept peut être appliqué à la formation. “La conception originale de notre DepthShrinker décrite ci-dessus tire parti du fait que les fonctions d’activation sans importance peuvent être correctement supprimées après la formation sans altérer la précision de l’inférence. De manière passionnante, ces informations peuvent également être exploitées pour améliorer la formation DNN. Plus précisément, nous proposons de former un DNN donné via une stratégie d’expansion puis de réduction et de le nommer DepthShrinker +.

L’équipe a également étendu son évaluation DepthShrinker aux processeurs de pointe, y compris les processeurs mobiles comme Google Pixel 3 et Raspberry Pi 4 en utilisant la taille de lot 1 avec un résultat de latence inférieur aux approches standard (Pytorch pour ONNX puis réduit pour TFLite).

“Des expériences approfondies confirment que notre DepthShrinker gagne à la fois la haute précision de l’élagage par canal et l’efficacité décente de l’élagage par couche, ouvrant une dimension économique à la compression DNN.” Benchmarks complets et plus de données trouvées ici.

Inscrivez-vous à notre newsletter

Livrer les faits saillants, les analyses et les histoires de la semaine directement de nous dans votre boîte de réception sans rien entre les deux.
Abonnez-vous maintenant

Leave a Comment