Impact environnemental de l’IA

Ces dernières années ont été marquées par un essor de l’intelligence artificielle (IA), que ce soit dans les discours grand public ou dans les travaux de recherche. L’intelligence artificielle est un champ de l’informatique qui consiste à écrire des programmes pour effectuer des tâches de traitement de l’information pour lesquelles les humains sont a priori les plus compétents (Sabouret, 2019). L’une des techniques de l’intelligence artificielle est l’apprentissage automatique (machine learning en anglais), dont l’une des sous-techniques et l’apprentissage profond (ou deep learning). Ce sont actuellement ces techniques d’apprentissage profond qui sont au cœur de l’essor de l’IA, notamment du fait des immenses quantités de données désormais disponibles et de la capacité de ces techniques à en tirer parti.

Intelligence artificielle, apprentissages automatique et profond


Ces techniques sont notamment utilisées dans des travaux état de l’art en traduction automatique, analyse d’image, robotique… Dans ces domaines, elles s’avèrent efficaces pour résoudre des problèmes comme en reconnaissance de formes et d’objets, sur lesquels elles améliorent très nettement les performances par rapport aux techniques précédentes en terme de qualité fonctionnelle des résultats, par exemple en obtenant des traductions de meilleure qualité.
Les méthodes d’apprentissage automatique ne sont pas récentes, mais les récents développements logiciels et matériels, notamment de calcul sur GPU, ont rendu possible l’entraînement de modèles d’apprentissage profond en un temps raisonnable et avec du matériel relativement basique. Ces modèles sont basés sur des réseaux de neurones à plusieurs couches, qui apprennent à représenter des informations de haut niveau d’abstraction des données.
Un processus classique d’apprentissage profond (supervisé) est le suivant :
– choix de l’architecture du réseau en fonction de la tâche à accomplir;
– entraînement de plusieurs modèles permettant de les tester et d’optimiser les paramètres;
– test de chaque modèle sur d’autres données, qui vont permettre d’évaluer leurs performances réelles.

Processus d’apprentissage profond supervisé


Bien que ces modèles fournissent des résultats de meilleure qualité, il est intéressant de se poser la question de leur coût énergétique.
Ces processus sont en général assez coûteux d’un point de vue énergétique, en particulier pendant la phase d’entraînement. Plusieurs facteurs vont influencer le coût énergétique du processus :

  • la taille des données; pour bien fonctionner, un réseau profond nécessite une immense quantité de données étiquetées comme base d’apprentissage (en image, cela se compte souvent en millions, ce qui fait qu’il est difficile de les utiliser par exemple en diagnostic médical, faute de nombre d’exemples suffisants);
  • l’architecture du réseau: plus l’architecture du réseau est complexe, plus il sera long à entraîner;
    le type de tâche: plus la tâche est de haut niveau, plus le processus sera long;
  • les décisions d’optimisation des paramètres ; en effet, l’un des problèmes de ce type de méthodes est qu’il est très difficile de trouver un critère d’arrêt et il est donc fréquent de laisser tourner des jours et des jours pour voir si le système s’améliore…

En outre, ces phases d’entraînement font appel à de nombreux processeurs GPU (grilles de calcul, ferme de calcul), ainsi qu’à des centres de données qui stockent les bases d’apprentissage. Ces travaux s’appuient donc sur du matériel dont la fabrication et la quantité ont également un impact environnemental très élevé.

Quelques travaux de recherche se sont intéressés à l’estimation du coût énergétique de ces techniques et à la comparaison du coût de différentes configurations.

(Li et al, 2016) sont partis du constat que les réseaux de neurones convolutionnels (CNN) étaient très utilisés en classification d’images et détection d’objets depuis quelques années car très précis, mais ils sont très énergivores. Ils ont donc souhaité calculer les différences de consommation d’énergie en fonction de la configuration, et ont montré que la consommation était très variable.

Plus récemment, (Strubell et al., 2019) ont fait une étude de cas dans le domaine du traitement automatique des langues en comparant 4 modèles de l’état de l’art. Ils ont estimé le coût énergétique en prenant en compte les consommations mémoire, processeur et processeur graphique du centre de calcul et ont montré que les consommations énergétiques étaient très importantes et très variables en fonction du modèle. Les émissions pour l’entraînement d’un modèle allaient en effet de 18kg eqCO2 à 284T eq CO2. Le modèle le plus couramment utilisé, sans paramétrage spécifique, émettait 652kg eqCO2, soit environ un aller Paris-Hong Kong en avion, ou 2500km en voiture…

Étant donné le coût énergétique de ces techniques, il semblerait donc utile :

  • de poursuivre les travaux théoriques et techniques permettant de réduire l’impact de ces méthodes, par exemple en améliorant les librairies utilisables et en poursuivant les travaux théoriques permettant de mieux comprendre le fonctionnement des réseaux, ce qui permet de diminuer drastiquement les phases de paramétrage;
  • d’évaluer l’impact des expériences dans les publications de recherche, en plus du temps de calcul qui est généralement indiqué, ce qui permettrait de promouvoir une vision plus inclusive de la performance (voir aussi Schwartz et al., 2019 à ce sujet);
  • d’avoir une mesure d’impact intégrée dans les outils et centre de calculs;
  • d’utiliser des centres de calcul performants;
  • et pour tous les points cités précédemment, en faisant attention aux effets rebond : l’amélioration des performances ne doit pas pousser à faire plus de calculs;
  • d’avoir une utilisation raisonnée de ces techniques, par exemple en faisant une analyse coût/bénéfice par rapport à d’autres méthodes.


Références

  • Evaluating the Energy Efficiency of Deep Convolutional Neural Networks on CPUs and GPUs, Li et al., IEEE International Conferences on Big Data and Cloud Computing (BDCloud), Social Computing and Networking (SocialCom), Sustainable Computing and Communications (SustainCom)(BDCloud-SocialCom-SustainCom), 2016
  • Energy and Policy Considerations for Deep Learning in NLP, Strubell et al., ACL 2019
  • Green AI, Roy Schwartz et al., 2019, https://arxiv.org/abs/1907.10597
  • Comprendre l’intelligence artificielle, Nicolas Sabouret, dessins de Lizete De Assis, Ellipses, 2019