Communication Expert

Septembre 2022

Point de vue
IA & apport des données synthétiques

Sommaire :

Contexte
Pourquoi des données synthétiques ?
Génération synthétique
Diversité et robustesse
La scénarisation
Notre participation au programme Confiance.ai

1 – Contexte

L’intelligence artificielle (IA) offre de formidables perspectives au secteur industriel, qu’il s’agisse de prédire, de classifier, d’analyser des besoins clients ou de dimensionner un système… Elle fait l’objet de recherches intenses depuis plusieurs dizaines d’années, mais depuis les années 2010, l’intelligence artificielle a énormément progressé, notamment grâce à l’évolution des modes d’apprentissage, à l’augmentation de la quantité de données (due aussi à la digitalisation de nombreux métiers) ainsi qu’à l’augmentation des capacités de calcul.

Différents modes d’apprentissage existent et le choix dépend à la fois du problème à traiter, mais aussi de la quantité et de la qualité des données disponibles pour la phase d’apprentissage. L’apprentissage supervisé s’appuie sur des exemples connus, c’est à dire que les données d’entraînement doivent contenir la réponse que l’on souhaite que le modèle apprenne à prédire, on parle alors de données labellisées ; l’apprentissage non-supervisé s’appuie sur des données non labellisées, l’algorithme apprend alors seul la structure « cachée » des données. Enfin, l’apprentissage par renforcement dans lequel l’action de l’algorithme entraîne une valeur de retour (une récompense) qui va le guider dans l’apprentissage. Naturellement, les réseaux non supervisés ont une portée plus générale, mais nécessitent des quantité de données gigantesques et donc un coût énergétique plus important.

C’est dans ce contexte que la génération de données synthétiques devient un axe à part entière de la recherche en intelligence artificielle.

2 – Pourquoi des données synthétiques ?

La faible diversité d’un jeu de données peut aisément introduire un biais dans le modèle ; c'est-à-dire que le modèle se spécialise, devenant très performant sur les données d’entraînement, mais stagne voire faiblit sur les données de validation et face à la diversité des situations réelles. Étant donné que l’apprentissage machine repose sur les données, il est primordial que celles-ci soient représentatives du problème à résoudre.

Le problème majeur des jeux de données réels, est la faible représentation des situations rares ou non reproductibles, soit pour des questions de coûts, de sécurité ou de dégradation de l’écosystème réel. Ces situations ne sont donc pas présentes dans le jeu de données d'entraînement, ou en quantité trop faible.

Contrairement aux données réelles, collectées via différents types de processus, les données synthétiques sont générées par des algorithmes. Dans le cas des données réelles, il n’y a pas seulement la capture des données, mais aussi leur labellisation, qui sont des phases nécessaires mais surtout coûteuses, chronophages et source d'erreurs.

En effet, si une situation potentielle n’est pas ou peu décrite dans le jeu de données d’entraînement, la réponse du réseau de neurones face à des cas réels similaires sera certainement inadéquate.

Dans le cas d’analyse d’images, les techniques d’augmentation de données sont une solution des plus adaptées. Il s’agit d’augmenter artificiellement la taille d’un jeu de données d’apprentissage en créant des versions modifiées des images contenues dans le jeu de données initial. Cette augmentation du jeu de données doit tenir compte du contexte et de la problématique à traiter, i.e. ne pas ajouter des données non pertinentes ou aberrantes.

Il existe d’autres techniques d’augmentation des données, par exemple via la simulation de phénomènes physiques. Dans le cas précédemment cité ou une situation que l’on voudrait prédire n’est pas reproductible, on peut imaginer la simuler numériquement, afin d’entraîner le modèle avec, entre autres, les résultats de cette simulation. D’une manière générale, en contrôlant les paramètres du simulateur, on peut maîtriser la distribution des scénarios et donc la population du jeu de données.

N.B. : l’augmentation du jeu de données s’applique uniquement au jeu de données d’apprentissage et pas au jeu de données de validation.

Pour plus d'information :

3 – Génération synthétique

Différentes techniques de génération synthétique existent, et peuvent être dissociées en 3 axes principaux :

Données basées sur des simulations, sur un jumeau numérique

Plus ou moins sophistiqué selon les besoins, le jumeau numérique est un modèle numérique, une représentation dynamique d’une ressource physique. Il peut s’agir d’une simple représentation 3D jusqu’à la simulation de l’intégralité d’une ligne de production. Le jumeau numérique est utile pour évaluer l’état d’une ressource, mais encore et surtout pour détecter des anomalies, prédire des comportements, optimiser des processus ou en améliorer le contrôle. Afin que le jumeau numérique reste en phase avec la ressource réelle, un échange direct des données entre les ressources et les algorithmes est nécessaire. Une fois le jumeau numérique à jour, il peut être utilisé comme simulateur, notamment de scénarios rares mais qui méritent d’être examinés dans un plan de gestion des risques par exemple.

Données hybrides : association avec des données réelles

Les données hybrides consistent à combiner données réelles et synthétiques.

Une des premières applications est d’augmenter les données réelles en ajoutant des cibles synthétiques.

Le pipeline présenté ci-dessous consiste à créer des bases d'entraînement avec des cibles synthétiques. Pour apporter robustesse, nous intégrons cette cible dans une image réelle. Les conditions environnementales et d'illumination sont modifiées.

Fig; Pipeline de création d’images synthétiques à partir d'un modèle 3D segmenté : localisation, profondeur , annotation, hybridation avec image RGBD et dégradation (ref SubSEE4D CERVVAL)

Données générées par l’IA

Les réseaux adverses génératifs (GAN : Generative Adversarial Network) consistent à la mise en compétition de deux réseaux : un générateur et un classificateur. Le générateur, génère par exemple une image, et le classificateur doit ensuite détecter si l’image est bien réelle ou si elle a été générée par son adversaire. L’objectif du générateur est donc de duper le classificateur, en générant des données « proches » des données réelles. Un exemple des plus emblématiques sur les performances de la génération d’image est la création de faux visages humains (Style GAN 2018 (Karras et al., 2019)). La qualité de composition est telle qu’il est impossible de différencier les visages synthétiques des vrais visages (Nightingale, 2022)

Visages synthétiques github.com/NVlabs/stylegan2

Au sein de CERVVAL et au travers du projet SubSEE4D, nous avons mis au point un algorithme de correction de la propagation de la lumière en contexte sous-marin, basé sur un système GAN complexe (CycleGAN (Zhu et al., 2020)). Nous avons dégradé les images (issues d’un dataset d’images 3D de la New York University NYU Depth1) à partir de la modélisation mathématique de la propagation de la lumière en milieu sous-marin. Le générateur cherche à obtenir les paramètres de la dégradation, puis à corriger les images. Même si aucune image sous-marine réelle n’a été utilisée, la correction s’applique sur des conditions de dégradation différentes. Les résultats de la correction d’images sous-marines réelles sont présentés sur la figure suivante.

a,b,c : images sous-marines réelles ; d,e,f : images sous-marines corrigées.

Ce transfert de domaine illustre bien le potentiel de création de fonctionnalités à partir de données synthétiques. La capture d’images sous-marines est très coûteuse. D’un point de vue technique, la correction de la dégradation, du fait de l'absorption des couleurs et de la turbidité est un problème inverse complexe à résoudre par les mathématiques conventionnelles. Ici, l’IA a appris à estimer la profondeur des scènes, certainement par l’effet de la turbidité.

cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

4 – Diversité et robustesse

De nombreux travaux et expériences confirment la valeur ajoutée des données synthétiques2 pour l’apprentissage. Il est évident que la faible quantité de données réelles valorise encore plus les données synthétiques.

Aussi, la diversité et la robustesse de l'entraînement apporté par les données synthétiques est un point important lorsque la criticité et les attentes en termes de performances sont élevées.

Sim2Real et Domain randomization

Les GANs permettent de transférer les paramètres d’un environnement à un autre.
La technique Sim2Real transfère un environnement virtuel dans une représentation réelle.

Le rendu de jeux vidéo, par exemple dans un environnement urbain et routier, peut être ainsi amélioré par GAN en se basant sur des images réelles de villes.

Fig. ref isl-org.github.io/PhotorealismEnhancement/

Associé à un entraînement de détection de cibles augmenté par génération aléatoire, les performances de classification sont améliorées. Cette technique de Domain randomization consiste à peupler des scènes synthétiques par disposition aléatoire d’objets, avec différentes orientations et textures. De nombreuses propriétés sont utilisables, telle que l'illumination. Ces objets sont soit des cibles à reconnaître et classifier par l’algorithme, soit des éléments perturbateurs. Cette technique permet de renforcer l'entraînement en forçant l’IA à ne prendre en compte que les cibles d’intérêt.

Fig; Scène du dataset VKITTI (haut) et scène générées par Domain Randomization(bas) (ref Tremblay NVIDIA 2018)

Il a été démontré que l’IA peut se servir d'artefacts non déterminants pour identifier une scène (comme les bords de la route) (Carter et al., 2021).

La génération de scène non conventionnelle permet d’apporter robustesse tout en réduisant les biais et surentraînement.

Pour plus d'information :

Nikolenko, S. I. (2021). Synthetic data for deep learning (Vol. 174). Springer Nature

5 – La scénarisation

De nouvelles améliorations sont attendues sur la stratégie de génération de données synthétiques.

La compréhension d’une scène nécessite bien souvent une information temporelle. La capacité à recréer des données séquentielles pouvant représenter une succession de situations afin d’établir le contexte est de nature à apporter de réels bénéfices pour que l'intelligence artificielle puisse capturer les informations nécessaires à la bonne compréhension de la scène dans son ensemble, et non avec une vision instantanée.

Un conducteur détectant un ballon sur une route va associer la forte probabilité de présence d’un humain. Une IA doit être entraînée à associer un déplacement d’humain à la présence de cet obstacle particulier.

La scénarisation d’un environnement et de phénomènes, à travers une simulation, va permettre la génération de successions d’images annotées. Ici aussi, des cas rares et peu reproductibles ne peuvent être seulement générés que synthétiquement.

6 – Notre participation au programme Confiance.ai

CERVVAL a été sélectionné parmi 12 sociétés pour participer au programme Confiance.ai.

Le ministère de l’Économie et des Finances et 8 industriels français ont signé, en 2019, un manifeste pour développer une intelligence artificielle au service de l’industrie. Le programme Confiance.ai en est la première déclinaison opérationnelle et contribuera à fédérer une masse critique de compétences pour accompagner le déploiement d’une IA de confiance, explicable, voire certifiable.

Notre implication concerne la génération de données synthétiques afin d’augmenter et de diversifier les jeux de données liés au développement de la conduite assistée et autonome.

Nous développons une capacité de transformation de données synthétiques en réel (Sim2Real) et un enrichissement de la donnée par dégradation des conditions environnementales. L’enrichissement par des scènes non conventionnelles est d’intérêt afin de contraindre l’apprentissage avec des cibles sans intérêt positionnées aléatoirement. L’objectif final est l’augmentation des scènes avec des cas peu ou pas reproductibles, tels que des obstacles sur la voie.

Le projet Subsee4D est soutenu par le Fond européen de développement régional (FEDER).