L’avènement des nouvelles technologies basées sur l’intelligence artificielle a révolutionné de nombreux domaines, y compris dans la création de vidéos. Cela a notamment permis d’outrepasser la réalité afin d’explorer des mondes imaginaires aussi vrais que nature, mais aussi de redonner de l’éclat aux œuvres existantes. Derrière cette capacité se cachent des algorithmes et des architectures de haut niveau tels que les GANs. Ces derniers ont été conçus pour rendre les résultats générés par les outils d’IA plus précis et ainsi assurer leur qualité. Aujourd’hui, nous allons découvrir ces GANs et leur rôle dans la création de vidéos.
Les réseaux adverses génératifs, c’est quoi ?
Les réseaux adverses génératifs ou réseaux antagonistes génératifs sont des modèles d’apprentissage profond dans lesquels deux réseaux neuronaux s’entraînent sur des données existantes et travaillent ensemble afin de générer de nouvelles séries de données. Ces dernières sont ensuite réintroduites dans le modèle afin d’alimenter davantage l’algorithme d’apprentissage.
Les deux réseaux neuronaux composant un GAN n’ont toutefois pas les mêmes rôles dans l’architecture. L’un analyse et engrenage les nouvelles données tandis que l’autre vérifie et valide ces résultats avant de les ajouter aux jeux de données. On appelle ces deux réseaux le réseau générateur et le réseau discriminateur. C’est donc grâce à eux que l’on a la possibilité de créer des contenus très réalistes, si bien qu’on puisse les confondre avec ceux créer par des humains. Ces contenus peuvent être des images, de la musique ou encore des vidéos.

Comment fonctionnent-ils ?
Le fonctionnement global du GAN repose sur un algorithme complexe qui commande les instructions à réaliser. Pour commencer, il ordonne aux deux réseaux d’analyser les jeux de données disponibles. Le réseau générateur y identifie les attributs tandis que le réseau discriminateur fait la distinction entre ces attributs.
Ensuite, le générateur génère de nouvelles données en modifiant aléatoirement certains attributs. Il peut par exemple ajouter du bruit aux vidéos ou modifier les couleurs. Puis, il transmet les nouvelles données au réseau discriminateur.
Après cela, le discriminateur recherche les similitudes et les différences entre les jeux de données originaux et les données modifiées. Cela va lui permettre de déterminer quelles sont les originales et quelles sont les fictives.
Enfin, le discriminateur envoie des indications au générateur afin que celui-ci puisse rendre plus précises les modifications qu’il effectuera au prochain cycle.
Quels sont les types de GANs ?
Il existe plusieurs types de GANs qui se distinguent par leur mode de fonctionnement et les résultats qu’ils fournissent. En tout, on dénombre 5 types de GANs :
- Le GAN classique qui génère de nouvelles données sans rétroaction du réseau discriminateur ;
- Le GAN conditionnel ou cGAN qui, comme son nom l’indique, ajoute des conditions spécifiques lors de l’analyse, ce qui permet d’obtenir des données plus ciblées ;
- Le GAN convolutif profond ou DCGAN qui se sert des réseaux neuronaux convolutifs pour améliorer la distribution des données, mieux les classer et rendre l’entraînement plus stable ;
- Le GAN à super résolution ou SRGAN qui est entraîné surtout pour améliorer la résolution d’une image tout en maintenant sa qualité et les détails qui y sont présents ;
- Et le GAN à pyramide laplacienne qui a le même objectif que le précédent, mais en s’appuyant sur plusieurs réseaux générateurs et plusieurs réseaux discriminateurs travaillant sur plusieurs niveaux différents.
Comment les utilise-t-on dans la création de vidéos ?
Ce que l’on vient de voir peut déjà nous donner des indices sur ce que le GAN peut apporter à la création de vidéos.
Tout d’abord, il permet de générer une vidéo de bout en bout en s’assurant que cette dernière reste réaliste et naturelle. Il s’assure de la cohérence entre les différentes scènes en créant des transitions fluides. Cela permet notamment de mieux gérer les coûts de production, surtout pour des scènes de science-fiction par exemple.
Comme on vient de le constater un peu plus haut, il peut également rendre une vidéo de basse résolution hautement qualitative. Cela nous permet entre autres d’améliorer les cassettes vidéos numérisées grâce aux technologies IA. De plus, il est capable de déterminer la suite d’une séquence en se basant sur les précédentes, et ce, tout en garantissant que les mouvements, les actions ou même l’arrière-plan restent logiques.