Un programme capable d’upscaler en cascade une image et de la faire passer d’une définition de 64 x 64 pixels à 1 024 x 1 024.
Dans un article titré High Fidelity Image Generation Using Diffusion Models, Jonathan Ho, ingénieur logiciel et membre de la Brain Team de Google, détaille une technologie d'upscaling en cascade mise au point par l’entreprise. Elle est en mesure d’effectuer des mises à l’échelle x16 d’images en basse définition : elle peut ainsi transformer une image de 64 x 64 pixels en une de 1 024 x 1 024 pixels. Rien d’inédit là-dedans pour l'instant ; si ce n’est le résultat qui, vous le constatez sur les images, se montre nettement supérieur à la plupart des méthodes actuelles.
Les meilleurs logiciels de retouche photo (2021)
SR3, ou Super-Resolution via Repeated Refinement
Ce nouveau programme de super-résolution d'image a été nommé « SR3 » par la Brain Team pour « Super-Resolution via Repeated Refinement ».
En résumé, SR3 opère la super-résolution par « un processus de débruitage stochastique exécuté de manière itérative par un modèle U-Net ». Mais soyez rassurés, les choses peuvent s’expliquer plus simplement.
La méthode SR3 consiste en fait à appliquer, dans un premier temps, un bruit gaussien à une image avec une faible définition. Cette phase permet au programme de « cartographier » son sujet. Ensuite, il fait le chemin inverse : il applique des technologies de réduction du bruit numérique pour reconstruire une image sans bruit dans une définition supérieure à celle du départ.
Jonathan Ho explique le principe ainsi : « SR3 […] prend en entrée une image à basse résolution, et construit une image à haute résolution correspondante à partir de bruit pur. Le modèle est entraîné sur un processus de corruption d'image dans lequel du bruit est progressivement ajouté à une image haute résolution jusqu'à ce qu'il ne reste que du bruit. Il apprend ensuite à inverser ce processus, en partant du bruit pur et en supprimant progressivement le bruit ».
Un taux de confusion proche de 50 % pour les visages
Selon Google, cette technologie offre « d'excellents résultats dans la tâche de super-résolution pour les images naturelles » dans des mises à l'échelle en x4 et x8. L’entreprise rapporte un taux de confusion proche de 50 % pour les photos de visages passées d’une résolution en 16 x 16 à 128 x 128 et de 40 % pour les images de nature (de 64 x 64 à 256 x 256) plus difficiles à améliorer ; des taux qui restent dans les deux cas bien supérieurs à ceux obtenus avec les méthodes PULSE et FSRGAN par exemple.
Les résultats sont déjà impressionnants, mais Google n'emploie pas uniquement SR3 pour embellir de vieux clichés. En effet, la société met aussi à profit cette technologie pour générer des images dans des définitions de plus en plus élevées via son Cascaded Diffusion Models (CDM), « un modèle de diffusion conditionnel par classe entraîné sur les données d'ImageNet pour générer des images naturelles à haute résolution ».
Source : Google