03.04.25 — 11h00

La génération d’images avec GPT-4o : un jouet qui cache une révolution

La génération d’images avec GPT-4o, c’est un jeu d’enfant. Simple, intuitive, presque ludique, cette fonctionnalité d’OpenAI, lancée le 25 mars 2025, inonde nos réseaux d’images façon Studio Ghibli. Chris Dixon, venture capitalist américain, l’avait prédit en 2013 dans “The Next Big Thing Will Start Out Looking Like a Toy” : les innovations disruptives débutent comme des gadgets avant de tout bouleverser. Sam Altman, PDG d’OpenAI, a annoncé un million d’utilisateurs en une heure, une croissance virale qui rappelle les débuts fulgurants de ChatGPT, passé de zéro à un million d’utilisateurs en cinq jours en novembre 2022. Accessible à tous via ChatGPT et bientôt Sora, GPT-4o enterre DALL-E 3, dépassé face à Midjourney ou Flux.

Une multimodalité qui change la donne

GPT-4o n’est pas un simple générateur : c’est une révolution masquée par sa simplicité. Là où DALL-E était un outil externe piloté par texte, GPT-4o intègre nativement la création d’images dans son modèle multimodal. L’intelligence qui écrit “pense” aussi les visuels. Exemple concret de l’excellent Ethan Mollick : demandez “une photo d’une pièce sans éléphants, annotée pour prouver leur absence”, les générateurs d’images précédents ajoutaient des éléphants, obnubilés par le mot. GPT-4o, lui, comprend et livre une image cohérente – sans pachydermes. Il excelle sur le texte net, les prompts complexes, la cohérence des personnages. Détourer un produit, transformer un selfie en anime, modifier un croquis téléchargé ? Quelques lignes suffisent, comme si vous aviez un graphiste sous la main ! Dans ce cas, pourquoi continuer à utiliser Photoroom ou Photoshop ?

Une menace pour les créatifs ?

La génération prend 30 secondes à une minute par image – c’est lent, mais OpenAI promet mieux. Imaginez : via l’API, dix images en un clin d’œil, puis une vidéo d’une minute. Selon McKinsey (2023), 30 % des tâches créatives pourraient être automatisées d’ici 2030. On peut s’attendre à beaucoup plus. Les graphistes et photographes de packshots sont les premiers concernés. La maîtrise de photoshop n’est plus une compétence suffisante pour un job car l’IA démocratise la création visuelle.

Studio Ghibli et les limites éthiques

Hayao Miyazaki, qui qualifiait l’IA de “profanation de la vie” en 2016, doit grincer des dents face aux avatars “Ghibli-fied” – comme celui de Sam Altman sur X. Ce “transfert de style” viral pose problème : peut-on copier le travail d’artistes ? OpenAI se défend : “Nous bloquons les contenus inspirés d’artistes vivants, mais pas les styles de studios, plus généraux”, a déclaré l’entreprise à l’AFP. Cette distinction vous convainc-t-elle ? Les métadonnées C2PA (Coalition for Content Provenance and Authenticity) identifient les images générées, mais les débats sur le droit d’auteur s’intensifient.

Et demain ?

Ce que l’on entrevoit à peine, c’est l’avenir de cette technologie. Quand GPT-4o (sans parler de GPT-5) sera rapide, fluide et omniprésent, il ne s’agira plus seulement de faire de jolies images. Avec Sora, il pourrait transformer des scripts en vidéos complètes, mêlant texte, visuels et narration. Pour l’instant, c’est un jouet fascinant qui “fait fondre les GPU” d’OpenAI, comme l’a tweeté Altman face à l’afflux d’utilisateurs. Mais bientôt, ce pourrait être le couteau suisse de la création numérique, redéfinissant nos métiers, nos loisirs et notre rapport à l’image. Alors, jouet ou révolution ? Les deux, sans doute – et c’est bien là toute sa force.
Recevez l’actu innovation made in France en avant-première.