Het ChatGPT GPT-4o model genereert afbeeldingen met leesbare labels.

Via: Nastya Bobkova | 28.03.2025, 06:08

OpenAI heeft een belangrijke update voor GPT-4o geïntroduceerd waarmee je afbeeldingen kunt genereren met ongelooflijk nauwkeurige tekst. Met deze nieuwe mogelijkheid kunnen gebruikers gedetailleerde afbeeldingen van hoge kwaliteit maken met spraakaanwijzingen en deze tijdens het proces aanpassen om de bedoelde betekenis nauwkeurig weer te geven.

Dit is wat we weten

Het lijkt erop dat we onleesbare inscripties of bizarre symbolen, die vaak voorkwamen in oudere AI-modellen, nu kunnen vergeten.

In tegenstelling tot traditionele methoden om afbeeldingen te genereren, waarbij je een enkele zoekopdracht moet verbeteren, gebruikt GPT-4o een dynamische aanpak. Eerst geef je een basisaanwijzing, zoals "kat", en daarna kun je een dialoog aangaan met het model om gewenste details toe te voegen, zoals een detectivehoed of monocle.

OpenAI liet zien hoe gebruikers geleidelijk scènes kunnen creëren door elementen uit verschillende afbeeldingen te combineren. Het model toont een hoge nauwkeurigheid in het reproduceren van tekst op borden of objecten, wat een aanzienlijke vooruitgang is ten opzichte van eerdere modellen die geschreven woorden niet correct konden reproduceren.

Met de GPT-4o kun je ook met foto's werken door er wijzigingen in aan te brengen. Het model kan 10-20 objecten in een scène aan, waar andere modellen vaak stoppen bij 5-8 objecten.

Niet alles is echter perfect: er zijn een aantal nadelen, zoals bijsnijden vanaf de onderkant, misverstanden met niet-Latijnse tekst en problemen met meer dan 20 objecten. Toch biedt de nieuwe functie nauwkeurigheid en flexibiliteit die nieuwe mogelijkheden bieden voor ontwerpers en creatieven.

Bron: OpenAI, Gizmochina