Alibaba's Qwen2.5-VL AI-model kan Booking.com draaien op Android en tickets boeken van Chongqing naar Beijing (video)
Alibaba's Qwen-team heeft de release aangekondigd van een nieuwe lijn AI-modellen Qwen2.5-VL die een aantal tekst- en beeldanalysetaken kunnen uitvoeren.
Dit is wat we weten
De modellen kunnen bestanden verwerken, video's begrijpen, objecten in afbeeldingen tellen en pc's besturen, wat vergelijkbaar is met het model dat werkt in OpenAI Operator.
Volgens testgegevens presteert Qwen2.5-VL beter dan OpenAI's GPT-4, Anthropic's Claude 3.5 en Google's Gemini 2.0 Flash in het begrijpen van video's, wiskunde, documentanalyse en het beantwoorden van vragen. Het model kan grafieken en diagrammen analyseren, gegevens extraheren uit scans van facturen en formulieren en video's "begrijpen" die meerdere uren duren.
Qwen2.5-VL testresultaten. Illustratie: Alibaba
Een interessante functie van Qwen2.5-VL is de mogelijkheid om te communiceren met software op PC's en mobiele apparaten. Een video gepost op X toont een Qwen2.5-VL model dat de Booking.com app op Android start en een vliegticket boekt van Chongqing naar Beijing. In een test op een Linux desktop bleek het model echter minder efficiënt en beperkte het zich tot het wisselen van tabbladen.
De Qwen2.5-VL modellen hebben ook bepaalde beperkingen op de onderwerpen die ze bespreken, met name in Qwen Chat, als gevolg van de Chinese internettoezichthouder die naleving van "socialistische kernwaarden" vereist.
Qwen2.5-VL modellen zijn beschikbaar om te testen in de Qwen Chat app en op het Hugging Face platform. Het Qwen2.5-VL-72B model heeft een speciale licentie waarvoor toestemming voor commercieel gebruik nodig is voor bedrijven met meer dan 100 miljoen maandelijks actieve gebruikers.
Bron: @_philschmid