DeepSeek heeft een nieuwe versie van zijn multimodale AI-model Janus uitgebracht. Het Janus-Pro-model is geoptimaliseerd voor zowel beeldanalyse als beeldgeneratie en is beschikbaar in twee varianten met 1,5 en 7 miljard parameters.
Volgens DeepSeek presteert het opensourcemodel goed in vergelijking met andere beeldmodellen. Bij het genereren van afbeeldingen behaalt Janus-Pro een score van 80 procent op de GenEval-test, een benchmark die meet hoe goed AI-modellen beelden kunnen maken die lijken op wat mensen zouden verwachten. Ter vergelijking: DALL-E 3 scoort 67 procent en Stable Diffusion 3 Medium 74 procent. Ook bij beeldanalyse zou Janus-Pro-7B beter presteren dan de concurrentie.
De nieuwe versie brengt volgens het Chinese bedrijf significante verbeteringen op drie fronten. De trainingsstrategie is aangepast met langere initiële trainingsperiodes en een betere verhouding tussen verschillende soorten trainingsdata. Ook is de trainingsdata uitgebreid met 90 miljoen nieuwe samples voor beeldanalyse en 72 miljoen synthetische afbeeldingen voor beeldgeneratie.
Janus-Pro gebruikt aparte encoders voor beeldanalyse en -generatie. Het model is getraind op afbeeldingen van 384 bij 384 pixels. DeepSeek erkent dat deze relatief lage resolutie beperkingen met zich meebrengt, vooral bij het genereren van gedetailleerde gezichten en tekst.
Het nieuws over Janus-Pro volgt op het succes van het R1-taalmodel van DeepSeek. De DeepSeek-app staat momenteel op nummer één in de Amerikaanse App Store. Het bedrijf heeft ook opensourceversies van dit taalmodel uitgebracht, variërend van 1,5 tot 70 miljard parameters. DeepSeek claimt dat hun model kan concurreren met OpenAI's nieuwste taalmodellen en stelt het hele systeem te hebben getraind voor minder dan 6 miljoen dollar op Nvidia H800-chips, al zijn deze claims niet onafhankelijk geverifieerd.
Source: Tweakers.net