Microsoft Azure: Splitwise-tech verlaagt stroomvereisten llm's met 20 procent

Microsoft Azure heeft een techniek ontwikkeld waarbij llm's naar eigen zeggen 20 procent efficiënter output kunnen genereren. Bij de techniek worden het verwerk- en generatieproces opgesplitst over verschillende systemen.

De Microsoft-afdeling legt in een blogpost uit dat llm's die gebruikmaken van Splitwise de prompt- en tokenfase van een opdracht opsplitsen. Bij de eerstgenoemde fase wordt een prompt van een gebruiker verwerkt en bij de tokenfase worden antwoorden gegenereerd, waarbij iedere outputtoken normaliter sequentieel gegenereerd wordt. Door deze fases over verschillende gpu-clusters te verdelen, beweert Microsoft een 1,4 keer hogere doorvoersnelheid van llm-opdrachten met 20 procent minder stroomverbruik te kunnen bereiken. Bij hetzelfde stroomverbruik moeten llm's 2,35 keer meer kunnen verwerken in dezelfde tijd.

Er wordt ook nog een derde poel gebruikt met een mix van prompt- en tokengeneratie voor mixed batching. Dit cluster moet dynamisch in real time geschaald worden op basis van de rekenkrachtvereisten. Splitwise maakt voortaan onderdeel uit van het vLLM-opensourceproject en kan volgens Microsoft daarom in andere frameworks geïmplementeerd worden.

Source: Tweakers.net

Home

Microsoft Azure: Splitwise-tech verlaagt stroomvereisten llm's met 20 procent