Generatieve AI drijft nieuwe AWS instances

door Pieter Werner 11 september 2024

geschreven door Pieter Werner 11 september 2024

Amazon heeft de algemene beschikbaarheid van EC2 P5e-instances aangekondigd, aangedreven door NVIDIA H200 Tensor Core GPU’s, om te voldoen aan de groeiende vraag naar rekenkracht voor generatieve AI en high-performance computing (HPC)-toepassingen. Deze instances zijn ontworpen om steeds complexere modellen aan te kunnen, met name grote taalmodellen (LLMs) die de afgelopen jaren exponentieel in omvang zijn toegenomen en nu uit honderden miljarden parameters bestaan.

De P5e-instances zijn uitgerust met acht NVIDIA H200 GPU’s, die 1,7 keer meer geheugen en 1,5 keer snellere geheugenbandbreedte bieden dan de NVIDIA H100 GPU’s in de eerdere P5-instances. Deze verbeterde prestaties zorgen voor snellere gegevensverwerking en lagere latentie, wat cruciaal is voor real-time toepassingen zoals conversational AI. Dankzij het grotere GPU-geheugen van de P5e-instances kunnen grotere modellen op één enkele instance worden uitgevoerd, waardoor de complexiteit van gedistribueerde inferentie wordt vermeden. Zo kan het uitrollen van Meta’s Llama 3.1-model (405 miljard parameters) op één P5e-instance tot 1,72 keer hogere doorvoer en 69% lagere kosten opleveren dan het gebruik van twee P5-instances.

Daarnaast zijn deze instances ideaal voor geheugenintensieve HPC-toepassingen, zoals simulaties en data-analyse. De aankomende P5en-instances zullen de prestaties verder verbeteren door de latentie te verminderen bij het overdragen van gegevens tussen CPU en GPU, wat efficiëntere schaalbaarheid in gedistribueerde systemen mogelijk maakt. Hierdoor zijn Amazon EC2 P5e- en P5en-instances van cruciaal belang voor AI- en HPC-werkbelastingen die hoge prestaties en schaalbare rekenkracht vereisen.