H100 Overklast! Blackwell B100 Onthuld – Elon Musks Geheim Achter 1 Miljoen GPU’s

H100 Overklast! Blackwell B100 Onthuld – Elon Musks Geheim Achter 1 Miljoen GPU’s

Prestaties en Analyse van Nvidia’s Blackwell B100: Vergelijking met H100 en A100, Concurrentie met Google TPU en Tesla Dojo en Toekomstperspectieven voor GPT/Grok-toepassingen

Met de onthulling van Nvidia’s next-generation GPU-architectuur, gebaseerd op Blackwell – de B100 – is een nieuwe mijlpaal bereikt in de AI-berekeningskracht. In dit rapport onderzoeken we uitvoerig de prestaties en kenmerken van de B100, vergelijken we deze met de vorige generaties H100 en A100 en analyseren we hoe deze zich verhoudt tot concurrerende acceleratoren zoals Google TPU en Tesla Dojo. Tevens bespreken we wanneer en met welk effect de B100 zou kunnen worden ingezet in grote taalmodellen, zoals de GPT-serie en Elon Musks Grok-model. Daarnaast bevat dit rapport prognoses voor opvolgende architecturen, een analyse van Elon Musks plannen voor een supercomputer met 1 miljoen GPU’s, een overzicht van de GPU-gebruiksstatus van DeepSeek in China en de GPT-serie, en een systematisch overzicht van de productprijzen.

Nvidia Blackwell B100 – Prestaties en Kenmerken

Nvidia’s B100 is de next-generation datacenter-GPU die de Blackwell-architectuur gebruikt en maakt gebruik van een innovatieve dual-die constructie.

Dual-Die Constructie: Twee chips werken als één GPU dankzij een baanbrekende verpakkingsmethode, met een totale integratie van ongeveer 208 miljard transistors (ongeveer 104 miljard per chip × 2). Dit betekent dat er 128 miljard transistors meer zijn vergeleken met de H100 van de vorige Hopper-architectuur.

Geavanceerd Fabricageproces: De B100 is vervaardigd met TSMC’s 4nm-proces (aangepast 4NP) en de twee chips zijn verbonden via een ultrasnelle interconnect die een chip-naar-chip bandbreedte van 10 TB/s realiseert.

Enorme Geheugencapaciteit: Elke B100 GPU is uitgerust met 192 GB HBM3e-geheugen, met een totale geheugenbandbreedte van 8 TB/s.

Qua prestaties toont de B100 een ongeëvenaarde AI-berekeningskracht. Volgens Nvidia is de AI-verwerkingskracht van de B100 tot 5 keer hoger dan die van de H100. Concreet levert de GPU bij FP8-precisie een rekenkracht van 20 petaflops (PFLOPS), wat neerkomt op een 2,5-voudige verbetering ten opzichte van de Hopper, en bij FP4-precisie bereikt hij 40 PFLOPS, oftewel een 5-voudige verbetering. Dit duidt erop dat Nvidia met de introductie van low-precision berekeningen (FP8, FP4) een revolutionaire sprong heeft gemaakt. Ter referentie: de FP8-prestaties van de H100 bedragen, bij toepassing van sparsity acceleration, ongeveer 4 PFLOPS. Dat betekent dat de B100 op basis van FP8 ongeveer 5 keer zo krachtig is als de H100. Daarnaast biedt de B100 tot 1,8 PFLOPS (zonder sparsity) aan FP16/BF16 gemengde precisie en 30 TFLOPS aan FP64-precisie, wat ruimschoots voldoet voor wetenschappelijke berekeningen.

Ondanks de hoge prestaties is de B100 energie-efficiënt, met een maximaal TDP van 700 W. Dankzij de hoge prestaties en bandbreedte kan één enkele B100 GPU AI-modellen laden met maar liefst 740 miljard parameters – een sprong die de limiet van eerdere generaties, zoals de Hopper H100 die modellen van tientallen miljarden parameters aankon, ver overschrijdt. Dit benadrukt het belang van grote geheugencapaciteit en bandbreedte in het tijdperk van ultra-grote modellen.

Vergelijking: B100 vs. H100 vs. A100

Om de prestaties van de B100 te begrijpen, is het essentieel om deze te vergelijken met vorige generaties. Nvidia’s Ampere A100 (gelanceerd in 2020) en Hopper H100 (gelanceerd in 2022) waren toonaangevende datacenter-GPU’s in hun tijd.

A100: Gebouwd met een 7nm-proces, bevat ongeveer 54 miljard transistors en is verkrijgbaar met 40 GB of 80 GB HBM2e-geheugen. De A100 behaalde 312 TFLOPS aan FP16-tensorberekeningen (zonder sparsity) en 1.248 TOPS aan INT8-berekeningen. De A100 80GB werd uitgebracht met een prijs van ongeveer $15.000–$17.000, terwijl de 40GB-versie rond de $9.000 kostte.

H100: Gebouwd met een 4nm-proces, bevat meer dan 80 miljard transistors en is uitgerust met 80 GB HBM3-geheugen. Nvidia meldt dat de H100 op basis van MLPerf 3.0 een 4-voudige prestatieverbetering biedt ten opzichte van de A100. In de praktijk ondersteunt de H100 via een nieuwe Transformer Engine FP8-berekeningen, levert hij meer dan 900 TFLOPS FP16 en ongeveer 4 PFLOPS FP8 per GPU bij sparsity. De marktprijs van de H100 is sterk gestegen; in sommige regio’s, zoals Japan, werd hij voor ongeveer 5,43 miljoen yen (ongeveer $36.300) verkocht, terwijl in de VS de prijs gemiddeld rond de $30.000 ligt. De officiële prijs van de H100 PCIe-kaarten begint bij ongeveer $25.000.

Uit deze vergelijkingen blijkt dat de B100 een enorme generatiesprong maakt ten opzichte van de H100. Als de H100 4 keer sneller is dan de A100, kan men verwachten dat de B100 tot wel 10 keer meer AI-verwerkingskracht biedt dan de A100. Vooral in low-precision deep learning (FP8/FP4) blinkt de B100 uit, wat de training en inferentie van moderne deep learning-modellen op basis van grootschalige matrixberekeningen revolutionair zal verbeteren.

B200 en Andere Varianten

Nvidia heeft binnen de Blackwell-architectuur naast de B100 ook een hogere klasse, de B200, gepresenteerd.

B200: Ook gebaseerd op een dual-die ontwerp en vergelijkbaar met de B100, maar met een hogere klok en volledig geactiveerde kernen, wat resulteert in een prestatieverbetering tot wel 30%. Bijvoorbeeld, voor FP4-berekeningen levert de B100 7 PFLOPS (dense), terwijl de B200 ongeveer 9 PFLOPS bereikt; voor FP8 levert de B100 3,5 PFLOPS (dense) en de B200 4,5 PFLOPS. In een 8-GPU HGX-server leveren 8 B100’s in totaal 56 PFLOPS FP8 en 112 PFLOPS FP4, vergeleken met 8 B200’s die respectievelijk 72 PFLOPS FP8 en 144 PFLOPS FP4 kunnen behalen. Beide modellen ondersteunen GPU-communicatie via NVLink generatie 5 en NVSwitch generatie 4, met een bandbreedte van 1,8 TB/s, wat de efficiëntie in clustervorming maximaliseert. Hoewel er nog geen PCIe- of consumentenvormen van de B100/B200 zijn aangekondigd, wordt verwacht dat de volgende generatie GeForce RTX 50-serie ook op de Blackwell-architectuur zal draaien, wat suggereert dat er ook in de gaming- en workstationmarkt afgeleide producten zullen komen.

Concurrentieanalyse: Google TPU en Tesla Dojo

De belangrijkste concurrenten van Nvidia GPU’s binnen AI-acceleratie zijn de Google TPU-serie en Tesla’s eigen Dojo-accelerator, beide speciaal ontworpen voor AI-werkbelastingen.

Google TPU (TPU v4 / v5)

De TPU’s van Google zijn ASIC’s, speciaal ontwikkeld voor deep learning, die grote matrixberekeningen uitvoeren met een hoge energie-efficiëntie.

• TPU v4, gelanceerd in 2020, biedt tot 10 keer betere prestaties dan de vorige generatie en is schaalbaar via TPU-pods. Academische presentaties tonen aan dat een TPU v4-systeem 1,2–1,7 keer sneller kan presteren dan een Nvidia A100, terwijl het 1,3–1,9 keer minder energie verbruikt. Let op: deze vergelijking geldt ten opzichte van de A100; Google heeft TPU v4 niet direct vergeleken met de recentere H100. (De H100 werd in 2022 gelanceerd, maar werd niet gebruikt bij de TPU v4-publicaties.) Nvidia-CEO Jensen Huang stelde dat met de H100, die 4 keer krachtiger is dan de A100, de voordelen van TPU v4 zullen verdwijnen in het H100-tijdperk.

Volgens de officiële specificaties levert TPU v4 ongeveer 275 TFLOPS per chip in BF16-precisie, met 32 GB HBM-geheugen en een geheugenbandbreedte van 1,6 TB/s. Een TPU-pod, bestaande uit meer dan 2048 TPU v4-chips, kan exaflops-prestaties leveren en wordt intern bij Google gebruikt om gigantische modellen, zoals PaLM, te trainen.

Tesla Dojo

Tesla’s Dojo is een speciaal ontworpen supercomputer, ontwikkeld om de training van Tesla’s autonome AI te versnellen.

• De kern van Dojo is het D1-chip, vervaardigd met een 7nm-proces, dat 354 trainingsnodes (berekeningseenheden) bevat en ongeveer 362 TFLOPS levert in BF16- en CFP8-precisie. Dit is vergelijkbaar met de FP16-prestaties van de Nvidia A100, die 312 TFLOPS leveren.

• Dojo organiseert 25 D1-chips in een “trainingsplaat (Tile)”, waarbij elke tile ongeveer 9 PFLOPS presteert in BF16/CFP8. Door 36 dergelijke tiles te verbinden in een 6×6-opstelling ontstaat een rack, en meerdere racks vormen samen de Dojo ExaPOD, die volgens Tesla AI Day 2022 is ontworpen voor een theoretische maximale prestatie van ongeveer 1,1 EFLOPS. Tesla heeft Dojo sinds 2023 gedeeltelijk operationeel en traint hiermee hun Autopilot-neurale netwerken, en er zijn plannen om tussen 2024 en 2025 ongeveer $1 miljard te investeren in de uitbreiding van de faciliteit.

Het is opmerkelijk dat Tesla, ondanks de ontwikkeling van Dojo, nog steeds grootschalige Nvidia GPU-clusters blijft gebruiken. In 2021 bouwde Tesla al een supercomputer met 5760 A100-GPU’s (720 nodes met 8 GPU’s per node), wat overeenkomt met 1,8 EFLOPS in FP16. In 2023 presenteerden ze een grote cluster met 10.000 H100-GPU’s, met een geschatte FP8-prestatie van ongeveer 39,5 EFLOPS. Elon Musk heeft aangegeven dat als Nvidia voldoende GPU’s kan leveren, Tesla mogelijk zelfs zonder Dojo zou kunnen opereren – wat impliceert dat de beschikbaarheid van GPU’s nog steeds een knelpunt vormt.

Uit prestatieoogpunt lijkt het D1-chip in Dojo, ondanks dat het qua geheugen en flexibiliteit achter traditionele GPU’s blijft, zeer efficiënt te zijn voor gespecialiseerde toepassingen (zoals Tesla’s autonome visie-modellen). Tegelijkertijd biedt de Nvidia B100 een bredere toepasbaarheid voor algemene AI-werkbelastingen, ondersteund door een robuust CUDA-ecosysteem, waardoor het de voorkeurskeuze wordt voor de meeste onderzoeks- en industriële projecten buiten Google en Tesla.

Toekomstperspectieven voor de B100 in GPT- en Grok-series

Met de introductie van de nieuwste GPU’s is er veel belangstelling voor de invloed op de ontwikkeling van grote taalmodellen (LLM).

Gebruik in GPT-serie: GPT-3 (175B), geïntroduceerd in 2020, is een gigantisch model met 175 miljard parameters, waarvan de training plaatsvond met ongeveer 10.000 Nvidia V100 GPU’s. GPT-4, gepresenteerd in 2023, werd getraind met ongeveer 25.000 A100 GPU’s gedurende een continue trainingsperiode van 90–100 dagen – wat neerkomt op ongeveer 70 keer de berekeningscapaciteit die voor GPT-3 nodig was. Dit illustreert de exponentiële groei in GPU-behoefte per generatie.

Verwachtingen voor GPT-5 en toekomstige modellen: Hoewel er geen officiële details zijn, verwacht de industrie dat het volgende model ten minste 5 keer meer rekenkracht vereist dan GPT-4. In dit scenario zou Nvidia’s B100, met tot 5 keer meer prestaties vergeleken met de A100, een enorme troef zijn – het zou snellere training mogelijk maken met hetzelfde aantal GPU’s, of grotere modellen ondersteunen binnen dezelfde tijdsperiode. Bijvoorbeeld, als GPT-4 met 25.000 A100 in 3 maanden werd getraind, kan theoretisch 100.000 B100 hetzelfde resultaat behalen, of 25.000 B100 kunnen worden ingezet voor een nog groter model.

xAI Grok-serie en de B100

Elon Musks AI-bedrijf xAI, opgericht in 2023, heeft zijn eigen taalmodel genaamd Grok ontwikkeld. De huidige versie, Grok-3, die wordt gezien als een uitdaging voor GPT-4, werd getraind met maar liefst 100.000 H100 GPU’s in Tesla’s Dojo-cluster in Memphis, Tennessee. De rekenkracht van Grok-3 wordt geschat op 10 keer die van de vorige generatie, en Musk beweert dat het een van de “slimste AI’s op aarde” is. xAI is van plan de Colossus-supercomputer verder uit te breiden, met als ambitie uiteindelijk 200.000 – en uiteindelijk 1 miljoen GPU’s te bereiken. Dit zou niet alleen de grootste schaal ter wereld zijn, maar ook een investering vereisen van ongeveer $25–$30 miljard (ongeveer 33–40 biljoen KRW). Musk beweert dat deze investering hen een ongeëvenaarde rekenkracht zal opleveren – tot 5 keer meer dan met 200.000 GPU’s – en zodoende een leidende positie in de AI-ontwikkeling zal veiligstellen.

In dit scenario zou de introductie van de B100 cruciaal kunnen zijn voor xAI. Hoewel Grok-3 momenteel op H100 is gebaseerd, is het waarschijnlijk dat xAI vanaf eind 2025, wanneer de B100 in massaproductie gaat, deze zal inzetten voor de volgende generatie Grok-modellen. Met de indrukwekkende prestaties van de B100 kan xAI mogelijk een deel van de geplande GPU’s vervangen door een kleiner aantal B100’s, terwijl dezelfde of zelfs betere prestaties worden behaald. Als een taak eerder 100.000 H100 vereiste, zou theoretisch 100.000 B100 een vijfvoudige prestatieverbetering kunnen opleveren – wat xAI in staat zou stellen met een cluster van 100.000–200.000 B100’s de concurrentie van bijvoorbeeld OpenAI te overtreffen.

Het is echter belangrijk op te merken dat deze scenario’s afhankelijk zijn van de daadwerkelijke beschikbaarheid en productieschema’s van de B100. Volgens de officiële roadmap van Nvidia zou een opvolgend model binnen de Blackwell-serie (gebaseerd op de Rubin-architectuur) eind 2025 tot begin 2026 gelanceerd kunnen worden. Dit betekent dat wanneer xAI zijn doel van 1 miljoen GPU’s bereikt, ook de volgende generatie GPU’s (bijv. R100 op basis van Rubin) in overweging genomen kunnen worden. Op korte termijn, in 2025–2026, zal de B100 echter waarschijnlijk de krachtigste optie blijven en een centrale rol spelen in het trainen van volgende generatie ultra-grote AI-modellen – ongeacht of het gaat om GPT- of Grok-series.

Vooruitzichten voor de opvolger van Blackwell: De Rubin-architectuur

Nvidia heeft historisch gezien elke twee jaar de datacenter-GPU-architectuur vernieuwd (Ampere → Hopper → Blackwell), en er gaat al gerucht dat de volgende generatie “Rubin” zal heten. Het codenaam “Rubin” eert de astronoom Vera Rubin en wordt verwacht in toekomstige Nvidia AI-GPU’s.

Verwachte kenmerken en verbeteringen van de Rubin-architectuur:

Fijnere Fabricage: Volgens mediaberichten zal de Rubin-generatie GPU (tijdelijk R100 genoemd) gebruikmaken van TSMC’s 3nm-proces (N3), wat een verbetering in energie-efficiëntie en integratiegraad oplevert ten opzichte van Blackwell B100’s 4nm-proces. Dit is vooral belangrijk omdat de B100 al een TDP van bijna 700 W heeft, wat druk zet op koeling en stroomvoorziening.

Uitgebreide Chiplet-ontwerp: Er wordt gespeculeerd dat Rubin niet langer het dual-die ontwerp van de B100 zal gebruiken, maar in plaats daarvan een quad-chiplet ontwerp (vier chiplets) zal hanteren, waardoor meer silicium in één pakket kan worden samengevoegd voor maximale prestaties. Nvidia heeft in de B100 al CoWoS-L verpakkingsmethode gebruikt om twee chiplets samen te voegen, en in Rubin wordt verwacht dat deze techniek verder wordt ontwikkeld om vier chiplets efficiënt met elkaar te verbinden en de bandbreedte te verhogen.

Nieuwe Geheugentechnologie (HBM4): De volgende generatie HBM4-geheugen zal waarschijnlijk voor het eerst worden toegepast in Rubin GPU’s. In plaats van het huidige 6-Hi HBM3(e) wordt verwacht dat Rubin wordt uitgerust met 8-Hi stacks van HBM4-geheugen, wat zowel de geheugencapaciteit als de bandbreedte aanzienlijk zal verhogen. Hoewel de standaard nog niet definitief is, wordt verwacht dat elke stack meer dan 32 GB kan bevatten met snellere I/O-snelheden. Dit zou kunnen resulteren in een totale geheugencapaciteit van meer dan 256 GB per Rubin-GPU en een bandbreedte die ruim 10 TB/s overschrijdt.

Integratie met Grace CPU: Nvidia ontwikkelt tevens de Arm-gebaseerde datacenter-CPU Grace, en er zijn plannen om deze te integreren met de GPU’s in een Grace+Rubin integratiemodule (codenaam GR200). Deze integratie zou de latentie tussen CPU, geheugen en GPU verminderen en de bandbreedte verhogen, wat cruciaal is voor de verwerking van de enorme datavolumes die nodig zijn voor de training van massieve AI-modellen.

Prestaties en Lancering: Analist Mitch Kou geeft aan dat de eerste GPU op basis van Rubin (R100) gepland staat voor massaproductie in Q4 2025, met leveringen aan grote cloudproviders in begin 2026. Hoewel exacte cijfers nog niet openbaar zijn gemaakt, wordt verwacht dat de prestaties 2–3 keer hoger zullen zijn dan die van de B100. Er zal ook extra aandacht zijn voor het overwinnen van uitdagingen op het gebied van energieverbruik en geheugenflessenhalsen, met verbeteringen in acceleratorontwerp (bijv. optimalisatie van TF32/FP8 en een efficiëntere Transformer Engine 2.0).

Samenvattend wordt verwacht dat de Rubin-architectuur – met een combinatie van fijnere fabricage, een uitgebreid chiplet-ontwerp en geavanceerde geheugentechnologie – een nieuw tijdperk zal inluiden in AI-berkeningen. Vanaf 2026 zullen deze GPU’s een centrale rol spelen in de training van de volgende generatie AI-modellen, zoals GPT-6 of Grok-5, en zullen zij een rekenkracht leveren die de huidige standaarden ver overtreft.

Analyse van Elon Musks Visie: Supercomputer met 1 Miljoen GPU’s

Zoals eerder besproken, heeft Elon Musk publiekelijk zijn ambitie uitgesproken om een AI-supercomputer met 1 miljoen GPU’s te bouwen. Deze sectie onderzoekt de achtergrond en de betekenis van deze visie.

Het bedrijf xAI van Musk is bezig met de bouw van een supercomputer, genaamd Colossus, die al is ingezet voor de training van Grok-3 met 100.000 H100-GPU’s. Het plan is om dit systeem uit te breiden tot ongeveer 200.000 GPU’s, met als uiteindelijk doel 1 miljoen GPU’s te bereiken – een schaal die ongekend is. Laten we analyseren wat dit betekent:

Rekenkracht: Als er 1 miljoen GPU’s van het H100-niveau worden ingezet, zou dit theoretisch tot 4 exaflops (EFLOPS) kunnen opleveren in FP8-berekeningen (aangezien één H100 ongeveer 4 PFLOPS levert in FP8; 1.000.000 × 4 PFLOPS = 4 EFLOPS). Dit is vele malen hoger dan de capaciteit van de krachtigste supercomputer ter wereld, Frontier (1,1 EFLOPS in FP64), en vertegenwoordigt een recordhoogte aan AI-specifieke rekenkracht. Zelfs met de B100 of toekomstige Rubin-GPU’s zou de theoretische rekenkracht kunnen oplopen tot bijna 10 EFLOPS.

Kosten: Het verkrijgen en exploiteren van 1 miljoen GPU’s vereist enorme investeringen. Als een H100 ongeveer $25.000 per eenheid kost, dan komt 1 miljoen GPU’s neer op een investering van ongeveer $25–30 miljard (ongeveer 33–40 biljoen KRW). Als daar nog infrastructuur, koelsystemen, personeelskosten en onderhoud aan toe komen, kan de totale investering boven de 50 biljoen KRW uitkomen. Ter vergelijking: de grootste datacenters investeren jaarlijks ongeveer 10 biljoen KRW, wat aantoont dat Musks project een astronomisch kapitaalintensief initiatief is.

Noodzaak en Toepassing: Waarom zijn er zoveel GPU’s nodig? Musk stelt dat de volgende generatie AI-modellen veel groter en slimmer moeten zijn dan de huidige ChatGPT of Grok-3, wat een exponentiële toename in rekenkracht vereist. Hij wijst op twee cruciale pijlers voor AI-prestaties: modelgrootte (scale) en datavolume (data), en benadrukt dat hoogwaardige data schaars wordt. Om dit te compenseren, moet er worden ingezet op enorme hoeveelheden zelf gegenereerde synthetische data of uitgebreide real-world data (bijvoorbeeld Tesla’s zelfrijdende videomateriaal). Daardoor ontstaat de noodzaak voor enorme rekenkracht, en een supercomputer met 1 miljoen GPU’s is daarvoor de oplossing.

Technische Uitdagingen: Het koppelen van 1 miljoen GPU’s in één cluster brengt grote technische uitdagingen met zich mee. Hoewel huidige gedistribueerde trainingsalgoritmes tot tienduizenden nodes zijn getest, is het synchroniseren en optimaliseren van communicatie tussen 1 miljoen nodes een geheel nieuwe uitdaging. Nvidia heeft al ervaring met het verbinden van honderden tot duizenden GPU’s met NVSwitch en InfiniBand HDR/NDR, maar het opschalen naar 1 miljoen vereist baanbrekende oplossingen op het gebied van netwerktopologie, software-optimalisatie en fouttolerantie.

Samenvattend: Als Elon Musks visie voor een supercomputer met 1 miljoen GPU’s werkelijkheid wordt, zou dit een historisch megaproject zijn dat een geheel nieuwe standaard zet voor AI-berekeningskracht. Het zou een ongeëvenaarde infrastructuurvoordeel opleveren ten opzichte van concurrenten zoals OpenAI en Google, en als katalysator dienen voor de ontwikkeling van AI-modellen op een geheel nieuw niveau. Tegelijkertijd moeten enorme investeringen en technische uitdagingen overwonnen worden, evenals geopolitieke risico’s die samenhangen met de levering van geavanceerde AI-chips.

DeepSeek en de Informele GPU-Inkoop in China

In China is, ondanks Amerikaanse exportbeperkingen, via alternatieve kanalen geconstateerd dat geavanceerde Nvidia AI-GPU’s (zoals de H100) worden verkregen voor de ontwikkeling van ultra-grote AI-modellen. Een opvallend voorbeeld is de startup DeepSeek.

Over DeepSeek en hun GPU-gebruik:

• DeepSeek werd opgericht in 2023 en begon als een AI-onderzoeksproject binnen het Chinese financiële instituut High-Flyer Hedge Fund. High-Flyer had al in 2021 proactief 10.000 A100-GPU’s aangeschaft voor AI-trading, waarna DeepSeek werd afgesplitst om bredere AI-modellen te ontwikkelen.

• In 2024 presenteerde DeepSeek zijn gigantische taalmodel, DeepSeek V3, met 671 miljard parameters, wat veel aandacht trok. Opmerkelijk is dat ze beweren dit model getraind te hebben met slechts 2.048 H800-GPU’s in slechts 2 maanden. De H800 is een aangepaste versie van de H100, waarbij de bandbreedte is verlaagd om te voldoen aan de Amerikaanse exportregels, maar met dezelfde rekenkracht als een 700W-kaart.

• Hoewel DeepSeek niet precies heeft verklaard hoe ze zo’n gigantisch model snel konden trainen met een beperkt aantal GPU’s, stelden ze dat ze 11 keer efficiënter waren dan de GPU-tijd die voor Meta’s Llama3 (4.050 miljard parameters) werd gebruikt. Dit suggereert dat zij mogelijk nog krachtigere hardware hebben ingezet, hoewel dit niet openbaar is gemaakt.

In januari 2025 meldden Bloomberg en andere media dat de Amerikaanse overheid een onderzoek heeft lopen naar de mogelijk illegale inkoop van Nvidia GPU’s door DeepSeek. Er zijn beschuldigingen dat DeepSeek een schijnbedrijf in Singapore heeft opgericht om Amerikaanse beperkingen te omzeilen en tienduizenden H100-GPU’s illegaal in te voeren. Uit Nvidias financiële gegevens blijkt dat het aandeel verkoop via Singapore in twee jaar is gestegen van 9 % naar 22 %, wat wijst op een dergelijke distributiekanaal. Amerikaanse autoriteiten, waaronder het Department of Commerce en de FBI, onderzoeken deze beschuldigingen, terwijl Nvidia verklaart dat de toename te wijten is aan “bill-to”-effecten voor wederverkoop in andere regio’s.

Volgens onafhankelijke analyses wordt geschat dat DeepSeek ongeveer 50.000 Hopper-GPU’s bezit, waarvan ongeveer 10.000 legitiem verkregen H800 zijn, 10.000 H100 die vóór de sancties of via informele kanalen zijn binnengehaald, en de rest bestaat uit andere modellen zoals H20, die zijn aangepast voor de Chinese markt (H20 is een verlaagde versie van Hopper, met naar schatting meer dan 1 miljoen geproduceerde eenheden in 2024).

DeepSeek gebruikt deze GPU’s voor toepassingen variërend van AI-trading tot onderzoek naar gigantische taalmodellen, wat de intense mondiale concurrentie voor geavanceerde AI-hardware benadrukt.

Prijsoverzicht voor AI-hardware (2023–2025, Geschatte Marktprijzen)

Nvidia A100 40GB: circa $8.000–$10.000

Nvidia A100 80GB: circa $15.000–$17.000

Nvidia H100 (80GB, SXM5): circa $25.000–$35.000

Nvidia B100: Geschatte prijs $30.000–$40.000+

Nvidia B200: Verwachte prijs boven de $40.000

Google TPU v4: Niet als product verkocht; via Google Cloud beschikbaar, met een waarde van meer dan $10.000 per module

Tesla Dojo D1-chip: Prijs niet openbaar; Tesla gebruikt deze uitsluitend intern

Nvidia H800 (voor China): circa ¥200.000 (geschatte prijs in China, wat neerkomt op ongeveer 3,6 miljoen KRW, afhankelijk van de wisselkoers)

Nvidia H20 (voor China): Geschatte prijs rond $10.000

Deze prijzen kunnen variëren afhankelijk van de marktsituatie en de vraag. Door de huidige AI-boom zijn zelfs tweedehands GPU’s soms duurder dan de nieuwprijs. Hoewel prijzen mogelijk stabiliseren zodra de B100 grootschalig wordt uitgebracht in 2025 en concurrentie van AMD en Intel toeneemt, blijft de aanschaf van AI-chips momenteel een enorme investering voor bedrijven.

Conclusie

Nvidia’s Blackwell B100 komt naar voren als een echte gamechanger in het tijdperk van extreme AI-berekeningen. Met tot wel 5 keer hogere prestaties dan de H100 en een verbeterde geheugencapaciteit en bandbreedte, zal de B100 een cruciale infrastructuur vormen voor de training van de volgende generatie ultra-grote modellen, zoals GPT-4 en verder. Hoewel er gespecialiseerde oplossingen bestaan zoals Google TPU en Tesla Dojo, maakt de brede toepasbaarheid en het sterke ecosysteem van Nvidia GPU’s het onwaarschijnlijk dat de invloed van de B100 op korte termijn wordt geëvenaard.

Voor toonaangevende AI-projecten, zoals OpenAI’s GPT en xAI’s Grok, wordt verwacht dat de B100 en opvolgende GPU’s hen in staat zullen stellen om modellen sneller, groter en intelligenter te ontwikkelen. Vooral Elon Musks visie op een supercomputer met 1 miljoen GPU’s zou, indien gerealiseerd, de AI-prestatiecurve opnieuw exponentieel doen stijgen. Tegelijkertijd wijst het DeepSeek-voorbeeld erop dat de wereldwijde concurrentie op het gebied van geavanceerde AI-technologie en de omzeiling van exportbeperkingen steeds intensiever wordt, waardoor de toelevering van AI-halfgeleiders zowel technologische als beleidsmatige en strategische overwegingen vereist.

Uiteindelijk blijft het gezegde “Betere GPU’s creëren sterkere AI” voorlopig geldig. Nvidia’s Blackwell B100 en de opvolger Rubin zullen nieuwe kansen en uitdagingen bieden binnen de AI-industrie, en hoe we deze technologische vooruitgang benutten, zal de kloof in AI-capaciteit tussen bedrijven en naties bepalen. AI-onderzoekers en de industrie moeten deze hardware-roadmaps nauwgezet volgen en tegelijkertijd blijven innoveren op het gebied van modelarchitectuur en optimalisatie, zodat ze creatieve en betekenisvolle resultaten kunnen blijven behalen. Temidden van hevige concurrentie hopen we dat deze technologische doorbraken leiden tot AI-systemen die uiteindelijk ten goede komen aan de mensheid.

“Amerikaanse aandelen 2025: Een dieper inzicht in de marktomstandigheden en groeivooruitzichten”
Lees meer over de toekomst van Amerikaanse aandelen en hun verwachte prestaties in 2025 op deze pagina.

“Elon Musk’s Visie op de Toekomst van GPU’s en AI: Wat de Blackwell B100 betekent”
Dit artikel onderzoekt de impact van Elon Musk’s plannen met de Blackwell B100 en hoe dit de toekomst van GPU’s en kunstmatige intelligentie zal beïnvloeden.
Länk: Elon Musk GPU Toekomst

“Blackwell B100 en de Revolutie van GPU’s in de Technologie-industrie”
Dit artikel behandelt de onthulling van de Blackwell B100 door NVIDIA en de rol die het zal spelen in de technologische vooruitgang van AI en de wereldwijde GPU-markt.
Länk: Blackwell B100 en GPU Revolutie

Voor meer informatie over de recente ontwikkelingen in de AI-industrie, inclusief de rol van NVIDIA’s H100 en Blackwell B100 chips, kunt u de volgende artikelen raadplegen:

Deze artikelen bieden een gedetailleerd overzicht van de huidige trends en uitdagingen in de AI-chipmarkt.

Bronnen

Favicon
Favicon
Favicon

#NVIDIA #Blackwell #B100 #H100 #A100

#GPU #AI #ArtificiëleIntelligentie #GPT #Grok #DeepSeek #ElonMusk

#TeslaDojo #GoogleTPU #Supercomputer #MiljoenGPU #AIrevolutie

#DeepLearning #MachineLearning #Datacenter #TechNews #ITNieuws

Scroll naar boven