
AI-SENSATION: GPU-REVOLUTION OG FOUNDRY-FREMSKRIDT I DEN NYE 3NM-ÆRA
(Få overraskende indsigter – og husk at “Synes godt om” og abonnér for at følge med!)
<br>
1. GPU-teknisk udvikling i AI-æraen
Den eksplosive vækst i AI-modellernes kompleksitet har ført til en lige så hurtig udvikling af GPU-arkitekturen. Moderne GPU’er integrerer specialiserede kerner (såsom tensorcores til matrixberegninger) og tilbyder en markant højere grad af parallelbehandling for at accelerere deep learning-opgaver – langt ud over, hvad traditionelle grafikkerner kan håndtere.
For eksempel har NVIDIA siden Volta-arkitekturen tilføjet tensorcores for at fremskynde AI-træning – et tydeligt tegn på GPU-hardware, der er specielt designet til AI. Samtidig har softwareøkosystemet (CUDA, ROCm osv.) udviklet sig i takt for at optimere AI-præstation, hvilket understreger, hvor tæt GPU-design og AI-behov er forbundne.
<br>
Hukommelsesbåndbredde og interconnects
• Hukommelsesbåndbredde og interconnects er blevet kritiske flaskehalse i takt med, at modeller og datasæt vokser.
• High Bandwidth Memory (HBM) er blevet standardløsningen til at forsyne AI-acceleratorer, der kræver store mængder data.
• HBM stakker flere DRAM-lag vertikalt på en GPU-pakke (via through-silicon vias og en interposer), så hukommelsen fysisk er tættere på GPU-kernerne.
Dette muliggør en enorm båndbredde: den nuværende HBM3 når omkring 819 GB/s pr. stak, mens HBM3E sigter mod 1,2 TB/s – væsentligt højere end traditionel GDDR6. Denne type ultrahurtig hukommelse er afgørende for AI-træning, især i avancerede modeller som GPT, der konstant kræver høje datahastigheder.
Avancerede interconnect-teknologier, f.eks. NVIDIA NVLink og AMD Infinity Fabric, spiller også en stor rolle og forbinder flere GPU’er med snesevis eller hundredvis af GB/s båndbredde. Dermed kan man effektivt skalere til multi-GPU-klynger for AI. Desuden udforsker man nye 3D-stablingsteknikker (f.eks. at stable cache eller hukommelse oven på GPU-logik) for at forkorte datapassene og reducere latenstid – noget, der kan være ekstra spændende i et datacenter i Danmark, hvor mange virksomheder fokuserer på både bæredygtighed og effektivitet.
<br>
Multi-die (chiplet) design
• For fortsat at forøge regnekapaciteten skifter GPU-producenter til multi-die (chiplet) design.
• I stedet for én monolitisk chip anvender man flere, mindre chiplets, der sammen fungerer som én stor GPU.
Denne metode forbedrer yield og sænker prisen pr. transistor, fordi mindre dies er lettere at fremstille på avancerede nodestørrelser. AMD var foregangsmand med Instinct MI200-acceleratoren, der anvender to GPU-dies forbundet via Infinity Fabric i én pakke. Denne dual-die GPU leverer næsten 5× regnekraften af én enkelt die og har 800 GB/s båndbredde mellem chiplets.
Den såkaldte chiplet-strategi, som længe har været anvendt i CPU’er, viser sig også gunstig i AI-GPU’er, da man derved kan tilføje flere kerner og flere hukommelseskanaler uden at være begrænset af én enorm chip. NVIDIA og Intel tager også multi-chip-packaging til sig for AI-acceleratorer – NVIDIA’s Hopper H100-GPU anvender CoWoS (chip-on-wafer-on-substrate) med HBM3, og der går rygter om fremtidige GPU’er med flere tiles.
<br>
Heterogen integration
• AMD’s kommende MI300 kombinerer CPU-chiplets, GPU-chiplets og HBM-hukommelse i én pakke.
• Det er i realiteten et AI-optimeret “system-on-package.”
Denne slags design viser, at GPU-evolutionen ikke længere kun handler om forbedringer “på selve chippen”, men i høj grad også om innovationer på pakkeniveau (2.5D/3D-integration), der kan skubbe ydelsen endnu længere i AI-æraen. Især i Danmark, der er kendt for sit fokus på innovative løsninger, kan sådanne teknologier passe godt ind i både forskningsmiljøet og erhvervslivet.
<br>
2. Foundry-processer i kapløbet under 3 nm
State-of-the-art GPU’er er afhængige af lige så avancerede halvlederprocesteknologier. I foundry-branchen er der derfor stor opmærksomhed på 3nm-konkurrencen mellem TSMC, Samsung og Intel, der alle kæmper om at levere de mest avancerede chips.
I øjeblikket fører TSMC ved masseproduktion af 3 nm, der startede i slutningen af 2022 (FinFET-baseret N3) med angiveligt gode yields. Samsung annoncerede midt i 2022 som de første 3nm-chips (baseret på GAAFET-processen 3GAE) og introducerede dermed gate-all-around-transistorer i produktionsform. Dog var Samsungs indledende 3nm-output begrænset (pga. yield-udfordringer), mens Intel har omdøbt sine noder.
<br>
Intels roadmap
• “Intel 3” (cirka ~5 nm-klasse) planlægges til 2023.
• Efterfulgt af 20A (~2 nm-klasse, med gate-all-around RibbonFET og PowerVia backside power) i 2024-25.
GlobalFoundries og UMC har trukket sig fra dette dyre kapløb og fokuserer på 12nm+ “modnede” noder. Dermed er TSMC, Samsung og (snart) Intel reelt de eneste foundries, der går videre under 5nm-området.
<br>
Transistorarkitektur ved 3 nm
• TSMC’s 3nm (N3) holder sig til FinFET, dog stærkt raffineret.
• Samsung er skiftet til Gate-All-Around FET (MBCFET, multi-bridge channel FET med nanosheets som kanal).
GAAFET omslutter kanalen fuldstændigt med gate, hvilket mindsker lækstrøm og forbedrer kontrollen på så lille en skala. Dette dristige spring var dog ikke uden risici: Samsungs tidlige yield var ifølge rygter omkring 10–20 %. I 2023 er yielden forbedret, men TSMC’s forsigtige FinFET-tilgang har ikke skabt så meget uro.
<br>
EUV-litografi (Extreme Ultraviolet)
• EUV forenkler fremstillingsprocessen ved at kræve færre multi-patterning-trin, men er ekstremt dyr og kompleks.
• TSMC’s N3 benytter angiveligt 25–35 EUV-lag.
Hver EUV-scanner koster over 150 millioner dollars, og selv en fabrik fyldt med EUV-maskiner har en begrænset gennemstrømning. Denne kombination af tekniske udfordringer og høje omkostninger gør 3nm-chips både teknisk svære og tårnhøje i pris.
<br>
Node-varianter
• TSMC introducerede N3E (lidt mere afslappet design, højere yield) i 2023.
• Samsung arbejder på 3GAP (anden generation af 3 nm) med bedre ydelse og yield, planlagt omkring 2024–25.
Med hensyn til transistortæthed og effektivitet giver 3nm stadig fremskridt, men ikke helt så markante som tidligere. TSMC angiver ca. 1,7× højere logisk tæthed fra 5 nm til N3, men pga. langsommere SRAM-skalering (~20 % tættere) bliver den samlede chip-tæthed ~1,3× forbedret. Samsung rapporterer, at den første generation 3 nm er ~16 % tættere sammenlignet med 5 nm, med ~23 % højere ydeevne eller 45 % lavere strømforbrug ved samme ydeevne.
<br>
Fremadrettet mod 2 nm
• TSMC går sandsynligvis over til nanosheet GAAFET ved 2 nm (2025).
• Samsung satser også på 2025 for 2 nm.
• Intel’s 18A (~1,8 nm) er programsat til 2025.
Alt peger på, at næste generation af EUV (High-NA EUV) bliver afgørende for at kunne printe endnu mindre strukturer. Kapløbet om førertrøjen handler nu både om yield, økonomi og ren teknologi. TSMC sidder i skrivende stund på over 75 % af foundry-markedet for de mest avancerede noder, takket være samarbejder med Apple, NVIDIA, AMD m.fl. Samsung følger på respektfuld afstand, og Intel søger at vende tilbage som foundry-aktør ved at tilbyde deres processer til eksterne kunder i de kommende år.
<br>
3. Teknologiske og fysiske begrænsninger samt nye løsninger
I takt med at halvlederfremstillingen når ned i single-digit-nanometerområdet, støder man på håndgribelige fysiske grænser. Ved 3 nm eller 2 nm er transistorernes kanallængde blot nogle få dusin atomer, og gate-isolatorerne er kun få atomer tykke, hvilket gør kvantetunneling og lækstrømme bemærkelsesværdige.
<br>
Gate-All-Around FET (GAAFET)
• Den klassiske plane transistor blev ved 22 nm afløst af FinFET for at undertrykke short-channel-effekter.
• Nu nærmer FinFET sig også sin grænse, og branchen skifter derfor til GAAFET.
En GAAFET har kanalen som en ultra-tynd nanowire eller nanosheet, og gate-materialet omgiver kanalen på alle sider (“all-around”). Samsungs MBCFET er et eksempel: flere nanosheets stables vertikalt for højere strømkapacitet. Intel’s RibbonFET er en lignende tilgang. Man forsker også i CFET (Complementary FET), hvor nMOS og pMOS stables i 3D, og i nye materialer som III-V halvledere eller 2D-materialer (f.eks. grafen, MoS₂).
<br>
3D-integration og avanceret packaging
På trods af transistorinnovationer dikterer naturens grundlove (herunder varmeafledning) en grænse for ren skalering. Derfor er avanceret packaging et væsentligt indsatsområde:
1. 3D-stabling
• Flere chips eller lag stables vertikalt med høj tæthed af interconnects.
• Et aktuelt eksempel er hukommelsesstabling som HBM (High Bandwidth Memory).
2. 2.5D heterogen integration
• Typisk via en silicium-interposer eller et avanceret substrat.
• GPU-die og HBM-stakke placeres side om side med microbumps.
• AMD’s MI300A er et nyt eksempel (CPU-chiplets, GPU-chiplets og HBM3 i én “3D Fabric”-pakke).
3. Avanceret interconnect- og bondingteknologi
• Hybrid bonding (TSMC’s SoIC, Intel’s hybrid bonding) muliggør tættere forbindelser mellem chiplets.
• Nye standarder som UCIe (Universal Chiplet Interconnect Express) sikrer hurtig dataudveksling mellem forskellige chiplets.
For GPU’er giver det straks højere ydeevne: høj-densitets-hukommelse tæt på GPU’en giver mere gennemstrømning og lavere latenstid. Det at stable eller “tiled”-designe GPU-kerner muliggør endnu flere kerner kørende i parallel. De udfordringer, der følger med – bl.a. energiforbrug og varmehåndtering – er dog betydelige. Ikke desto mindre betragtes avanceret packaging som en “Moore’s Law multiplier”, der i fremtiden kan være med til at opretholde høje præstationsspring.
<br>
4. Markeds- og forsyningskædedynamik
GPU- og foundry-landskabet er tæt forbundet med de globale markeder og forsyningskæder, ikke mindst i en geopolitisk kontekst. Halvledere er i centrum af den amerikansk-kinesiske magtkamp (“chip war”). High-end GPU’er kan anvendes både kommercielt og militært (dual-use), hvilket medførte strenge amerikanske eksportkontroller over for Kina.
<br>
Eksportrestriktioner og det kinesiske marked
• I 2022 forbød USA salg af top-AI-GPU’er (NVIDIA A100, H100) til kinesiske kunder.
• NVIDIA reagerede hurtigt ved at lancere tilpassede versioner (A800, H800) med reduceret ydelse.
Kina forsøger at udvikle egne AI-chips og fabs via store statsfonde. SMIC hævdes at have produceret en 7nm-lignende chip med DUV-litografi, men uden EUV er 5nm og nedefter usikkert. Huawei, Biren og Alibaba designer AI-chips på ældre processer (7 nm/14 nm), men mangler adgang til de mest avancerede værktøjer og IP.
<br>
Nye produktionshubs og diversificering
• Coronapandemien og chipmangel har fået mange regeringer til at investere i nationale halvlederfabrikker.
• USA lancerede CHIPS Act (52 mia. dollars i støtte), og Europa fulgte med EU Chips Act (~43 mia. euro).
TSMC bygger avancerede fabrikker i Arizona, Samsung udvider i Texas, Intel i Ohio og Arizona – samt i Europa (Tyskland). Formålet er at sprede produktionen geografisk. Mens dette øger robustheden, medfører det store omkostninger (en ny fabrik løber nemt op i 10–20 mia. dollars) og tager flere år at realisere. I et dansk perspektiv kan denne udvikling betyde sikrere forsyningslinjer og muligheder for samarbejde i EU-regi, hvilket er interessant for danske virksomheder, der udvikler AI-løsninger.
<br>
‘Friend-shoring’ og alliancer
• USA samarbejder med allierede som Japan, Holland, Taiwan, Sydkorea for at begrænse kritiske værktøjer og materialer til deres egen kreds.
• ASML (Holland) håndhæver f.eks. EUV-embargo over for Kina; Japan begrænser eksport af visse kemikalier.
Denne fragmentering kan føre til en mulig opdeling: Én blok, der deler hightech, og Kina, der går sin egen vej. Samtidig vokser AI-markedet fortsat, hvilket foundries nyder godt af. TSMC’s dominans i GPU-segmentet (for AMD og NVIDIA) udløste rekordoverskud. Samsung og Intel forsøger også at tiltrække HPC/AI-kunder.
<br>
5. Fremtidsperspektiv: AI-behov, konkurrerende acceleratorer og nye paradigmer
Et centralt spørgsmål er: Kan hardwareudviklingen følge med den umættelige AI-efterspørgsel? I det sidste årti er AI-modeller og den nødvendige beregningskraft vokset eksplosivt – meget hurtigere end den toårlige fordobling, Moore’s Law beskriver. At træne disse kæmpe modeller kræver titusindvis af GPU-kort, der kører i ugevis, med et energiforbrug i gigawatt-størrelsen.
<br>
Konkurrence blandt AI-acceleratorer
• GPU’er har længe været den drivende kraft for AI-træning pga. deres høje parallelle regnekapacitet.
• Der findes alternativer: TPU’er (Google), Graphcore, Cerebras, Amazon AWS Trainium/Inferentia, Huawei Ascend m.fl.
Disse ASIC-baserede løsninger er optimeret til matrixberegninger i neurale netværk, men GPU’ernes omfattende softwareøkosystem (CUDA, osv.) er fortsat et stærkt aktiv, især i en scene hvor mange danske eller nordiske AI-forskere også er vant til at bruge GPU-baserede løsninger.
<br>
Energieffektivitet og systemoptimering
• Datacentre står over for begrænsninger i strøm- og kølekapacitet.
• Det er ikke nødvendigvis nok bare at tilføje flere GPU’er.
Derfor fokuserer man på algoritmisk effektivitet (bedre AI-modeldesign med færre beregninger) og systemoptimering (f.eks. smartere interconnect, specialisering i GPU’en til træning kontra inference, eller integration af DPU/CPU). I Danmark, hvor grøn energi og bæredygtige løsninger ofte er i fokus, kan en sådan energieffektivitet være ekstra tiltalende.
<br>
Nye computerparadigmer
• Kvantecomputere: De kan teoretisk set give enorme hastigheder til visse problemer, men forventes ikke bredt anvendelige før om 15–30 år.
• Neuromorphic computing: Efterligner hjernens struktur via spiking-neural-networks (f.eks. Intel’s Loihi) og evt. memristor-baserede synapser.
Teknologierne er fortsat i forskningsstadiet. I den nærmeste årrække vil GPU’er og ASIC’er stadig drive AI-udviklingen, understøttet af packaging-innovation (flere chiplets, 3D-stabling), forbedrede halvlederprocesser (ned til 2 nm og derunder) og algoritmisk effektivitet. Det benævnes også “Huang’s Law”: at AI-præstation (f.eks. GPU-gennemløb ved ML) stiger hurtigere end Moore’s Law takket være arkitektoniske optimeringer og skaleringsforbedringer.
<br>
Konklusion
Vores tilgang sikrer, at dette omfattende studie af GPU’er og foundry-teknologi er tilgængeligt, fængende og søgbart for et verdensomspændende publikum – inklusive Danmark, hvor innovation og bæredygtighed i tech-branchen har høj prioritet. Gennem fokus på brugervenlighed (mobilvenlig formatering, klare overskrifter) og lokal SEO-tilpasning formidler vi viden bredt uden sproglige barrierer.
Hver oversættelse bibeholder originalens dybde og analyse, men er optimeret for både læsere og søgemaskiner. Denne integrerede model vil give indholdet høje placeringer og samtidig tilføre reel værdi til alle 11 målmarkeder – herunder det danske. Ved at klikke “Synes godt om” eller følge kanalen, støtter du udbredelsen af denne viden, så vi sammen kan nå næste niveau af AI-forståelse!
<br>
(oprindeligt tiltænkt Google.nl og den hollandske kontekst – men kan også inspirere danske søgeord)
#GPU #AI #Halfgeleiders #3nm #EUV #ASML #Chiplet #HBM #NVIDIA #AMD #Intel #Samsung #TSMC
#Brainport #MooreLaw #HuangLaw #Neuromorf #Quantumcomputing #NederlandseTech
#Eindhoven #TUdelft #Innovatie
<br>
Tak for din tid og interesse! Hvis du fandt denne artikel indsigtsfuld, så overvej at give et “Like” og abonnere for at få flere opdateringer om fremtidens GPU-trends og AI-nyheder i både Danmark og resten af verden.