Ergänzung, warum ein 384-bit Chip anfängt interessant zu werden: 192 GB RAM - 16 GB für das OS, etc = 176 GB RAM, da passt ein Qwen3-235B-A22B-Q4_K_M.gguf (142 GB) Quant rein, oder auch ein Qwen3-235B-A22B-Q5_K_M.gguf Quant (167 GB). Die Frage bei beiden Quants: Wie viel für Kontext übrig bleibt. Ab einem 512-bit Chip (=256 GB RAM), wäre aber genug Platz für viel Kontext.
Andere, kleinere LLM, die auch interessant zu sein scheint: dots.llm1 (142B) (Q5_K_M, 108 GB). Niedrige bit Quants sollen eine höhere Auswirkung haben, als bei anderen LLMs. Sollte gerade noch auf Strix Halo 128 GB RAM laufen.
Apple bietet, wie geschrieben, einen 1024-bit Chip seit dem Apple M1-Chip an (im Mac Studio), aber bietet Apple auch einen kleineren 384-bit oder 512-bit Chip in einem Notebook an? Ja, tun sie: en.wikipedia.org/wiki/Apple_M4: "M4 Max", im MacBook Pro (384-bit, 410 GB/s und 512-bit, 546 GB/s) (wikipedia.org/wiki/MacBook_Pro_(Apple_silicon)).
Aber Apple's Problem ist, dass sie bei 512-bit, nur bis 128 GB RAM gehen (eine Verschwendung oder Absicht, denn LPDDR5X Chips mit der höheren Speicherdichte gibts, wie man am Strix Halo sieht). Hier hat AMD also eine Chance nicht nur aufzuholen, sondern mehr RAM anzubieten. Und: Ein 384-bit (=192 GB RAM) oder 512-bit (=256 GB RAM) Chips in einem mini-PC wären deutlich günstiger, als im Notebook (Apple will 6049€ für den 512-bit und 128 GB RAM) (wenn ich richtig sehe, bietet Apple keinen 384-bit / 512-bit Chip im mini-PC an).
Stimmt, einen GB202 Chip in einer RTX PRO 5000/6000 kann NVIDIA deutlich teurer verkaufen, als in einer consumer GeForce 5090.
Preis pro GB (laut AI): DDR5 3-6, GDDR7 6–10, HBM3/HBM3E 20–40+ bucks.
HBM nicht nötig:
HBM würde zwar deutlich schnellere t/s liefern (aber einen high-bit-width-bus Chip benötigen und vermutlich nicht weit von den Preisen der A100 oder H100 entfernt sein), ist aber eig. auch ok, dass es HBM im consumer space nicht (mehr) gibt:
Mit der MoE Architektur laufen LLMs jetzt, bei gleicher Leistung, deutlich schneller (~3-4x) (siehe Qwen3-14B vs Qwen3-30B-A3B (MoE), sind in etwa vergleichbar), habs getestet (nur aus RAM, nicht offloaded zur GPU und 8K Kontext):
Qwen3-14B-Q4_K_M (9 GB): 5,5 t/s (und 13 bis 17,5 t/s wenn auf einer 4070).
Qwen3-30B-A3B-Q6_K (MoE) (25,1 GB): 14,3 t/s (und ~20 t/s als Q4_K_M Quant).
Man sieht also, dass Qwen3-30B-A3B Dank seiner MoE Architektur im RAM etwa gleich oder schneller läuft, wie Qwen3-14B auf der GPU.
(Qwen3-30B-A3B-Q6_K auf der 4070 und Rest im RAM: 20,3 t/s.)
Und mein DDR5-4800 ECC dual-channel ist ein ganzes Stück langsamer als ein Strix Halo quad-channel LPDDR5X-8000: 76,8 GB/s vs 256 GB/s. 256 / 76,8 = 3,3-fach schneller. Hochgerechnet: 14,3 t/s * 3,3 = 48 Token pro Sekunde und ~60 t/s (wenn Q4_K_M), da gibts nicht mehr viel zu meckern.
Meine Hochrechnung bestätigt durch einem Strix Halo-Benchmark auf YouTube (youtu.be/watch?v=UXjg6Iew9lg):
Qwen3-14B-Q4_K_M (8,4 GB): 20 t/s.
Qwen3-30B-A3B-Q4_K_M (MoE) (17,4 GB): 53 t/s.
Es ist also ok, wenn HBM dahin geht, wo es wirklich benötigt wird (z.B. LLMs trainieren) und nicht zu den Normies bzw. Endkonsumenten (die diese dann eh nicht bezahlen könnten bzw. wieder kein Markt).
Zusätzlich kommt mit DDR6 nochmal das doppelte an Bandbreite, evtl. noch quad-channel und Unterstützung für mehr als 256 GB RAM (256 GB gibts jetzt schon z.B. in (einigen) B850 AM5 Mainboards) im consumer space (also in den mid range motherboards). Und evtl. noch mehr RAM (384 GB / 512 GB) im high-end/flagship Segment).
Will man DeepSeek-V3-0324-GGUF (671B) auf seinem PC hosten, z.B. einen dieser Quents:
1.78bit (prelim) IQ1_S 186GB Ok
1.93bit (prelim) IQ1_M 196GB Fair
2.42bit IQ2_XXS 219GB Recommended
2.71bit Q2_K_XL 248GB Recommended
3.5bit Q3_K_XL 321GB Great
4.5bit Q4_K_XL 405GB Best
werden 256 GB RAM grenzwertig, je nachdem welche Qualität bzw. welchen Quant man nimmt. Normalerweise fällt die Leistung, bei einem Quant der weniger als 4 Bit pro Parameter hat, drastisch ab (deswegen sind die Q4_K_M Quants generell so beliebt), aber diese dynamischen DeepSeek-V3-0324-GGUF Quans schaffen es auch unter 4 Bit noch zu funktionieren. Nicht zuletzt, weil DeepSeek-V3-0324 (671B) so eine große LLM ist.
Fraglich, wie sehr HBM die Gesamtstrom-Effizienz (also Chip + HBM) verbessern würde, denn der Speicher an sich verbraucht nur einen Bruchteil der TDP. AI sagt 12W to 18W Einsparung bei einer 300W consumer GPU.
Medusa Halo (und Medusa Point) soll voraussichtlich leider in der Tat nur mit RDNA 3.5 statt RDNA 4 kommen (aber hoffentlich ein 384-bit Chip werden). Dass es keine TSMC 3N oder 2N sind, wäre halb so schlimm, die 384-bit und 192 GB RAM wären deutlich wichtiger. Neben der hier besprochenen token generation (TG), gibt's noch den Punkt prompt processing (PP): Wenn die iGPU langsam ist, wird das verarbeiten eines großen Kontextes, bevor es zur TG kommt bzw. die Token generiert/angezeigt werden, lange dauern. Hier wären mehr CUs sehr hilfreich. Und evtl. hat AMD bei RDNA 4 die Geschwindigkeit für diese TG+PP pro Watt verbessert. Trotzdem wäre ein 384-bit, 192 GB, RDNA3.5 Chip ein guter echter Anfang.
(Und Medusa Point, 2026, soll unüberraschenderweise ein reiner Refresh werden (wie das mit Phoenix Point auf Hawk Point ist). Erst leider 2027 solls dann was neues (RDNA 4 oder UDNA?) im "Thin & Light" mobile Segment geben.)
128 GB RAM, 256-bit und 256 GB/s sind, wie in diesem Beitrag oben beschrieben, leider einfach zu wenig. Wer warten kann, soll es bis mindestens dem 384-bit Chip "Medusa Point" tun. 128 GB RAM und 256 GB RAM kann man auch deutlich günstiger im z.B. B650 / B850 mid consumer AM5 Desktop Mainboard haben, dann natürlich nur dual-channel bzw. 128-bit und deswegen kann ein (RDNA 4 / RDNA 5 / UDNA) 384-bit oder 512-bit Chip, 8000+ MT/s, nicht schnell genug kommen.