(wie auch auf .net geschrieben)
Seltsam, schrieben ist fast doppelt so schnell wie lesen:
QuoteAIDA64 / Memory Write: 212172 MB/s
AIDA64 / Memory Read: 121177 MB/s
Strix Halo ist ein 256-bit Chip mit LPDDR5X-8000 (ob quad- oder dual-channel ist egal, wenn 64-bit single-channel sind, dann wäre es quad-channel; die dual-channel in eurer Beschreibung sind eh falsch), damit ist die theoretische Bandbreite: 8000MT/s*(256-bit/8)/1000 = 256 GB/s und die praktische bzw. die, die gemessen werden sollte, ca. 70-80% davon, also 256 GB/s * 0.7 = 179 GB/s. Gemessen wurden aber nur 121 GB/s.
-> Warum wurde keine LLM, wie z.B. die Llama-3.3-70B-Instruct-Q8_0.gguf (74.98 GB) (oder Q6_K (57.89 GB), falls man den Rest an freiem RAM für einen größeren Kontext nutzen möchte) gemessen, um zu sehen, wie schnell (Token pro Sekunde) es läuft? Würde das die 121 GB/s bestätigen? Und wenn ja, dann wäre Strix Halo ein großer Fail.
Ausrechnen kann man die theoretischen Token pro Sekunde (funktioniert für "dichte" Modelle wie Llama-3, nicht für MOE (mixture of experts)):
Wenn 179 GB/s:
Bandbreite / Dateigröße
= 179 GB/s / 74,98 GB
= 2,39 tokens/s
Wenn 121 GB/s:
= 121 GB/s / 74,98 GB
= 1,6 tokens/s
Die 128 GB RAM, von denen sich 96 GB nutzen lassen, sind doch gerade für eine LLM gemacht. Selbst AMD macht mit Strix Halo Werbung dafür, dass es große LLMs (also (deutlich) größer als eine GPU an VRAM hat) schneller ausführt als eine 4090 (24 GB, 1 TB/s) oder als eine 5090 (32 GB, 1.8 TB/s), wenn die LLM komplett in den RAM passt und nicht ausgelagert werden muss.