YT/Just Josh hat eine AI/LLM gebenchmarkt: youtu.be/oyrAur5yYrA?t=743 ("ZBook Ultra G1a: Finally, Strix Halo in a Laptop"):
17,2 Token pro Sekunde mit Qwen2.5-14B Q4_K_M (8,99 GB).
Wie im vorherigen Beitrag von mir geschrieben:
Wenn 121 GB/s stimmt: 121GB/s / 8,99GB = 13,5 Token pro Sekunde.
Wenn 179 GB/s stimmt: 179GB/s / 8,99GB = 19,9 Token pro Sekunde.
Damit wäre die gemessenen 121 GB/s zum Glück falsch: 8,99 GB * 17,2 [Token pro Sekunde = GB/s] = 154,6 GB/s.
Zum Vergleich (YT/"I tried to run a 70B LLM on a MacBook Pro .."), ein M4 Pro (256-bit, LPDDR5X-8533, 273 GB/s) kommt auf 18,79 Token pro Sekunde (youtu.be/5bNDx5XBlLY?t=157) mit der gleichen 8,99 GB LLM. (theoretisch geschätzt wären es übrigens: 273GB/s*0,7/8,99GB = 21,25 Token pro Sekunde, also passt ca.)
-> AMD Strix Halo (256-bit, LPDDR5X-8000, = 256GB/s) vs M4 Pro (256-bit, LPDDR5X-8533, = 273GB/s): 17,2 t/s vs 18,79 t/s. Also, passt und die gemessenen 121 GB/s sind zum Glück falsch.
Im vid wird noch erwähnt, dass sich die im BIOS eingestellten 96 GB RAM nicht von der Software nutzen lassen.