Quote from: Groove on Yesterday at 20:08:13Bei der Inferenz haben Tensor Cores und der ganze Nvidia Bling Bling so gut wie keinen Nutzen, da zählt nur möglichst viel Speicherbandbreite und möglichst viel Speicher.
Falsch - es hängt, wie ich es schon oft erklärt habe, von der KI-Anwendung ab. Die von mir genutzte KI (kein LLM) im Inferenzing läuft seit Jahren super auf allen Kernen via CUDA, CuDNN und TensorRT kombiniert. Speicherbandbreite und VRAM (1GB habe ich mit der KI noch nie erreicht) sind dabei belanglos. (Aber 64GB RAM habe ich gefüllt nach 2 1/2h Berechnung.) Nur mit OpenCL ist Inferenzing nur 1/3 so schnell. Das "ganze Nvidia Bling Bling" macht den Unterschied des Geschwindigkeitfaktors 3!