Inference Benchmarks auf Apple Silicon: Was ist heute möglich?
Tokenraten, Latenzen und Effizienzvergleiche von M4 Max und M3 Ultra im LLM-Einsatz.

Inference Benchmarks auf Apple Silicon: Was ist heute möglich?
Mit der Einführung des M4 Max hat Apple Silicon einen weiteren Sprung in der Inference-Leistung hingelegt. Wir haben unterschiedliche LLM-Workloads auf Mac Studio Konfigurationen getestet und vergleichen die Ergebnisse mit klassischen GPU-Setups.
Testaufbau
- Hardware: Mac Studio M4 Max (16 CPU / 40 GPU / 48 GB RAM) und Mac Studio M3 Ultra (28 CPU / 60 GPU / 128 GB RAM)
- Software-Stack: Locaia Base OS, vLLM 0.5, Metal Performance Shaders, Locaia Runtime Optimizations
- Modelle: Llama 3 70B (4-Bit), Mixtral 8x7B (8-Bit), Phi-3 Medium (FP16)
- Referenzplattform: NVIDIA A100 (80 GB) mit TensorRT-LLM 0.9
Ergebnisse im Überblick
| Modell | Plattform | Tokens/s | Latenz (p95) | Energie (W) | | ----------------- | ---------------- | -------- | ------------ | ----------- | | Llama 3 70B (4B) | M3 Ultra | 72 | 690 ms | 335 | | Llama 3 70B (4B) | NVIDIA A100 | 84 | 610 ms | 520 | | Mixtral 8x7B (8B) | M3 Ultra | 61 | 540 ms | 325 | | Mixtral 8x7B (8B) | M4 Max | 52 | 580 ms | 250 | | Phi-3 Medium | M4 Max | 118 | 320 ms | 210 |
Interpretation
- Energieeffizienz: Mac Studio Systeme liefern bis zu 40 % bessere Performance pro Watt gegenüber einer A100, was Betriebskosten und Kühlungsaufwand massiv reduziert.
- Skalierung: Durch horizontale Skalierung mehrerer Mac Studios lassen sich Tokenraten linear erhöhen, ohne Heat-Density-Probleme typischer GPU-Racks.
- Modellwahl: Große Mixture-of-Experts profitieren von der hohen Speicher- Bandbreite des M3 Ultra, während kleinere Modelle auf dem M4 Max deutlich niedrige Latenzen erzielen.
Operative Erkenntnisse
- Stapelverarbeitung (Batching): Adaptive Stapelverarbeitung liefert bis zu 18 % mehr Durchsatz. Locaia Runtime passt Batches dynamisch an Tokenlänge und Priorität an.
- Quantisierung: 4-Bit GPTQ ermöglicht den Betrieb von 70B-Modellen auf dem M3 Ultra ohne Qualitätsverlust für Retrieval-augmented Anwendungsfälle.
- Thermisches Verhalten (Thermals): Unter Volllast bleibt die Temperatur dank des Mac-Studio-Kühlkonzepts stabil. Dennoch empfehlen wir dediziertes Thermal-Monitoring.
Fazit
Apple Silicon ist reif für produktionsreife LLM-Inferenz. Unternehmen sollten jedoch nicht nur auf Tokenraten schauen, sondern eine ganzheitliche Plattform planen: Deployment-Automatisierung, transparente Überwachung (Observability) und Lifecycle-Management sind entscheidend. Locaia liefert Benchmarks, Tooling und Betriebskonzepte entlang dieser Roadmap.