1362 / 1667

AWS bringt Disaggregated Inference mit llm-d auf SageMaker HyperPod

TL;DR

AWS stellt disaggregiertes Inference auf Amazon SageMaker HyperPod EKS vor, basierend auf dem Open-Source-Projekt llm-d. Prefill- und Decode-Phasen werden auf separate Ressourcen aufgeteilt, was GPU-Auslastung und Durchsatz deutlich verbessert. Intelligentes Request-Scheduling verteilt Anfragen dynamisch je nach Auslastung der einzelnen Komponenten. Expert Parallelism ermöglicht effizientere Nutzung von MoE-Modellen (Mixture-of-Experts) über mehrere Nodes hinweg.

Nauti's Take

Disaggregiertes Inference ist kein Marketing-Begriff, sondern eine echte Architekturänderung, die in der Forschung schon länger diskutiert wird – AWS bringt sie jetzt in ein verwaltetes Produkt. Positiv: Der Ansatz ist nachvollziehbar, llm-d ist Open Source, und die Kubernetes-Integration macht das Ganze portabler als ein reiner AWS-Lock-in.

Kritisch bleibt, dass SageMaker HyperPod EKS kein günstiges Spielfeld ist – wer das wirklich nutzt, betreibt bereits Inference im Enterprise-Maßstab. Für kleinere Teams bleibt das erstmal Theorie, aber die Konzepte werden sich in günstigere Setups durcharbeiten.

Einordnunganzeigen

Klassische LLM-Inference behandelt Prefill und Decode als einen monolithischen Block – das verschwendet GPU-Kapazität, weil beide Phasen sehr unterschiedliche Anforderungen haben. Disaggregiertes Serving löst das strukturell: Ressourcen lassen sich gezielt für die jeweilige Phase skalieren. Für Betreiber großer Modelle wie Llama oder Mixtral bedeutet das messbar niedrigere Latenz bei gleichem Hardware-Budget.

llm-d als Open-Source-Basis senkt zudem die Einstiegshürde für eigene Implementierungen außerhalb von AWS.

Quellen