KI mit Megawatt-Kühlung : Rittal entwickelte modulare Cooling Distribution Unit
Das Thema des OCP Global Summit 2024 lautete „From Ideas to Impact” und spiegelte das Engagement von OCP wider, theoretische Diskussionen in reale Lösungen umzuwandeln. Ein Beispiel ist generative KI. Wenngleich KI-Anwendungen revolutionäre Vorteile versprechen, stellt sich die Frage, ob die IT-Infrastruktur dafür bereit ist.
Die Leistungsdichte für Anwendungen wie das Training und der Betrieb von Large Language Models (LLMs) oder High-Performance-Computing bringt die heute übliche konventionelle Luftkühlung schnell an ihre physikalischen und wirtschaftlichen Grenzen. Daher steht ein radikaler Technologiewandel an, der das gesamte Rechenzentrum als System betreffen wird.
Modulare Cooling Distribution Unit
In enger Zusammenarbeit mit Hyperscalern und Server-OEMs entwickelte Rittal eine modulare Cooling Distribution Unit (CDU), die eine Kühlleistung von über 1 MW bieten soll. Wie das Unternehmen beschreibt, arbeitet die CDU mit direkter Flüssigkühlung auf Wasserbasis und ist damit ein Beispiel für neue IT-Infrastrukturtechnologien, die KI-Anwendungen erst ermöglichen.
„Um die Technologie in die Praxis umzusetzen, reicht es nicht aus, nur die Kühlleistung bereitzustellen und die Lösung in die Anlage zu integrieren – und selbst dabei gibt es noch offene Fragen", sagt Lars Platzhoff, Leiter der Business Unit Cooling Solutions bei Rittal.
„Trotz der neuen Technik müssen die Lösungen für Rechenzentrums-Teams im Rahmen des üblichen Services handhabbar sein. Im besten Fall sollte dies bereits in der Design-Phase berücksichtigt werden.“
OCP: Modell für nutzerzentriertes Design
Das soll mit Modularisierung und den Design-Vorteilen des Open Rack V3, dessen Entwicklung Rittal im Open Compute Project (OCP) vorangetrieben hat, funktionieren: Nach dem Vorbild der Stromversorgung wird der Server im Rack mit standardisierten Anschlüssen an die zentralen Zu- und Abläufe des Wasserkreislaufs gekoppelt. Funktionseinheiten wie die zentrale Controller Unit und mehrere Kühlmittel-Fördereinheiten (CCUs) je nach Leistungsanforderung sind vollständig modular und werden ins Rack geschoben.
Sie sollen hohe Verfügbarkeit durch n+1 redundante Auslegung garantieren. Das Monitoring von Leckagen setzt schon auf Komponenten-Ebene an. Beim Service bietet dieses Konzept laut Rittal einen wesentlichen Vorteil: Komponenten wie Controller, Sensoren, Filter oder die Pumpeneinheiten der In-Row-Lösung können im laufenden Betrieb gewartet und einfach per „Hot Swap“ getauscht werden. Die Stromversorgung erfolgt über die standardisierte DC Busbar im Rack. Der Aufbau ist so gestaltet, dass die Module ähnlich wie beim üblichen Umgang mit Servern bewegt werden können.
-
Die Ansätze der internationalen Hyperscaler werden nach ausgiebigen Tests mittelfristig wohl die Standards setzen. Aber so lange kann die agile Colocation-Branche nicht warten.
Lars Platzhoff, Leiter der Business Unit Cooling Solutions bei Rittal
Liquid-to-Air: Alternativen ohne Wasseranschluss
Die Liquid-to-Liquid-Lösung wird vor allem von Hyperscalern und anderen Betreibern großer Rechenzentren genutzt werden, ist sich Platzhoff sicher und erklärt: „Die Ansätze der internationalen Hyperscaler werden nach ausgiebigen Tests mittelfristig wohl die Standards setzen. Aber so lange kann die agile Colocation-Branche nicht warten."
Die meisten Colocator wollen ihren Kunden ebenfalls schnell gute Bedingungen für KI und HPC bieten und planen ebenso Rechenzentren mit Liquid-to-Liquid-Lösungen. Rittal möchte zudem Alternativen anbieten, die keinen Wasseranschluss benötigen. Die Liquid-to-Air-Versionen kühlen die Prozessoren mit Wasser, geben die Wärme aber über die Rücktür des Racks oder einen Seitenkühler an die Luft ab. Sie erreichen nicht die gleiche Kühlleistung und Effizienz wie Liquid-to-Liquid-Lösungen, können aber schneller in Rechenzentren ohne Wasseranschluss eingesetzt werden.
Damit solleen sie den Betreibern von Rechenzentren ermöglichen, eigene Tests mit weniger Aufwand und Investitionen durchzuführen oder individuelle 'HPC-Inseln' in luftgekühlten Rechenzentren für ihre Nutzer zu schaffen. „Diese Varianten haben damit eine Hebelwirkung und bringen die direkte Flüssigkühlung als Enabling-Technologie für KI ins Rechenzentrum“, betont Platzhoff.