Download 2007 - LRZ
Transcript
Teil II, Entwicklungen und Tätigkeiten im Bereich der Hochleistungssysteme 150 SGI stellt neben mehreren Kommandozeilen-Tools zur Handhabung des NUMA-Placement und zur Performance-Analyse auch ein graphisches Tool SpeedShop bereit, das in seiner Inkarnation unter Linux als quelloffene Version („OpenSpeedShop“) verfügbar ist. Jedoch ist die Portierung auf Linux noch unvollständig, insbesondere die MPI-Analyse ist noch nicht integriert. Für Fehlersuche in Programmen steht ein größeres Spektrum an Tools zur Verfügung: Etnus Totalview, gdb, der Intel Debugger, Allinea‟s DDT. Auf den 32-bit- sowie den EM64T/Opteron-Systemen gibt es außerdem das sehr nützliche Tool Valgrind, mit dem sich Profiling sehr elegant durchführen lässt sowie Speicherlecks in Programmen diagnostiziert und isoliert werden können. Neue Versionen von Intel-Compilern bzw. Bibliotheken erbrachten deutliche Qualitätsverbesserungen auf allen HPC Plattformen. Versionen 10.0 bzw. 10.1 der Fortran Compiler unterstützen jetzt die in Fortran 2003 definierte C-Interoperabilität. Alle Compiler auf Itanium-Basis verfügen über verbesserte Code-Generierung, was zu teilweise deutlicher Erhöhung der Rechenleistung führt. Version 10 der MKL enthält zusätzliche Funktionalität (insbesondere verbesserte FFTW-Unterstützung sowie ScaLAPACK) Version 3.0 der Intel MPI Bibliothek unterstützt erstmals vollständig den NUMAlink Interconnect auf dem HLRB-II. Version 7.1 der Intel Tracing Tools gestattet – in Zusammenarbeit mit den oben erwähnten Compiler-Releases – die automatische Verfolgung benutzereigener Unterprogramme. 6.1.2.6 Nutzungsaspekte Die Auslastung der verschiedenen Rechner-Pools des Linux-Clusters ist in der folgenden Abbildung dargestellt. Sie zeigt das seit Jahren gewohnte Bild: Das IA32-Cluster ist über das letzte Betriebsjahr zu nahezu 100% ausgelastet. Etwaige Leerstände erklären sich durch die Beschränkung auf max. 90 gleichzeitig laufende Stapelverarbeitungsprozesse pro Benutzer und die Tatsache, dass besonders langlaufende oder besonders Speicher-intensive Batch-Aufträge nur von insgesamt 10 Knoten akzeptiert werden. Im Bereich der IA 64 Itanium Systeme führt das Scheduling von parallelen Jobs unvermeidlich zu gewissen Leerständen. 100% Auslastung nach Cluster Pools 80% 60% IA 32 altix 64 bit (IA64, Opteron, EM64T) 40% 20% 0% Jan 07 Feb 07 Mrz 07 Apr 07 Mai 07 Jun 07 Jul 07 Aug 07 Sep 07 Okt 07 Nov 07 Dez 07 Abbildung 38 Auf die theoretisch möglichen Prozessor-Stunden pro Monat normierte Auslastung der verschiedenen Rechnerpools des Linux-Clusters Im Laufe der letzte Jahre konnte durch den Austausch Systemen und durch Neubeschaffungen eine leichte Steigerung der abgegebenen Rechenzeiten erreicht werden (s. Abbildung 39 und Abbildung 40). Die Wartezeiten im Cluster blieben jedoch noch sehr hoch, so dass erst mit der Inbetriebnahme der Cluster-