Download 2007 - LRZ

Transcript
Teil II, Entwicklungen und Tätigkeiten im Bereich der Hochleistungssysteme
150
SGI stellt neben mehreren Kommandozeilen-Tools zur Handhabung des NUMA-Placement und zur Performance-Analyse auch ein graphisches Tool SpeedShop bereit, das in seiner Inkarnation unter Linux als
quelloffene Version („OpenSpeedShop“) verfügbar ist. Jedoch ist die Portierung auf Linux noch unvollständig, insbesondere die MPI-Analyse ist noch nicht integriert.
Für Fehlersuche in Programmen steht ein größeres Spektrum an Tools zur Verfügung: Etnus Totalview,
gdb, der Intel Debugger, Allinea‟s DDT. Auf den 32-bit- sowie den EM64T/Opteron-Systemen gibt es
außerdem das sehr nützliche Tool Valgrind, mit dem sich Profiling sehr elegant durchführen lässt sowie
Speicherlecks in Programmen diagnostiziert und isoliert werden können.
Neue Versionen von Intel-Compilern bzw. Bibliotheken erbrachten deutliche Qualitätsverbesserungen auf
allen HPC Plattformen.
 Versionen 10.0 bzw. 10.1 der Fortran Compiler unterstützen jetzt die in Fortran 2003 definierte
C-Interoperabilität.
 Alle Compiler auf Itanium-Basis verfügen über verbesserte Code-Generierung, was zu teilweise
deutlicher Erhöhung der Rechenleistung führt. Version 10 der MKL enthält zusätzliche Funktionalität (insbesondere verbesserte FFTW-Unterstützung sowie ScaLAPACK)
 Version 3.0 der Intel MPI Bibliothek unterstützt erstmals vollständig den NUMAlink Interconnect auf dem HLRB-II.
 Version 7.1 der Intel Tracing Tools gestattet – in Zusammenarbeit mit den oben erwähnten Compiler-Releases – die automatische Verfolgung benutzereigener Unterprogramme.
6.1.2.6
Nutzungsaspekte
Die Auslastung der verschiedenen Rechner-Pools des Linux-Clusters ist in der folgenden Abbildung dargestellt. Sie zeigt das seit Jahren gewohnte Bild: Das IA32-Cluster ist über das letzte Betriebsjahr zu nahezu 100% ausgelastet. Etwaige Leerstände erklären sich durch die Beschränkung auf max. 90 gleichzeitig laufende Stapelverarbeitungsprozesse pro Benutzer und die Tatsache, dass besonders langlaufende
oder besonders Speicher-intensive Batch-Aufträge nur von insgesamt 10 Knoten akzeptiert werden. Im
Bereich der IA 64 Itanium Systeme führt das Scheduling von parallelen Jobs unvermeidlich zu gewissen
Leerständen.
100%
Auslastung nach Cluster Pools
80%
60%
IA 32
altix
64 bit (IA64, Opteron, EM64T)
40%
20%
0%
Jan 07
Feb 07 Mrz 07
Apr 07
Mai 07
Jun 07
Jul 07
Aug 07
Sep 07
Okt 07 Nov 07 Dez 07
Abbildung 38 Auf die theoretisch möglichen Prozessor-Stunden pro Monat normierte Auslastung der
verschiedenen Rechnerpools des Linux-Clusters
Im Laufe der letzte Jahre konnte durch den Austausch Systemen und durch Neubeschaffungen eine leichte Steigerung der abgegebenen Rechenzeiten erreicht werden (s. Abbildung 39 und Abbildung 40). Die
Wartezeiten im Cluster blieben jedoch noch sehr hoch, so dass erst mit der Inbetriebnahme der Cluster-