HTCondor: Unterschied zwischen den Versionen

Aus Physik
Zur Navigation springen Zur Suche springen
(erste Version einer Seite zu CONDOR)
 
Zeile 13: Zeile 13:
 
= Benutzung =
 
= Benutzung =
   
  +
Die wichtigsten Befehle sind:
  +
  +
* condor_status - Status der Rechner im Condor-Pool
  +
* condor_submit - Starten von Batchjobs
  +
* condor_q -global - Anzeige der laufenden bzw. wartenden Programme
  +
  +
Leider haben nicht alle Programme der Condor-Suite Manual Pages; aber alle reagieren auf die Option -h mit kurzer Hilfestellung. Sie finden die komplette Dokumentation [http://www.cs.wisc.edu/condor/manual/v6.6/ im Internet] - dort gibt es auch das empfehlenswerte Tutorial [http://www.cs.wisc.edu/~roy/effective_condor/ Using Condor Effectively].
  +
  +
Bitte beachten Sie unbedingt, daß das System nur für Aufgaben ab einer bestimmten Mindestlaufzeit von etwa 10 Minuten effizient arbeitet, weil ein nicht unbeträchtlicher Verwaltungsaufwand zum Starten der einzelnen Jobs anfällt und der File-Server bei kurzen Programmlaufzeiten wesentlich belastet wird.
   
 
== Efiziente Programme ==
 
== Efiziente Programme ==
Zeile 18: Zeile 27:
   
 
== Obskure Fehlermeldung: Shadow exception! ==
 
== Obskure Fehlermeldung: Shadow exception! ==
  +
  +
Manchmal tritt die Fehlermeldung
  +
  +
Shadow exception!
  +
Can no longer talk to condor_starter on execute machine (129.27.xx.xx)
  +
  +
auf. Weil diese Fehlermeldung häufig mit einem Programmabsturz einhergeht wird verschiedentlich ein falscher Zusammenhang hergestellt -- diese Fehlermeldung ist nicht die Ursache, sondern Folge eines Programmabsturzes: Wenn Jobs sehr kurze Laufzeiten haben, können nicht alle auf einem Rechner laufenden Condor-Prozesse die notwendigen Initialisierungen abschließen, bevor dieser Prozess schon beendet ist.
  +
  +
Ich kann mit einer Serie von Testprogrammen unterschiedlicher Länge dieses Fehlermeldung bei sehr kurzen Prozessen provozieren, trotzdem sind alle Ergebnisse der Testroutinen korrekt. Weitere Hinweise auf ähnliches Verhalten finden sie auch in der Email Liste [http://www.cs.wisc.edu/~lists/archive/condor-users/msg00007.html condor users].
   
   
 
== Fehlersuche ==
 
== Fehlersuche ==
  +
  +
Wenn Programme unter Condor abstürzen und keine korrekten oder vollständigen Ergebnisse produzieren, ist praktisch immer ihr Programm daran schuld. Bitte starten Sie ihre Programme dann auch direkt unter Verwendung exakt der selben Parameter und Eingabedaten; dazu kann es notwendig sein, auch den Seed der Zufallszahlengeneratoren einstellbar zu machen.

Version vom 1. Dezember 2006, 10:39 Uhr

Was ist Condor?

Condor ist ein verteiltes Batchsystem, das uns ermöglicht, die am Institut vorhandenen Computer-Resource soweit möglich zu nutzen. Condor unterstützt das High Throughput Computing (HTC), das im Gegensatz zum High Performance Computing (HPC) nicht auf möglichst kurze Antwortzeiten für Einzelaufgaben zielt, sondern die verfügbare Leistung fair und effizient auf alle Benutzer aufteilt.

Weitere Informationen finden Sie in einem älteren Artikel.

Lizenz

Bei der Benützung von Condor ist die CONDOR PUBLIC LICENSE zu beachten, für uns ist im wesentlichen Punkt 3 von Interesse:

Any academic report, publication, or other academic disclosure of results obtained with this Software will acknowledge this Software's use by an appropriate citation.

Benutzung

Die wichtigsten Befehle sind:

  • condor_status - Status der Rechner im Condor-Pool
  • condor_submit - Starten von Batchjobs
  • condor_q -global - Anzeige der laufenden bzw. wartenden Programme

Leider haben nicht alle Programme der Condor-Suite Manual Pages; aber alle reagieren auf die Option -h mit kurzer Hilfestellung. Sie finden die komplette Dokumentation im Internet - dort gibt es auch das empfehlenswerte Tutorial Using Condor Effectively.

Bitte beachten Sie unbedingt, daß das System nur für Aufgaben ab einer bestimmten Mindestlaufzeit von etwa 10 Minuten effizient arbeitet, weil ein nicht unbeträchtlicher Verwaltungsaufwand zum Starten der einzelnen Jobs anfällt und der File-Server bei kurzen Programmlaufzeiten wesentlich belastet wird.

Efiziente Programme

Obskure Fehlermeldung: Shadow exception!

Manchmal tritt die Fehlermeldung

   Shadow exception!
   Can no longer talk to condor_starter on execute machine (129.27.xx.xx) 

auf. Weil diese Fehlermeldung häufig mit einem Programmabsturz einhergeht wird verschiedentlich ein falscher Zusammenhang hergestellt -- diese Fehlermeldung ist nicht die Ursache, sondern Folge eines Programmabsturzes: Wenn Jobs sehr kurze Laufzeiten haben, können nicht alle auf einem Rechner laufenden Condor-Prozesse die notwendigen Initialisierungen abschließen, bevor dieser Prozess schon beendet ist.

Ich kann mit einer Serie von Testprogrammen unterschiedlicher Länge dieses Fehlermeldung bei sehr kurzen Prozessen provozieren, trotzdem sind alle Ergebnisse der Testroutinen korrekt. Weitere Hinweise auf ähnliches Verhalten finden sie auch in der Email Liste condor users.


Fehlersuche

Wenn Programme unter Condor abstürzen und keine korrekten oder vollständigen Ergebnisse produzieren, ist praktisch immer ihr Programm daran schuld. Bitte starten Sie ihre Programme dann auch direkt unter Verwendung exakt der selben Parameter und Eingabedaten; dazu kann es notwendig sein, auch den Seed der Zufallszahlengeneratoren einstellbar zu machen.