---+ Brevi istruzioni cluster tnt (nato nel 2020 con i fondi PRIN CO-NEST) ---+++ ACCESSO ssh -X utente@pgls_login.artov.rm.cnr.it ---+++ HOME DIRECTORY la home di ogni utente si trova in un grande disco esterno da 5Tb (totali); la home e' il luogo dove tenere i vostri dati (backup) e tutti gli script ed eseguibili che si vogliono conservare; la home NON e' il posto dove le simulazioni scrivono durante l'esecuzione ---+++ ESECUZIONE DI UN JOB i programmi vanno lanciati usando il sistema di code che si occupa di allocare ogni programma sul nodo piu' libero; si prega di non lanciare programmi direttamente da terminale perche' questi verrebbero eseguiti dal nodo di login che ha pochissime risorse; il modo per eseguire un job tramite sistema di code e' il seguente *1)* scrivere uno script di esecuzione, si consiglia di farlo in bash, chiamandolo (ad esempio) submit.sh; qui c'e' un esempio ------------------------------------------------------------------------------------------- #!/bin/bash #SBATCH --chdir=/mnt/ssd/puglisi/ #SBATCH --job-name=test #SBATCH --output=res.txt #SBATCH --ntasks=1 mkdir nuovadirectory cd nuovadirectory cp /home/nomeutente/eseguibili/eseguibile . srun ./eseguibile mv res.txt /home/puglisi/dovevoglio mv altririsultati.dat /home/puglisi/dovevoglio cd .. rmdir nuovadirectory --------------------------------------------------------------------------- *2)* eseguire lo script con il comando sbatch submit.sh *3)* controllare l'esecuzione del job con il comando squeue *MODIFICARE LO SCRIPT*: lo script di esempio si deve modificare in molte parti, la prima riga e' *obbligatoria* ma va personalizzata (al posto di puglisi dovete mettere il vostro username); il jobname e' a piacere; l'output e' solo il nome del file in cui viene scritto lo stdout (cioe' tutto quello che nei vostri codici esce da una printf a video, non su file); la riga con ntasks e' opzionale; le righe mkdir e cd vanno modificate con un nome di directory specifico (temporaneo) per quella simulazione (per evitare che diverse simulazioni scrivano sulle stesse directory); l'eseguibile ovviamente lo segliete voi; le righe finali ("mv ....") vanno personalizzate con molta attenzione: e' vostra cura spostare tutto quello che e' stato prodotto dalla simulazioni nella home, in una directory apposita (evitando di sovrascrivere altri dati); infine le ultime due righe servono per cancellare la directory temporanea dove ha girato la simulazione; facendo in questo modo tutto quel che non viene spostato (con i comandi "mv...") viene perso; ovviamente potete anche non mettere questi comandi alla fine, ma questo significa accumulare dati nei dischi dei nodi rischiando di finire lo spazio (nei nodi lo spazio e' molto minore) *ALTRA DOCUMENTAZIONE PER IL SISTEMA DI CODE*: il sistema di code si chiama "slurm" ed e' molto ben documentato (ed e' pieno di opzioni), si veda https://slurm.schedmd.com/documentation.html si puo' trovare anche un tutorial veloce e ben fatto qui: https://support.ceci-hpc.be/doc/_contents/QuickStart/SubmittingJobs/SlurmTutorial.html esiste anche una guida "tedesca" con una sintesi della documentazione e molti dettagli utili (ma e' piu' per amministratori che altro): https://wiki.fysik.dtu.dk/niflheim/Slurm_configuration *ACCEDERE AI FILE SUI NODI LOCALI*: durante l'esecuzione, ogni utente puo' vedere i file che vengono generati durante la simulazione controllando (tramite comando squeue) quale nodo N sta runnando il processo che vi interessa e poi andando su /mnt/ssd_nodeN/nomeutente -- %USERSIG{AndreaPuglisi - 2020-12-01}% ---++ Comments %COMMENT%
This topic: TNTgroup
>
WebHome
>
People
>
AndreaPuglisi
>
TntCluster
Topic revision: r1 - 2020-12-01 - AndreaPuglisi
Copyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback