Configuración estándar para nodos GRID
Una vez que se tenga instalado SLURM y HTCondor-ce, se requiere integrarlos y configurarlos.
Configuración
Método de autenticación
GridUNAM utilizará el método de autenticación por tokens, sin embargo, HTCondor-ce utiliza la autenticación por certificados de manera predeterminada, por lo que hay que indicarle el método de autenticación correcto.
Para ello, primero se deshabilita la autenticación por certificados, comentando todas las líneas de los siguientes archivos:
/etc/condor-ce/mapfiles.d/10-gsi.conf
/etc/condor-ce/mapfiles.d/50-gsi-callout.conf
Después, se crea el archivo /etc/condor-ce/config.d/10-gridunam.conf
con el siguiente contenido:
SEC_DEFAULT_AUTHENTICATION_METHODS = SCITOKENS
SEC_CLIENT_AUTHENTICATION_METHODS = SCITOKENS
SEC_CLIENT_AUTHENTICATION = REQUIRED
SEC_DEFAULT_AUTHENTICATION = REQUIRED
SCHEDD.SEC_READ_AUTHENTICATION_METHODS = $(SEC_DEFAULT_AUTHENTICATION_METHODS)
SCHEDD.SEC_WRITE_AUTHENTICATION_METHODS = $(SEC_DEFAULT_AUTHENTICATION_METHODS)
Se crea el archivo /etc/condor-ce/mapfiles.d/60-gridunam.conf
con un usuario genérico:
SCITOKENS /^https:\/\/grid.atmosfera.unam.mx\/,.*/ gridunam0001
Note
El archivo /etc/condor-ce/mapfiles.d/60-gridunam.conf
es donde se registran los usuarios junto con el UUID que tienen asignado en el sistema INDIGO.
Integración con SLURM
Para integrar HTCondor-ce con el calendarizador SLURM, se tienen que editar algunos archivos.
Primero se crea/edita el archivo /etc/condor-ce/config.d/02-ce-slurm.conf
con el contenido:
JOB_ROUTER_ENTRIES @=jre
[
GridResource = "batch slurm";
TargetUniverse = 9;
name = "Local_Slurm";
set_default_queue = "grid";
]
@jre
Note
En la línea set_default_queue =
se indica el nombre de la partición predeterminada que se tenga configurada en SLURM
También se deben cambiar los siguientes valores en el archivo /etc/blah.config
:
supported_lrms=slurm,condor
blah_delegate_renewed_proxies=no
Spool compartido por NFS
Para que los nodos de cálculo puedan escribir sus resultados, se debe compartir el directorio /var/lib/condor-ce/
del nodo submit a todos los nodos.
Primero se instalan las herramientas de NFS en todos los nodos:
# yum -y install nfs-utils
/etc/exports
:
/var/lib/condor-ce/ 192.168.0.0/16(rw,sync,async,no_subtree_check,no_root_squash)
Note
Cambiar la red 192.168.0.0/16 según corresponda.
Después de editar el archivo, se inicia el servicio nfs en el nodo submit:
# systemctl enable --now nfs
Con esto, se exporta el directorio spool vía NFS.
Para que los nodos monten el directorio, se utiliza el comando:
# mount -t nfs 192.168.1.1:/var/lib/condor-ce /var/lib/condor-ce
192.168.1.1
es la dirección local del nodo submit.
También agregamos al archivo /etc/fstab
el directorio para que lo monte al iniciar el sistema:
192.168.1.1:/var/lib/condor-ce/ /var/lib/condor-ce/ nfs defaults
192.168.1.1
es la dirección local del nodo submit.
Note
Es importante montar el directorio en todos los nodos menos el submit, para que todos tengan acceso al directorio SPOOL.
Reinicio del servicio condor-ce
Para finalizar la integración, se reinicia el servicio de condor-ce
# systemctl enable condor-ce
# systemctl restart condor-ce
Contribución
Autores de esta página:
Autores del sitio:
Última revisión de esta página: 2023-03-21
Créditos
Todos los derechos reservados © 2022 Universidad Nacional Autónoma de México.
Prohibida la reproducción parcial o total sin autorización expresa de la
Universidad Nacional Autónoma de México – UNAM.
Ciudad Universitaria, Ciudad de México. México.