Configuración estándar para nodos GRID

Una vez que se tenga instalado SLURM y HTCondor-ce, se requiere integrarlos y configurarlos.

Configuración

Método de autenticación

GridUNAM utilizará el método de autenticación por tokens, sin embargo, HTCondor-ce utiliza la autenticación por certificados de manera predeterminada, por lo que hay que indicarle el método de autenticación correcto.

Para ello, primero se deshabilita la autenticación por certificados, comentando todas las líneas de los siguientes archivos:

  • /etc/condor-ce/mapfiles.d/10-gsi.conf
  • /etc/condor-ce/mapfiles.d/50-gsi-callout.conf

Después, se crea el archivo /etc/condor-ce/config.d/10-gridunam.conf con el siguiente contenido:

SEC_DEFAULT_AUTHENTICATION_METHODS = SCITOKENS
SEC_CLIENT_AUTHENTICATION_METHODS = SCITOKENS
SEC_CLIENT_AUTHENTICATION = REQUIRED
SEC_DEFAULT_AUTHENTICATION = REQUIRED
SCHEDD.SEC_READ_AUTHENTICATION_METHODS = $(SEC_DEFAULT_AUTHENTICATION_METHODS)
SCHEDD.SEC_WRITE_AUTHENTICATION_METHODS = $(SEC_DEFAULT_AUTHENTICATION_METHODS)
Por último se necesita el archivo donde se indican las cuentas de usuario a las que estarán redirigidas las cuentas de INDIGO.

Se crea el archivo /etc/condor-ce/mapfiles.d/60-gridunam.conf con un usuario genérico:

SCITOKENS /^https:\/\/grid.atmosfera.unam.mx\/,.*/ gridunam0001

Note

El archivo /etc/condor-ce/mapfiles.d/60-gridunam.conf es donde se registran los usuarios junto con el UUID que tienen asignado en el sistema INDIGO.

Integración con SLURM

Para integrar HTCondor-ce con el calendarizador SLURM, se tienen que editar algunos archivos.

Primero se crea/edita el archivo /etc/condor-ce/config.d/02-ce-slurm.conf con el contenido:

JOB_ROUTER_ENTRIES @=jre
[
GridResource = "batch slurm";
TargetUniverse = 9;
name = "Local_Slurm";
set_default_queue = "grid";
]
@jre

Note

En la línea set_default_queue = se indica el nombre de la partición predeterminada que se tenga configurada en SLURM

También se deben cambiar los siguientes valores en el archivo /etc/blah.config:

supported_lrms=slurm,condor
blah_delegate_renewed_proxies=no

Spool compartido por NFS

Para que los nodos de cálculo puedan escribir sus resultados, se debe compartir el directorio /var/lib/condor-ce/ del nodo submit a todos los nodos.

Primero se instalan las herramientas de NFS en todos los nodos:

# yum -y install nfs-utils
En el nodo submit se crea la definición del directorio a exportar en el archivo /etc/exports:
/var/lib/condor-ce/ 192.168.0.0/16(rw,sync,async,no_subtree_check,no_root_squash)

Note

Cambiar la red 192.168.0.0/16 según corresponda.

Después de editar el archivo, se inicia el servicio nfs en el nodo submit:

# systemctl enable --now nfs

Con esto, se exporta el directorio spool vía NFS.

Para que los nodos monten el directorio, se utiliza el comando:

# mount -t nfs 192.168.1.1:/var/lib/condor-ce /var/lib/condor-ce
Donde 192.168.1.1 es la dirección local del nodo submit.

También agregamos al archivo /etc/fstab el directorio para que lo monte al iniciar el sistema:

192.168.1.1:/var/lib/condor-ce/        /var/lib/condor-ce/     nfs     defaults
Donde 192.168.1.1 es la dirección local del nodo submit.

Note

Es importante montar el directorio en todos los nodos menos el submit, para que todos tengan acceso al directorio SPOOL.

Reinicio del servicio condor-ce

Para finalizar la integración, se reinicia el servicio de condor-ce

# systemctl enable condor-ce
# systemctl restart condor-ce

Contribución


Autores de esta página: Eduardo Iván Ortega Alarcón

Autores del sitio:

Última revisión de esta página: 2023-03-21

Créditos


Todos los derechos reservados © 2022 Universidad Nacional Autónoma de México.
Prohibida la reproducción parcial o total sin autorización expresa de la
Universidad Nacional Autónoma de México – UNAM.
Ciudad Universitaria, Ciudad de México. México.