Revisión de la Plataforma Grid UNAM:
comandos gu

Grid UNAM ha desarrollado una serie de comandos que facilitan consultar el estado de la plataforma, generar el Token de acceso, enviar trabajos, recuperar sus resultados y limpiar la "cola" de trabajos enviados. A estos comandos los llamaremos comandos "gu".

Haremos énfasis, en entender el estado de la plataforma y así decidir a cual de las entidades nos conviene enviar un trabajo. Usted puede enviar trabajos a todas las entidades de la plataforma. Adicionalmente, utilizaremos como ejemplo la información del "Taller Grid UNAM".

El envío de trabajos, obtención de resultados y consulta de las colas de trabajo lo puede consultar en el documento (ponerDocumento.md).

Requerimiento

  1. Tener acceso a un nodo submit

Acceso al nodo submit

ssh Cuenta-nodo-submit@Nodo-Submit
por ejemplo
ssh tgu40@jamatu.astrosen.unam.mx
tgu40@jamatu.astrosen.unam.mx's password: xxxxxx
[tgu40@jamatu ~]$ 

Activación de los comandos gu

Active los comandos gu mediante:

module load gridunam
para verificar que el módulo está activo simplemente teclee
gu_<TAB><TAB>

en donde <TAB><TAB> es teclear dos veces consecutivas el tabulador del teclado. Por ejemplo

[tgu40@jamatu ~]$ module load gridunam
[tgu40@jamatu ~]$ gu_
gu_activar_acceso_gridunam  gu_enviar_jobs              gu_ping_cluster
gu_consultar_jobs           gu_estado_cluster           gu_run_test_cluster
gu_crear_cuenta_oidc        gu_estado_del_agente        gu_show_cpus_all_cluster
gu_descargar_archivos       gu_generar_token            gu_show_cpus_cluster
gu_eliminar_mis_agentes     gu_mostrar_mis_agentes      

Activar el "Token"

Un "Token" es una cadena de caracteres cifrados que contienen información de los recursos a los cuales usted está autorizado, así como una sección de la llave que sirve como palabra de acceso para auteticarse. En Grid UNAM, la vigencia de un token es de 1 h.

Activar "Token" por primera vez

El proceso es el siguiente:

  1. Acceda con el navegador al "gestor de identidad digital" de Grid UNAM https://grid.atmosfera.unam.mx/, que llamaremos "INDIGO IAM" o simplemente "IAM".

  2. Acceda al sistema utitilizando su "Cuenta de usuario RIU" o bien "cuenta de Usuario Externo". Por ejemplo, si utilizamos la cuenta del Taller de Grid UNAM, que es una cuenta del tipo "Usuario Externo", entonces debemos llenar los campos de la forma que muestra la Figura 1. Seguido presione "Sign In".

Figura 1: Acceso a INDIGO IAM.

  1. Active su token utilizando
gu_activar_acceso_gridunam

En ese momento, la consola le indica lo siguiente, ver Figura 2:

Figura 2: Token en consola.

Figura 3: Llave del Token en IAM.

  • Acepte el "Token", vea Figura 4.

Figura 4: Autorice el Token.

  • Si todo está correcto, tanto el gestor de identidad digital de Grid UNAM, así como su consola le reportará que el proceso ha sido exitoso, vea las Figura 5 y 6 respectivamente.

Figura 5: Token aceptado en IAM.

Figura 6: Token aceptado en consola.

Activar "Token" preexistente

Para reactivar su "Token" utilice el comando siguiente:

gu_activar_acceso_gridunam

Ejemplo:

[tgu40@jamatu ~]$ gu_activar_acceso_gridunam
No exite un token
Se reuso el agente
success
Se genero uno nuevo

Note que se reutilizó la información del "Token" inicial y usted no necesitó introducir información adicional.

Falla del "Token"

Es poco probable que el "Token" inicial falle. No obstante, para este caso habrá que reiniciar el "Token" mediante el procedimiento siguiente:

  1. Borre los archivos temporales del directorio "/tmp" de los "Tokens" previos.
rm -rf /tmp/oid*

Ignore los mensajes de error. En los directorios "/tmp/oid*" están todos los archivos temporales de los "Tokens" de todos los usuarios, y el sistema le reporta que su cuenta no tiene provilegios para borrarlos. No se preocupe, usted solo borrará los "Tokens" que le pertencen. Ejemplo:

[tgu40@jamatu ~]$ rm -rf /tmp/oidc*
rm: cannot remove ‘/tmp/oidc-agent-service/14001/oidc-agent.pid’: Permission denied
rm: cannot remove ‘/tmp/oidc-agent-service/14001/oidc-agent.sock’: Permission denied
rm: cannot remove ‘/tmp/oidc-agent-service/14057/oidc-agent.pid’: Permission denied
rm: cannot remove ‘/tmp/oidc-agent-service/14057/oidc-agent.sock’: Permission denied
rm: cannot remove ‘/tmp/oidc-eS7eJN’: Operation not permitted
rm: cannot remove ‘/tmp/oidc-IhNzfC’: Operation not permitted
rm: cannot remove ‘/tmp/oidc-KLVwG1’: Operation not permitted
rm: cannot remove ‘/tmp/oidc-PLtkaA’: Operation not permitted
  1. Borre los archivos de configuracion de "Tokens" de su cuenta mediante el comando siguiente:
rm -rfv $HOME/.config/oidc-agent

Ejemplo:

[tgu40@jamatu ~]$ rm -rfv  $HOME/.config/oidc-agent 
removed ‘/home_local/tgu40/.config/oidc-agent/issuer.config’
removed ‘/home_local/tgu40/.config/oidc-agent/gridunam’
removed directory: ‘/home_local/tgu40/.config/oidc-agent’
[tgu40@jamatu ~]$ 
  1. Inicialice su token. Vea la sección _Activar "Token" por primera vez.

  2. Si el problema persiste, solicite ayuda a la mesa de ayuda e indique que realizó la "reinicialización del token de acceso".

Revisión de la infraestructura de procesamiento disponible en Grid UNAM

Grid UNAM cuenta actualmente con cuatro entidades que comparten recursos de procesamiento, en particular nos referimos a los núcleos de procesamiento y memoria RAM. Actualmente, estas entidades son: 1) la Dirección de General de Cómputo y de Tecnologías de Información y Comunicación (DGTIC), 2) el Laboratorio de Modelado de Datos (LAMOD) compuesto por el Instituto de Ciencias Nucleares (ICN), el Instituto de Astronomía (IA) y el Instituto de Química (ICQ), 3) el Instituto de Ciencias de la Atmósfera y Cambio Climático (ICAyCC) y el Instituto de Astronomía con sede en Ensenada (IAE). En cada un de ellos existe un nodo de envío. En la Tabla 1 se presenta los nombres del nodo de envío y el descriptor usado por los comandos gu, de estas 4 entidades.

Entidad Nodo Submit Identificador-cluster (gu)
DGTIC submit.grid.unam.mx $dgtic
LAMOD (ICN, IA, ICQ) condor-grid.lamod.unam.mx $vlamod
ICAyCC jupyter2.grid.unam.mx $icaycc
IAE jamatu.astrosen.unam.mx $astrosen

Tabla 1: Nodos de envío y su identificador en los comandos gu

El número de núcleos disponibles y la cantidad de memoria RAM en la plataforma Grid UNAM, puede variar en distintos momentos, es dinámica. Esto se debe a varios factores, dentro de los cuales podemos citar a:

  • Mantemientos preventivos y correctivos del hardaware de los nodos de procesamiento.
  • Actualización de software.
  • Inclusión de nuevos nodos de procesamiento.
  • Pruebas e inclusión de nuevas técnicas que mejoren el rendimiento de Grid UNAM. Grid UNAM es una plataforma heterogenea en desrrollo contínuo.
  • Problemas mediambientales.

Es por ello, que es ampliamente recomendable revisar el estado de la infraestructura antes de enviar un lote de trabajos. Con esta información se puede decidir cual o cuales serán las entidades que mejor se adapten a su problema.

Son dos los comandos gu que se pueden utilizar y reportan la misma información, estos son:

gu_show_all_cpus_all_cluster
que muestra el estado de todos las entidades de procesamiento. El segundo comando es:
gu_show_cpus_cluster ID

en donde ID es la cadena de caracteres descrita en la columna "Identificador-cluster (gu)" de la Tabla 1. El comando muestra únicamente la información de la entidad ID.

La información mas relevante que se muestra es:

Consultado Nombre del nodo submit (vea Tabla 1)
N cores CPU disponible de M totales Información de los núcleos disponibles en la entidad
Columna Comentario
PARTITION Nombre de partición del sistema de colas
AVAIL Estado de operación del nodo
CPUS Número de núcleos del nodo
HOSTNAMES Nombre del nodo
CPU_LOAD Porcentaje de carga del nodo
STATE Estado de operación del sistema de colas
CPU (A/I/0/T) Número de núcleos. A=ocupados; I=disponibles; O=no-operables; T=totales
TIMELIMIT Tiempo máximo de ejecución. Cada trabajo en Grid UNAM tiene un tiempo máximo de 3 días
SOKETS Número de zocalos del nodo
CORES Número núcleos por zócalo
THREADS Número de hebras por núcleo


Ejemplo:

[tgu40@jamatu ~]$ gu_show_all_cpus_all_cluster

El resultado del comando se muestra en la Figura 7. En este momento, la plataforma Grid UNAM cuenta con 1536 nodos de procesamiento, un total de ~4.7 TB de memoria RAM y 18 nodos de procesamiento, distribuido en las 4 entidades. Del total de núcleos de la plataforma, están disponibles 1,114.

En el caso de la entidad DGTIC, cuyo nodo de envío es submit.grid.unam.mx, aporta a Grid UNAM 6 nodos de procesamiento. De los 192 núcleos están disponibles 162. El nodo "n2" está parcialmente ocupado con 30 núcleos trabajando y 2 núcleos disponibles. Los restantes 5 nodos están disponibles.

En el caso de la entidad IAE, cuyo nodo de envío es jamatu.astrosen.unam.mx, aporta a Grid UNAM 5 nodos de procesamiento. De los 512 núcleos están disponibles 448. En particular, en el nodo "geminis-w02" está bloqueada su cola de trabajo. El motivo es que este nodo se está utilizando para instalar el sistema operativo a RedHat Like 9 y su cúmulo de paquetes. Si usted desea utilizar a la entidad IAE, podría enviar un correo a soportegrid@unam.mx para que se le proporcione más información. Los 4 nodos restantes están disponibles.

En el caso de la entidad ICAyCC, cuyo nodo de envío es jupyter2.atmosfera.unam.mx, aporta a Grid UNAM 4 nodos de procesamiento. De los 96 núcleos están disponibles 24. En particular los nodos "node1" y "node_2" tienen bloqueada su cola de trabajo. El motivo es que están en mantenimiento. De la misma forma, usted puede enviar un correo a soportegrid@unam.mx para más información. En el nodo "node4" los 24 núcleos están trabajando. El nodo "node3" está disponible.

En el caso de la entidad LAMOD (ICN, IA, ICQ), cuyo nodo de envío es condor-grid.lamod.unam.mx, aporta a Grid UNAM 3 nodos de proceamiento. De los 736 núcleos están disponibles 480. Cabe hacer mención, que en esta entidad la infraestructura está basada en sistema operativo RedHat Like 9. En particular, en el nodo "atocatl-23" la cola de trabajo no está operando. De la misma forma, usted puede enviar un correo a soportegrid@unam.mx para más información. Los 2 nodos restantes están disponibles.

Figura 7: Infraestructura Grid UNAM

Finalmente, este comando pone de manifiesto la naturaleza heterogénea y dinámica de la plataforma Grid. En donde usted puede utilizar a toda la infraestructura para ejecutuar su aplicación.