Grid UNAM ha desarrollado una serie de comandos que facilitan consultar el estado de la plataforma, generar el Token de acceso, enviar trabajos, recuperar sus resultados y limpiar la "cola" de trabajos enviados. A estos comandos los llamaremos comandos "gu".
Haremos énfasis, en entender el estado de la plataforma y así decidir a cual de las entidades nos conviene enviar un trabajo. Usted puede enviar trabajos a todas las entidades de la plataforma. Adicionalmente, utilizaremos como ejemplo la información del "Taller Grid UNAM".
El envío de trabajos, obtención de resultados y consulta de las colas de trabajo lo puede consultar en el documento (ponerDocumento.md).
Requerimiento
- Tener acceso a un nodo submit
Acceso al nodo submit
ssh Cuenta-nodo-submit@Nodo-Submit
ssh tgu40@jamatu.astrosen.unam.mx
tgu40@jamatu.astrosen.unam.mx's password: xxxxxx
[tgu40@jamatu ~]$
Activación de los comandos gu
Active los comandos gu mediante:
module load gridunam
gu_<TAB><TAB>
en donde <TAB><TAB>
es teclear dos veces consecutivas el tabulador
del teclado. Por ejemplo
[tgu40@jamatu ~]$ module load gridunam
[tgu40@jamatu ~]$ gu_
gu_activar_acceso_gridunam gu_enviar_jobs gu_ping_cluster
gu_consultar_jobs gu_estado_cluster gu_run_test_cluster
gu_crear_cuenta_oidc gu_estado_del_agente gu_show_cpus_all_cluster
gu_descargar_archivos gu_generar_token gu_show_cpus_cluster
gu_eliminar_mis_agentes gu_mostrar_mis_agentes
Activar el "Token"
Un "Token" es una cadena de caracteres cifrados que contienen información de los recursos a los cuales usted está autorizado, así como una sección de la llave que sirve como palabra de acceso para auteticarse. En Grid UNAM, la vigencia de un token es de 1 h.
Activar "Token" por primera vez
El proceso es el siguiente:
-
Acceda con el navegador al "gestor de identidad digital" de Grid UNAM https://grid.atmosfera.unam.mx/, que llamaremos "INDIGO IAM" o simplemente "IAM".
-
Acceda al sistema utitilizando su "Cuenta de usuario RIU" o bien "cuenta de Usuario Externo". Por ejemplo, si utilizamos la cuenta del Taller de Grid UNAM, que es una cuenta del tipo "Usuario Externo", entonces debemos llenar los campos de la forma que muestra la Figura 1. Seguido presione "Sign In".
Figura 1: Acceso a INDIGO IAM.
- Active su token utilizando
gu_activar_acceso_gridunam
En ese momento, la consola le indica lo siguiente, ver Figura 2:
Figura 2: Token en consola.
-
Debe acceder al IAM de Grid UNAM "https://grid.atmosfera.unam.mx/device".
-
Debe introducir el código: XXXXX. Que en nuestro caso de ejemplo será "WTYLWZ", vea la Figura 3.
Figura 3: Llave del Token en IAM.
- Acepte el "Token", vea Figura 4.
Figura 4: Autorice el Token.
- Si todo está correcto, tanto el gestor de identidad digital de Grid UNAM, así como su consola le
reportará que el proceso ha sido exitoso, vea las Figura 5 y 6 respectivamente.
Figura 5: Token aceptado en IAM.
Figura 6: Token aceptado en consola.
Activar "Token" preexistente
Para reactivar su "Token" utilice el comando siguiente:
gu_activar_acceso_gridunam
Ejemplo:
[tgu40@jamatu ~]$ gu_activar_acceso_gridunam
No exite un token
Se reuso el agente
success
Se genero uno nuevo
Note que se reutilizó la información del "Token" inicial y usted no necesitó introducir información adicional.
Falla del "Token"
Es poco probable que el "Token" inicial falle. No obstante, para este caso habrá que reiniciar el "Token" mediante el procedimiento siguiente:
- Borre los archivos temporales del directorio "/tmp" de los "Tokens" previos.
rm -rf /tmp/oid*
Ignore los mensajes de error. En los directorios "/tmp/oid*" están todos los archivos temporales de los "Tokens" de todos los usuarios, y el sistema le reporta que su cuenta no tiene provilegios para borrarlos. No se preocupe, usted solo borrará los "Tokens" que le pertencen. Ejemplo:
[tgu40@jamatu ~]$ rm -rf /tmp/oidc*
rm: cannot remove ‘/tmp/oidc-agent-service/14001/oidc-agent.pid’: Permission denied
rm: cannot remove ‘/tmp/oidc-agent-service/14001/oidc-agent.sock’: Permission denied
rm: cannot remove ‘/tmp/oidc-agent-service/14057/oidc-agent.pid’: Permission denied
rm: cannot remove ‘/tmp/oidc-agent-service/14057/oidc-agent.sock’: Permission denied
rm: cannot remove ‘/tmp/oidc-eS7eJN’: Operation not permitted
rm: cannot remove ‘/tmp/oidc-IhNzfC’: Operation not permitted
rm: cannot remove ‘/tmp/oidc-KLVwG1’: Operation not permitted
rm: cannot remove ‘/tmp/oidc-PLtkaA’: Operation not permitted
- Borre los archivos de configuracion de "Tokens" de su cuenta mediante el comando siguiente:
rm -rfv $HOME/.config/oidc-agent
Ejemplo:
[tgu40@jamatu ~]$ rm -rfv $HOME/.config/oidc-agent
removed ‘/home_local/tgu40/.config/oidc-agent/issuer.config’
removed ‘/home_local/tgu40/.config/oidc-agent/gridunam’
removed directory: ‘/home_local/tgu40/.config/oidc-agent’
[tgu40@jamatu ~]$
-
Inicialice su token. Vea la sección _Activar "Token" por primera vez.
-
Si el problema persiste, solicite ayuda a la mesa de ayuda e indique que realizó la "reinicialización del token de acceso".
Revisión de la infraestructura de procesamiento disponible en Grid UNAM
Grid UNAM cuenta actualmente con cuatro entidades que comparten recursos de procesamiento, en particular nos referimos a los núcleos de procesamiento y memoria RAM. Actualmente, estas entidades son: 1) la Dirección de General de Cómputo y de Tecnologías de Información y Comunicación (DGTIC), 2) el Laboratorio de Modelado de Datos (LAMOD) compuesto por el Instituto de Ciencias Nucleares (ICN), el Instituto de Astronomía (IA) y el Instituto de Química (ICQ), 3) el Instituto de Ciencias de la Atmósfera y Cambio Climático (ICAyCC) y el Instituto de Astronomía con sede en Ensenada (IAE). En cada un de ellos existe un nodo de envío. En la Tabla 1 se presenta los nombres del nodo de envío y el descriptor usado por los comandos gu, de estas 4 entidades.
Entidad | Nodo Submit | Identificador-cluster (gu) |
---|---|---|
DGTIC | submit.grid.unam.mx | $dgtic |
LAMOD (ICN, IA, ICQ) | condor-grid.lamod.unam.mx | $vlamod |
ICAyCC | jupyter2.grid.unam.mx | $icaycc |
IAE | jamatu.astrosen.unam.mx | $astrosen |
Tabla 1: Nodos de envío y su identificador en los comandos gu
El número de núcleos disponibles y la cantidad de memoria RAM en la plataforma Grid UNAM, puede variar en distintos momentos, es dinámica. Esto se debe a varios factores, dentro de los cuales podemos citar a:
- Mantemientos preventivos y correctivos del hardaware de los nodos de procesamiento.
- Actualización de software.
- Inclusión de nuevos nodos de procesamiento.
- Pruebas e inclusión de nuevas técnicas que mejoren el rendimiento de Grid UNAM. Grid UNAM es una plataforma heterogenea en desrrollo contínuo.
- Problemas mediambientales.
Es por ello, que es ampliamente recomendable revisar el estado de la infraestructura antes de enviar un lote de trabajos. Con esta información se puede decidir cual o cuales serán las entidades que mejor se adapten a su problema.
Son dos los comandos gu que se pueden utilizar y reportan la misma información, estos son:
gu_show_all_cpus_all_cluster
gu_show_cpus_cluster ID
en donde ID es la cadena de caracteres descrita en la columna "Identificador-cluster (gu)" de la Tabla 1. El comando muestra únicamente la información de la entidad ID.
La información mas relevante que se muestra es:
Consultado | Nombre del nodo submit (vea Tabla 1) |
---|---|
N cores CPU disponible de M totales | Información de los núcleos disponibles en la entidad |
---|---|
Columna | Comentario |
---|---|
PARTITION | Nombre de partición del sistema de colas |
AVAIL | Estado de operación del nodo |
CPUS | Número de núcleos del nodo |
HOSTNAMES | Nombre del nodo |
CPU_LOAD | Porcentaje de carga del nodo |
STATE | Estado de operación del sistema de colas |
CPU (A/I/0/T) | Número de núcleos. A=ocupados; I=disponibles; O=no-operables; T=totales |
TIMELIMIT | Tiempo máximo de ejecución. Cada trabajo en Grid UNAM tiene un tiempo máximo de 3 días |
SOKETS | Número de zocalos del nodo |
CORES | Número núcleos por zócalo |
THREADS | Número de hebras por núcleo |
Ejemplo:
[tgu40@jamatu ~]$ gu_show_all_cpus_all_cluster
El resultado del comando se muestra en la Figura 7. En este momento, la plataforma Grid UNAM cuenta con 1536 nodos de procesamiento, un total de ~4.7 TB de memoria RAM y 18 nodos de procesamiento, distribuido en las 4 entidades. Del total de núcleos de la plataforma, están disponibles 1,114.
En el caso de la entidad DGTIC, cuyo nodo de envío es submit.grid.unam.mx, aporta a Grid UNAM 6 nodos de procesamiento. De los 192 núcleos están disponibles 162. El nodo "n2" está parcialmente ocupado con 30 núcleos trabajando y 2 núcleos disponibles. Los restantes 5 nodos están disponibles.
En el caso de la entidad IAE, cuyo nodo de envío es jamatu.astrosen.unam.mx, aporta a Grid UNAM 5 nodos de procesamiento. De los 512 núcleos están disponibles 448. En particular, en el nodo "geminis-w02" está bloqueada su cola de trabajo. El motivo es que este nodo se está utilizando para instalar el sistema operativo a RedHat Like 9 y su cúmulo de paquetes. Si usted desea utilizar a la entidad IAE, podría enviar un correo a soportegrid@unam.mx para que se le proporcione más información. Los 4 nodos restantes están disponibles.
En el caso de la entidad ICAyCC, cuyo nodo de envío es jupyter2.atmosfera.unam.mx, aporta a Grid UNAM 4 nodos de procesamiento. De los 96 núcleos están disponibles 24. En particular los nodos "node1" y "node_2" tienen bloqueada su cola de trabajo. El motivo es que están en mantenimiento. De la misma forma, usted puede enviar un correo a soportegrid@unam.mx para más información. En el nodo "node4" los 24 núcleos están trabajando. El nodo "node3" está disponible.
En el caso de la entidad LAMOD (ICN, IA, ICQ), cuyo nodo de envío es condor-grid.lamod.unam.mx, aporta a Grid UNAM 3 nodos de proceamiento. De los 736 núcleos están disponibles 480. Cabe hacer mención, que en esta entidad la infraestructura está basada en sistema operativo RedHat Like 9. En particular, en el nodo "atocatl-23" la cola de trabajo no está operando. De la misma forma, usted puede enviar un correo a soportegrid@unam.mx para más información. Los 2 nodos restantes están disponibles.
Figura 7: Infraestructura Grid UNAM
Finalmente, este comando pone de manifiesto la naturaleza heterogénea y dinámica de la plataforma Grid. En donde usted puede utilizar a toda la infraestructura para ejecutuar su aplicación.