Earlier today, there was a network outage on science and collab. This did not prevent
running jobs to continue running to completion, but any job trying to access the outside
world would fail. At some points, the compute nodes of gpsc5, gpsc6, gpsc7 and gpsc8 were
drained (no new jobs would run). Connection to GPSC and GPSCC interactive containers would
also fail from most partners' networks.
As our mailing lists are currently on collab, you could not be reached in a timely
manner.
As of approximately 14:00 EDT service is now back to normal. Please report any problem, if
any.
Nous avons eu une panne réseau aujourd'hui sur science et collab. Cette panne ne
dérangeait pas les tâches en exécution, à moins qu'elles tentent d'accéder au
monde exterieur. À un certain moment, Slurm a drainé les noeuds de calcul de gpsc5, gpsc6,
gpsc7 et gpsc8 (aucune nouvelle tâche ne pouvait rouler). Les connexions aux conteneurs
interactifs de GPSC et GPSCC échouaient à partir des réseaux de la plupart des
partenaires.
Comme nos listes de diffusion sont présentement sur collab, nous n'avons pas pu vous
informer des problèmes aussi efficacement que d'habitude.
Depuis environ 14:00 HAE, le service est de retour à la normale. Veuillez rapporter tout
problème qui persisterait.
CC: AAFC, CSA, DFO, ECCC, NRC, NRCAN
Michel Béland
Conseiller technique / technical advisor
High Performance Computing Optimization
Integrated HPC Management, Shared Services Canada
Calcul de haute performance - optimisation
Gestion du calcul de haute performance intégré, Services partagés Canada