Earlier today, there was a network outage on science and collab. This did not prevent running jobs to continue running to completion, but any job trying to access the outside world would fail. At some points, the compute nodes of gpsc5, gpsc6, gpsc7 and gpsc8
were drained (no new jobs would run). Connection to GPSC and GPSCC interactive containers would also fail from most partners' networks.
As our mailing lists are currently on collab, you could not be reached in a timely manner.
As of approximately 14:00 EDT service is now back to normal. Please report any problem, if any.
Nous avons eu une panne réseau aujourd'hui sur science et collab. Cette panne ne dérangeait pas les tâches en exécution, à moins qu'elles tentent d'accéder au monde exterieur. À un certain moment, Slurm a drainé les noeuds de calcul de gpsc5, gpsc6, gpsc7 et
gpsc8 (aucune nouvelle tâche ne pouvait rouler). Les connexions aux conteneurs interactifs de GPSC et GPSCC échouaient à partir des réseaux de la plupart des partenaires.
Comme nos listes de diffusion sont présentement sur collab, nous n'avons pas pu vous informer des problèmes aussi efficacement que d'habitude.
Depuis environ 14:00 HAE, le service est de retour à la normale. Veuillez rapporter tout problème qui persisterait.
CC: AAFC, CSA, DFO, ECCC, NRC, NRCAN
Michel Béland
Conseiller technique / technical advisor
High Performance Computing Optimization
Integrated HPC Management, Shared Services Canada
Calcul de haute performance - optimisation
Gestion du calcul de haute performance intégré, Services partagés Canada