Re: Notice of statistics capturing session of fs7 performance | Préavis de session de capture de statistiques de la performance de fs7
by hpco-dfo-partner-support--ochp-mpo-soutien-au-partenaire@comm.collab.science.gc.ca
Unclassified | Non classifié
Hello,
The capturing session of fs7 statistics is done. Fs7 performance is back to normal.
Bonjour,
La session de capture de statistiques de fs7 est terminée. La performance de fs7 est revenue à la normale.
Thank you/ Merci,
Dale
SSC-HPCO
From: Mowbray, Dale (SSC/SPC)
Sent: January 5, 2024 10:25 AM
To: HPC Optimization Service / Service Optimisation CHP (SSC/SPC) <hpcoptimizationservice-serviceoptimisationchp(a)ssc-spc.gc.ca>
Subject: Notice of statistics capturing session of fs7 performance | Préavis de session de capture de statistiques de la performance de fs7
Hello fs7 users,
In November 2023, there were multiple periods of time where fs7 had poor performance which caused significant disruptions to GPSC workloads that use fs7. The poor performance of fs7 has been linked to instances of high read loads. We want to notify you that our team is presently engaged in thorough troubleshooting to resolve this issue while minimizing any potential risk to users. To find the source of the problem, the GPFS vendor (IBM) needs fs7 performance statistics that are captured during times of poor performance.
As a first step, for a period of 15 minutes at some point from 10:00-12:00 ET (15:00-17:00 GMT) on January 10, we will provoke a high load on fs7 and capture performance statistics. There will likely be a significant slowdown in fs7 read/write speeds during these 15 minutes (but not fs5 speeds). Regardless, feel free to submit and run jobs that use fs7 as usual. But please note that there is a chance that some running jobs timeout (i.e. fail because they ran out of wallclock time) during this period.
As soon as we have 15 minutes of statistics, we will stop the high load on fs7 and send out communications that fs7 is stable again. Although there will be an impact, it is crucial for finding a solution and preventing another period of poor fs7 performance from happening again.
It is possible that we will need to perform more of these fs7 statistic capture sessions in the future. Each session will be communicated with fs7 users in a timely manner.
If this strategy is not well suited, please let us know how we could improve it. Our target is that these tests are transparent to users, if it is not, please don't hesitate to communicate with us.
Bonjour aux utilisateurs de fs7,
En novembre 2023, il y a eu plusieurs périodes pendant lesquelles fs7 a eu de mauvaises performances, ce qui a causé des perturbations significatives pour les charges de travail de GPSC qui utilisent fs7. Les mauvaises performances de fs7 ont été liées à des cas de charges de lecture élevées. Nous tenons à vous informer que notre équipe est actuellement en train de procéder à un dépannage approfondi afin de résoudre ce problème tout en minimisant les risques potentiels pour les utilisateurs. Pour trouver la source du problème, le fournisseur de GPFS (IBM) a besoin des statistiques de performance de fs7 qui sont capturées pendant les périodes de faible performance.
Comme première étape, nous allons provoquer une forte charge sur fs7 et capturer des statistiques de performance pendant une période de 15 minutes à un moment donné entre 10:00 et 12:00 HE (15:00-17:00 GMT) le 10 janvier. Il y aura probablement un ralentissement significatif des vitesses de lecture/écriture de fs7 pendant ces 15 minutes (mais pas des vitesses de fs5). Quoi qu'il en soit, n'hésitez pas à soumettre et à exécuter des tâches qui utilisent fs7 comme d'habitude. Cependant, veuillez noter qu'il est possible que certains travaux en cours d'exécution soient interrompus (c'est-à-dire qu'ils échouent parce qu'ils n'ont plus de temps wallclock) pendant cette période.
Dès que nous aurons 15 minutes de statistiques, nous mettrons fin à la forte charge sur fs7 et enverrons des communications indiquant que fs7 est à nouveau stable. Bien qu'il y ait un impact, il est crucial de trouver une solution et d'empêcher qu'une autre période de mauvaises performances de fs7 ne se reproduise.
Il est possible que nous devions effectuer plus de sessions de capture de statistiques fs7 à l'avenir. Chaque session sera communiquée aux utilisateurs fs7 en temps opportun.
Si cette stratégie ne convient pas, veuillez nous indiquer comment nous pourrions l'améliorer. Notre objectif est que ces tests soient transparents pour les utilisateurs, si ce n'est pas le cas, n'hésitez pas à communiquer avec nous.
Thank you for your understanding / Nous vous remercions de votre compréhension
High Performance Computing Optimization
Integrated HPC Management, Shared Services Canada
Calcul de haute performance - optimisation
Gestion du calcul de haute performance intégré, Services partagés Canada