Unclassified | Non classifié
Hello,
The capturing session of fs7 statistics is done. Fs7 performance is back to normal.
Bonjour,
La session de capture de statistiques de fs7 est terminée. La performance de fs7 est
revenue à la normale.
Thank you/ Merci,
Dale
SSC-HPCO
From: Mowbray, Dale (SSC/SPC)
Sent: January 5, 2024 10:25 AM
To: HPC Optimization Service / Service Optimisation CHP (SSC/SPC)
<hpcoptimizationservice-serviceoptimisationchp(a)ssc-spc.gc.ca>
Subject: Notice of statistics capturing session of fs7 performance | Préavis de session de
capture de statistiques de la performance de fs7
Hello fs7 users,
In November 2023, there were multiple periods of time where fs7 had poor performance which
caused significant disruptions to GPSC workloads that use fs7. The poor performance of fs7
has been linked to instances of high read loads. We want to notify you that our team is
presently engaged in thorough troubleshooting to resolve this issue while minimizing any
potential risk to users. To find the source of the problem, the GPFS vendor (IBM) needs
fs7 performance statistics that are captured during times of poor performance.
As a first step, for a period of 15 minutes at some point from 10:00-12:00 ET (15:00-17:00
GMT) on January 10, we will provoke a high load on fs7 and capture performance statistics.
There will likely be a significant slowdown in fs7 read/write speeds during these 15
minutes (but not fs5 speeds). Regardless, feel free to submit and run jobs that use fs7 as
usual. But please note that there is a chance that some running jobs timeout (i.e. fail
because they ran out of wallclock time) during this period.
As soon as we have 15 minutes of statistics, we will stop the high load on fs7 and send
out communications that fs7 is stable again. Although there will be an impact, it is
crucial for finding a solution and preventing another period of poor fs7 performance from
happening again.
It is possible that we will need to perform more of these fs7 statistic capture sessions
in the future. Each session will be communicated with fs7 users in a timely manner.
If this strategy is not well suited, please let us know how we could improve it. Our
target is that these tests are transparent to users, if it is not, please don't
hesitate to communicate with us.
Bonjour aux utilisateurs de fs7,
En novembre 2023, il y a eu plusieurs périodes pendant lesquelles fs7 a eu de mauvaises
performances, ce qui a causé des perturbations significatives pour les charges de travail
de GPSC qui utilisent fs7. Les mauvaises performances de fs7 ont été liées à des cas de
charges de lecture élevées. Nous tenons à vous informer que notre équipe est actuellement
en train de procéder à un dépannage approfondi afin de résoudre ce problème tout en
minimisant les risques potentiels pour les utilisateurs. Pour trouver la source du
problème, le fournisseur de GPFS (IBM) a besoin des statistiques de performance de fs7 qui
sont capturées pendant les périodes de faible performance.
Comme première étape, nous allons provoquer une forte charge sur fs7 et capturer des
statistiques de performance pendant une période de 15 minutes à un moment donné entre
10:00 et 12:00 HE (15:00-17:00 GMT) le 10 janvier. Il y aura probablement un
ralentissement significatif des vitesses de lecture/écriture de fs7 pendant ces 15 minutes
(mais pas des vitesses de fs5). Quoi qu'il en soit, n'hésitez pas à soumettre et à
exécuter des tâches qui utilisent fs7 comme d'habitude. Cependant, veuillez noter
qu'il est possible que certains travaux en cours d'exécution soient interrompus
(c'est-à-dire qu'ils échouent parce qu'ils n'ont plus de temps wallclock)
pendant cette période.
Dès que nous aurons 15 minutes de statistiques, nous mettrons fin à la forte charge sur
fs7 et enverrons des communications indiquant que fs7 est à nouveau stable. Bien qu'il
y ait un impact, il est crucial de trouver une solution et d'empêcher qu'une autre
période de mauvaises performances de fs7 ne se reproduise.
Il est possible que nous devions effectuer plus de sessions de capture de statistiques fs7
à l'avenir. Chaque session sera communiquée aux utilisateurs fs7 en temps opportun.
Si cette stratégie ne convient pas, veuillez nous indiquer comment nous pourrions
l'améliorer. Notre objectif est que ces tests soient transparents pour les
utilisateurs, si ce n'est pas le cas, n'hésitez pas à communiquer avec nous.
Thank you for your understanding / Nous vous remercions de votre compréhension
High Performance Computing Optimization
Integrated HPC Management, Shared Services Canada
Calcul de haute performance - optimisation
Gestion du calcul de haute performance intégré, Services partagés Canada
Show replies by date