学際大規模計算機システム - 北海道大学ハイパフォーマンスインタークラウド - 北海道大学情報基盤センター

北海道大学
障害・メンテナンス情報
学際大規模計算機システム >

障害・メンテナンス情報

> スーパーコンピュータシステムにて発生しているジョブ終了・停止時のエラーについて(9/16 対応完了しました)

現在、スーパーコンピュータシステムにおいて以下の現象に関する問い合わせを複数頂いております。

・pjdel コマンドでジョブをキャンセルすると、ジョブは停止しているが pjstat コマンドで表示されるリストに残り続ける場合がある
・ジョブ終了または停止後、利用者宛に「Reason: Node down.」のエラーメールが送付される場合がある

これらの現象は、ジョブ終了後に行われるシステム側の処理に時間を要してしまうことが原因で発生しております。
本現象の原因の詳細については、現在調査中です。

なお、「Reason: Node down.」のエラーが発生した場合、共有ノードでの演算時間(トークン)の消費は行われません。
終了したジョブの演算時間(トークン)は、pjstat コマンドに -H オプションをつけることで確認できます。

本現象に関してご不明点等ございましたら、HPCシステム運用担当( unyo@iic.hokudai.ac.jp )までご連絡ください。

利用者の皆様には大変ご迷惑をおかけしており申し訳ございません。

9/16 追記:
原因究明および対策を行いましたが、上記のような不具合が生じた場合には、恐れ入りますがHPCシステム運用担当までご連絡ください。よろしくお願いいたします。

北海道大学情報基盤センター
広報・刊行物