学際大規模計算機システム - 北海道大学ハイパフォーマンスインタークラウド - 北海道大学情報基盤センター

北海道大学
障害・メンテナンス情報
学際大規模計算機システム >

障害・メンテナンス情報

以下のスケジュールで、スーパーコンピュータシステムのログインノードおよびアプリケーションサーバの定期保守を予定しています。
保守の間、ログインノードおよびアプリケーションサーバへの接続に失敗する、もしくは、接続中のセッションが切れることがありますので、ご了承ください。
なお、スーパーコンピュータにおける投入済み、もしくは実行中のバッチジョブへの影響はありません。

日時:2019年6月17日,8月19日,10月21日,12月16日,2020年2月17日,各09:00 – 12:00.

北海道大学のSSOシステムの障害に伴い、北海道大学関係者の学外からの利用者管理ポータルへのアクセスができない状態になっております。
ご迷惑をおかけして、大変申し訳ありません。

(12月10日追記)
復旧し、北海道大学関係者の学外アクセスが開放されました。

クラウドストレージ(Nextcloud)を構成するソフトウェアの一部に脆弱性が発見されたため、下記日程で緊急メンテナンスを実施致します。
この期間はNextcloudへアクセスできませんのでご注意ください。

■ メンテナンス期間
 12月4日(水) 13:00 ~ 15:00 (予定)

利用者の皆様にはご不便をおかけして大変申し訳ありませんが、何卒ご理解の程よろしくお願いいたします。

なお、Nextcloud以外のサービス(スパコン、クラウドサーバ)への影響はございません。

保守は終了しました。

スーパーコンピュータの緊急保守を行うため、以下の期間、スーパーコンピュータシステム(ログインノード含む)とアプリケーションサーバのサービスを停止します。

11月12日(火) 9:00 ~ 12:00(予定)

上記の期間、スーパーコンピュータシステム及びアプリケーションサーバへのログインはできません。また、11月12日午前9時までに終了しないと見込まれるジョブについては、上記の保守終了まで、ジョブの実行が保留(Queuedの状態)となります。(保守終了後、順次、ジョブは実行されます。)ジョブスクリプトの経過時間の設定を適切にしていただくことで、保守前にジョブが実行される可能性がありますので、必要に応じてご検討ください。

利用者の皆様にはご不便をおかけして大変申し訳ありませんが、何卒ご理解の程よろしくお願いいたします。

保守は終了しました。

スーパーコンピュータシステムの内部ネットワークに障害が起きる場合があることが確認されており、対策中ではありますが、現状、完全な対応には至っておりません。
利用者の方にご迷惑をおかけして、大変申し訳ありません。

12/9(月) 続報:
原因究明および対策を行い、現在、経過観察中です。もしも、上記のような不具合が生じた場合には、恐れ入りますが情報基盤センターまでご連絡ください。よろしくお願いいたします。

別システムの導入に伴う設定ミスにより、ストレージシステムと演算サブシステム間の通信に障害が発生し、その時刻に実行中のジョブが異常終了しました。
異常終了したジョブのトークンは巻き戻し作業を行っております。
ご迷惑をおかけし、大変申し訳ありません。

障害発生日時:2019/10/10 19:40
障害復旧日時:2019/10/10 20:10

以下の日程で緊急保守を行います。
保守の間、学際大規模計算機システムへのサーバ接続に失敗する、または、接続中のセッションが断続的に切れることがありますので、ご了承ください。
なお、学際大規模計算機システム(スパコン、クラウド等)は停止しません。

日時:令和元年10月2日(水)11:00~15:00(予定)

保守は終了しました。

「Apache HTTP Web Server 2.4」に複数の脆弱性が発見されたとして、
JPCERTコーディネーションセンター(JPCERT/CC)が注意を呼び掛けています。

クラウドサーバで Apache HTTP Web Server をお使いの場合は,この脆弱性により
 ・情報改ざん
 ・悪意あるページへのリダイレクト
 ・情報漏えい
 ・サービス運用妨害 (DoS) 攻撃

等の影響を受ける可能性があることから,至急アップデートをご検討ください。

詳細は下記のページをご確認ください。
https://jvn.jp/vu/JVNVU98790275/

影響を受けるバージョン:
 Apache HTTP Web Server 2.4.41 より前のバージョン

なお,現在どのバージョンを使用しているかは,サーバにログイン後
 httpd -v あるいは apachectl -v
等のコマンドで確認できます。

※使用しているOSによっては,古いバージョン番号が表示されることから,yum update あるいは apt-get update/upgrade 等のコマンドでOSを最新の状態にしてください。
※ただし,OSのアップデートはシステムに不具合が発生する可能性があることから,慎重に行ってください。

インタークラウドシステムの保守作業を以下の時間帯に実施いたします。

  • 作業時間: 2019年7月8日(月)9:00am~11:00am

上記時間帯はOpenStack管理画面やOpenStack APIを利用した操作が一時的に失敗することがあります。これらの操作に失敗した場合、保守作業終了後に再度実施下さいますよう、お願いいたします。

なお、稼働中のサーバには影響ありません。

保守は終了しました

現在、スーパーコンピュータシステムにおいて、ファイルシステムに関する障害が断続的に発生し、ログインノード、アプリケーションサーバへのログインが不可となる。また、実行中のジョブが削除できない。実行中と表示されるが計算が進行していない。という現象が発生しております。これらの障害に対する対策を7月8日の緊急保守に予定しておりますが、それまでの間におきましては、ジョブの削除依頼については

hsay@iic.hokudai.ac.jpに

ご連絡ください。また、ログインに関しましては、時間をあけて再度試して頂きますようにお願いいたします。本障害により利用者の皆様にご迷惑をおかけし、誠に申し訳ありません。

7/8(月) 続報:
緊急保守が完了し、現在、経過観察中です。もしも、上記のような不具合が生じた場合には、恐れ入りますが、情報基盤センターまでご連絡ください。よろしくお願いいたします。

北海道大学情報基盤センター
広報・刊行物