学際大規模計算機システム - 北海道大学ハイパフォーマンスインタークラウド - 北海道大学情報基盤センター

北海道大学
障害・メンテナンス情報
学際大規模計算機システム >

障害・メンテナンス情報

別システムの導入に伴う設定ミスにより、ストレージシステムと演算サブシステム間の通信に障害が発生し、その時刻に実行中のジョブが異常終了しました。
異常終了したジョブのトークンは巻き戻し作業を行っております。
ご迷惑をおかけし、大変申し訳ありません。

障害発生日時:2019/10/10 19:40
障害復旧日時:2019/10/10 20:10

以下の日程で緊急保守を行います。
保守の間、学際大規模計算機システムへのサーバ接続に失敗する、または、接続中のセッションが断続的に切れることがありますので、ご了承ください。
なお、学際大規模計算機システム(スパコン、クラウド等)は停止しません。

日時:令和元年10月2日(水)11:00~15:00(予定)

保守は終了しました。

「Apache HTTP Web Server 2.4」に複数の脆弱性が発見されたとして、
JPCERTコーディネーションセンター(JPCERT/CC)が注意を呼び掛けています。

クラウドサーバで Apache HTTP Web Server をお使いの場合は,この脆弱性により
 ・情報改ざん
 ・悪意あるページへのリダイレクト
 ・情報漏えい
 ・サービス運用妨害 (DoS) 攻撃

等の影響を受ける可能性があることから,至急アップデートをご検討ください。

詳細は下記のページをご確認ください。
https://jvn.jp/vu/JVNVU98790275/

影響を受けるバージョン:
 Apache HTTP Web Server 2.4.41 より前のバージョン

なお,現在どのバージョンを使用しているかは,サーバにログイン後
 httpd -v あるいは apachectl -v
等のコマンドで確認できます。

※使用しているOSによっては,古いバージョン番号が表示されることから,yum update あるいは apt-get update/upgrade 等のコマンドでOSを最新の状態にしてください。
※ただし,OSのアップデートはシステムに不具合が発生する可能性があることから,慎重に行ってください。

インタークラウドシステムの保守作業を以下の時間帯に実施いたします。

  • 作業時間: 2019年7月8日(月)9:00am~11:00am

上記時間帯はOpenStack管理画面やOpenStack APIを利用した操作が一時的に失敗することがあります。これらの操作に失敗した場合、保守作業終了後に再度実施下さいますよう、お願いいたします。

なお、稼働中のサーバには影響ありません。

保守は終了しました

現在、スーパーコンピュータシステムにおいて、ファイルシステムに関する障害が断続的に発生し、ログインノード、アプリケーションサーバへのログインが不可となる。また、実行中のジョブが削除できない。実行中と表示されるが計算が進行していない。という現象が発生しております。これらの障害に対する対策を7月8日の緊急保守に予定しておりますが、それまでの間におきましては、ジョブの削除依頼については

hsay@iic.hokudai.ac.jpに

ご連絡ください。また、ログインに関しましては、時間をあけて再度試して頂きますようにお願いいたします。本障害により利用者の皆様にご迷惑をおかけし、誠に申し訳ありません。

7/8(月) 続報:
緊急保守が完了し、現在、経過観察中です。もしも、上記のような不具合が生じた場合には、恐れ入りますが、情報基盤センターまでご連絡ください。よろしくお願いいたします。

スーパーコンピュータのストレージシステムの不具合に対する緊急保守を行うため,以下の期間,スーパーコンピュータシステム(ログインノード含む)とアプリケーションサーバのサービスを停止します。

7月8日(月) 9:00 ~ 21:00

上記の期間,スーパーコンピュータシステム及びアプリケーションサーバへのログインはできません。また,7月8日午前9時までに終了しないと見込まれるジョブについては,上記の保守終了まで,ジョブの実行が保留(Queuedの状態)となります。(保守終了後,順次,ジョブは実行されます。)ジョブスクリプトの経過時間の設定を適切にしていただくことで,保守前にジョブが実行される可能性がありますので,必要に応じてご検討ください。

利用者の皆様にはご不便をおかけして大変申し訳ありませんが,何卒ご理解の程よろしくお願いいたします。

保守は終了しました。

6月20日(木)の夕方頃から,スーパーコンピュータシステムに投入・実行されたジョブの一部について,不具合が生じています。現在,原因を調査しており,対応を進めております。利用者の皆様にはご不便をおかけして,大変申し訳ありません。どうぞよろしくお願いいたします。

(更新)6/21 0:00に復旧しました。

5月4日夜に移行サーバ(mist/yew)用の物理ホスト1台に障害が発生し、
現在、当該ホスト上のVMが停止しています。

ただいま復旧作業をしておりますが、
クラウド基盤ソフトウェアのデータベースに不整合が
発生しているため復旧に時間がかかっております。

大変申し訳ございませんが、いましばらくお待ちください。

(更新)14:00に復旧しました。

メンテナンス作業のため、3月1日(金)8:15~9:00まで情報基盤センターポータルが停止します。作業の進捗によりサービスの開始が遅れることがありますのでご了承ください。

年度末の処理・メンテナンス等のため、以下の期間、各種サービスを休止します。

  • ●スーパーコンピュータシステム:
    • スーパーコンピュータシステム、アプリケーションサーバは年度末処理・メンテナンス等のため、2019年3月26日(火)17:00にサービスを停止します。サービスの再開は、2019年4月1日(月)13:00を予定しています。
    • 上記のサービス停止期間は、スパコンストレージにもアクセスできません。
    • 上記のサービス停止までに終了しないジョブは実行されません。また、サービス停止時にジョブキューに残っているジョブは全て消去されます。
    • 2018年度の演算時間(トークン)は2019年度には引き継がれません。
    • 現在、ご利用いただいている利用者番号(スパコンのログインアカウント)を2019年度も継続してご利用いただくためには継続申請が必要です。詳細はこちらをご参照ください。なお、継続申請が行われないアカウントのデータに関しては、2019年4月1日以降、アクセスすることができません。継続申請を行われない場合には、上記のサービス停止までに、必要なデータのバックアップ等を行うようにお願いします。
北海道大学情報基盤センター
広報・刊行物