スーパーコンピュータ(2/3)
TSS処理ノードの接続方法とバッチ処理ノード利用例

TSS処理ノード

TeraTerm(フリーウェア)等のターミナルソフトウェアを使用しコマンドラインによる操作です。ssh接続による利用になり、telnet接続はできません。文字コードはEUCです。 TeraTermのインストール、利用方法についてはこちらでご案内しています。

 

接続ホスト名
 

  • hop000.hucc.hokudai.ac.jp(※ログイン後は htcf01c01p02 と表示されます)
     
  • hop001.hucc.hokudai.ac.jp(※ログイン後は htcf02c01p02 と表示されます)
     
  • wine.hucc.hokudai.ac.jp(hop000、hop001のいずれかにログインします)
  • バッチ処理ノード

    TSS処理ノードからllsubmitコマンドによりバッチ処理を実行します。ログインする必要はありません。

    ここでは基本的なバッチ処理の流れについてご案内します。

     

    ジョブ作成の流れ

    1. ジョブを作成する
    2. ジョブをサブミットする
    3. 実行結果の確認

     

     

    1.ジョブを作成する

    ジョブコマンドファイル
    プログラム(test.f)をバッチ処理で実行するためのジョブコマンド ファイル作成例です。
    プログラム(test.f)
    c
    c sample program for SR16000
    c
          a=9.
          b=18.
    c
          c=a+b
          d=a-b
          e=a*b
          f=a/b
    c
          write(*,*)  a,'+',b,'=',c
          write(*,*)  a,'-',b,'=',d
          write(*,*)  a,'*',b,'=',e
          write(*,*)  a,'/',b,'=',f
    c
          end

    このプログラムを実行する場合、ジョブコマンドファイル は以下のようになります。 このプログラムは1ノードで実行します。1ノードで実行する場合、使用するノード数の記述を省略できます。

    ジョブ・コマンド・ファイル(longjob.cmd)

    #!/bin/csh -f
    # @ class = a

    # @ node_usage=not_shared

    # @ output = $(jobid).out

    # @ error = $(jobid).err

    # @ queue

    f90 test.f

    ./a.out

    ←Cシェルスクリプトであることの宣言
    ←ジョブクラスの指定
    ←ノードの占有指定
    ←標準出力ファイル
    ←標準エラー出力ファイル
    ←実行ステートメント
    ←コンパイル
    ←実行プログラムa.outを実行する

     

    2.ジョブをサブミットする

    バッチ処理を実行するためには、ジョブコマンドファイルをサブミットする 必要があります。llsubmitコマンドを使用します。
    htcf02c01p02 : llsubmit longjob.cmd

    次のようなメッセージを返します。

    llsubmit: Processed command file through Submit Filter: "/var/home/loadl/llfilter.sh".
    KBGT60003-I Budget function authenticated ユーザID. ユーザID is not assigned account number.
    llsubmit: The job "htcf02c01p02.36306" has been submitted.

     

    ジョブの状況を表示する

    サブミットしたジョブ は、ノードに空きがある場合すぐに実行されますが、空きが無い場合、実行待ちになります。現在サブミットされている全てのジョブ状況を確認するためにはllqコマンドを使用します。
    htcf02c01p02 : llq

    ST(ステータス)が「R」になっているものは現在実行中です。「I」になっているものは実行待ちです。

    ノードの詳細情報は「-l」オプションをつけて実行します。
    htcf02c01p02 : llq -l

     

    ジョブを取り消す

     htcf02c01p02.36306 を取り消すには、次のようにllcancel コマンドを使用します。
    htcf02c01p02 : llcancel htcf02c01p02.36306

     

    3.実行結果の確認

    ジョブが終了すると、メールが届きます。
    htcf02c01p02 : mail
    メール [5.2 UCB] [AIX 5.X]  ヘルプには ? とタイプしてください。
    "/var/spool/mail/ユーザ名": 4 メッセージ 4 新規
    >N  1 loadl             Mon Apr 16 16:11  34/1134 "htcf02c01p02.36301"
     N  2 loadl             Mon Apr 16 16:14  34/1134 "htcf02c01p02.36304"
     N  3 loadl             Mon Apr 16 16:18  34/1134 "htcf02c01p02.36305"
     N  4 loadl             Mon Apr 16 16:18  34/1134 "htcf02c01p02.36306"
    ? 4
    メッセージ  4:
    From loadl Mon Apr 16 16:18:42 2012
    Date: Mon, 16 Apr 2012 16:18:41 +0900
    From: loadl
    To: ユーザ名@htcf02c01p02.hucc.hokudai.ac.jp
    Subject: htcf02c01p02.36306
    
    From: LoadLeveler
    
    
    LoadLeveler Job Step: htcf02c01p02.36306.0
            Executable: /home/ユーザ名/longjob.cmd
            Executable arguments:
            State for machine: htcf02c05p07
            LoadL_starter: The program, longjob.cmd, exited normally and returned an exit code of 0.
    
    This job step was dispatched to run 1 time(s).
    This job step was rejected by Starter 0 time(s).
    Submitted at: Mon Apr 16 16:18:35 2012
    Started at: Mon Apr 16 16:18:35 2012
    Exited at: Mon Apr 16 16:18:41 2012
                   Real Time:   0 00:00:06
          Job Step User Time:   0 00:00:03
        Job Step System Time:   0 00:00:00
         Total Job Step Time:   0 00:00:03
    
           Starter User Time:   0 00:00:00
         Starter System Time:   0 00:00:00
          Total Starter Time:   0 00:00:00
    
    ?
    

    ファイルが生成されたことを確認の上、errファイルにエラーがないことを確認し てください。

    htcf02c01p02 : ls -laF
    合計 371008
    drwx--x--x   10 ユーザ名   ユーザ名         3072 Apr 16 16:18 ./
    drwxr-xr-x 1040 root       system          16896 Apr 16 15:44 ../
    drwxrwxrwx    3 ユーザ名   ユーザ名          512 May 07 2007  .ICE/
    -rw-------    1 ユーザ名   ユーザ名          292 Feb 05 2008  .TTauthority
    -rw-------    1 ユーザ名   ユーザ名          404 Feb 05 2008  .Xauthority
    -rw-r--r--    1 ユーザ名   ユーザ名         2532 Mar 29 11:01 .cshrc
    -rw-r--r--    1 ユーザ名   ユーザ名           67 Mar 29 11:01 .cshrc.120329.110140
    drwxr-xr-x   10 ユーザ名   ユーザ名          512 Apr 16 15:49 .dt/
    -rwxr-xr-x    1 ユーザ名   ユーザ名         3970 Dec 14 2007  .dtprofile*
    -r-xr-xr-x    1 ユーザ名   ユーザ名          347 Apr 05 2007  .exrc*
    -rwxr-xr-x    1 ユーザ名   ユーザ名          680 Apr 06 15:04 .history*
    drwxr-xr-x    3 ユーザ名   ユーザ名          512 Dec 20 2007  .icpv/
    -rw-r--r--    1 ユーザ名   ユーザ名           82 Mar 29 11:01 .login
    -r-xr--r--    1 ユーザ名   ユーザ名           68 Mar 29 11:01 .login.120329.110140*
    -rw-r--r--    1 ユーザ名   ユーザ名         2361 Mar 29 11:01 .profile
    -rw-r--r--    1 ユーザ名   ユーザ名          111 Mar 29 11:01 .profile.120329.110140
    -rw-------    1 ユーザ名   ユーザ名           27 Apr 16 16:14 .vi_history
    drwxr-xr-x    2 ユーザ名   ユーザ名          512 Feb 05 2008  .vnc/
    -rw-r--r--    1 ユーザ名   ユーザ名          145 Apr 16 16:18 36306.err
    -rw-r--r--    1 ユーザ名   ユーザ名          224 Apr 16 16:18 36306.out
    -rw-r--r--    1 ユーザ名   ユーザ名     91105231 May 08 2007  Cpl
    
    
    htcf02c01p02 : more 36306.err
    
    f90: compile start : test.f
    
    *OFORT90 V03-01-/B 開始
    *プログラム名 = MAIN
    *end of compilation : MAIN
    *プログラム数 = 0001 , エラーはありません。
    36306.err: END
    

     outファイルの実行結果を確認します。

    htcf02c01p02 : more 36306.out
    
       9.00000000     +   18.0000000     =   27.0000000
       9.00000000     -   18.0000000     =  -9.00000000
       9.00000000     *   18.0000000     =   162.000000
       9.00000000     /   18.0000000     =  0.500000000
    36306.out: END
    

     

     

    ※ 注意

    FileZilla などで転送したファイルが左図のように行末に意図しないコード(左図の場合「^M」)が挿入される場合があります。
    これはOSにより改行コードが異なるためです。以下の方法で削除してください。

     vi コマンドでファイルを開き、確認します。
    htcf02c01p02 : vi test.f

    【ファイルの修正方法】
    1. Esc を押します。
    2. ^M にカーソルを合わせます。
    3. X で削除します。
    (修正が終了したら)
    :(コロン)wq で保存して終了します。
    行数が多い場合、以下のコマンドによって一括変換することも可能です。
    htcf02c01p02 : nkf -Lu test.f > test2.f
    (test.f ファイルの改行コードを変換したものをtest2.fへ出力しました。)

    この他、nkfコマンドには以下のオプションがあります。
    -e : EUCコードを出力
    -s : Shift-JISコードを出力
    -w : UTF-8コードを出力
    -Lu : unix改行形式(LF)に変換
    -Lw : windows改行形式(CRLF)に変換
    -Lm : Mac改行形式(CR)に変換
    -g : 自動判別の結果を表示
    申請方法(オンライン申請)
    スパコン利用において、より多くのファイル容量を必要とする、またはバッチ処理を利用する場合は申請が必要です。

     

    ここではスパコンのバッチ処理申請方法をご案内します。

    1.ポータルページにログイン します。(北大所属の方はSSOシステムからもログインできます。)

    @「計算サービス」タブを クリックしてください。

    「申請・参照」からA「利用負担金と付加サービス」をクリックしてください。

     

     

    2.B「付加サービスの追加申請」で希望のコースにチェックします。(図はS10コースを選択しています。)

     

    入力後、「申請」を押します。

    次の確認画面が表示されますので、申請内容を確認し「実行」を押します。

    承認後の取消はできません。ご検討の上申請してください。