東証のシステム障害から学ぶBCP対策~MIMIX導入から訓練・運用の継続まで

 ディスク装置の障害で株式売買が停止

 東京証券取引所で2020年10月1日、株式売買システムに障害が発生し、全銘柄にわたり終日売買を停止したというニュースが驚きをもって伝えられました。

 東証のシステムは基幹中の基幹システム、日本経済を支える重要インフラです。2005年、2012年と、過去に大規模なシステム障害を経験し、そのたびに対策が講じられてきました。あらゆる角度から冗長化を図っていたはずなのに、それでも今回の事態を防げなかったことに市場関係者、そしてIT業界にも衝撃が広がりました。

 すでに多くのメディアが伝えていますが、以下に今回のシステム障害の経緯を簡単に見てみましょう。

 10月1日午前7時4分、東証は株式売買システム「arrowhead(アローヘッド)」の異常を検知します。複数のサブシステムが共通して銘柄やユーザー情報などを格納するディスク装置(NAS)で、アクセス異常を示す大量のメッセージを検知したのです。その後、社内で利用する売買監理画面が使えなくなり、さらに相場情報の一部が配信不能になりました。

 arrowheadを開発する富士通と東証が確認作業を進めたところ、メモリ障害に起因して、2台構成で冗長化していたNAS全体が使えない状況であると判明します。

 本来ならディスク装置にメモリ障害が起きても、バックアップ用に用意されているもう1台のディスク装置へ自動的に切り替わるはずでしたが、そうはならず、NAS全体が使用できなくなったのです。

 東証と富士通は何度もNASの切り替えを試みましたが成功せず、午前8時36分に全銘柄の売買停止を決定。通常は社内の売買監理画面から売買停止を操作しますが、NASの機能不全からこれが使用できず、arrowheadと取引参加者をつなぐネットワークを午前8時54分に遮断しました

 約30分後、両社は手動でNASの切り替えに成功し、売買再開に向けて、arrowheadの再起動を検討し始めます。しかしネットワークは切断しても、システムは内部的に稼働していたので、すでに注文をもとにした約定などの情報を累積し始めていました。

 証券会社などにヒアリングしたところ、この状況に対応できる証券会社が限られたため、取引の公平性を期すため、11時45分に売買の終日停止を決定しました。

 原因はマニュアルの不備による設定ミスと判明 

 10月19日、東証と富士通はこのシステム障害の原因を発表しました。バックアップ用のディスク装置へ切り替わらなかった理由、そして当日中に取引を再開できなかった理由が明らかになりました。
 
 まず、バックアップ用のディスク装置に自動的に切り替えられなかった理由。それはマニュアルの不備に基づく設定ミスでした。
 
 もともと東証では、NAS故障時でも、30秒以内にバックアップ装置へ自動的に切り替えて業務を継続できるようにarrowheadを設計していました。しかし採用していたディスク装置(富士通のOEM製品)では、自動的にバックアップ装置に切り替えるための設定が「オフ」になっていました。

 本来はオフの状態でも、メモリ障害を含めて何らかの故障が発生した場合、必ず自動でバックアップ装置に切り替わる仕様であり、ディスク装置メーカーのマニュアルにも同様の記載がありました。

 しかし、このディスク装置はOSの更新で仕様が変わり、故障が発生しても、同機能が「オン」でなければ、バックアップ装置へは自動で切り替わらなくなっていました。
 
 ディスク装置メーカーはこの変更をマニュアルに反映せず、また富士通側も仕様変更を発見できなかったため、実にこの5年の間、自動バックアップ切り替えはオフの状態のまま、運用を続けていたのです。
 
 なお、手動での切り替えに時間を要したのも、自動切り替えを前提に障害対応手順を整備していたのが理由とのことです。
 
 また当日中に取引を再開できなかった理由としては、売買停止のためにネットワークを遮断したものの、システム内部では処理が継続していたため、再開に向けた手順や確認項目が多くなったこと。そしてシステムを再起動して売買を再開する手順や運用ルールを、取引参加者と合意していなかったことが挙げられています。

 定期訓練と運用ルールの確立がBCP対策を向上させる

 三和コムテックでは、障害・災害発生時の事業継続を目的としたHAソリューション「MIMIX」をご提供しています。
 
 HAソリューションは導入さえすれば、それでBCP対策が完了するわけではありません。障害・災害時の運用手順の確立、定期的な切り替え訓練の実施と運用ルールの策定、それに基づく人員体制の確立が不可欠です。これは、継続的にレベルアップさせていく種類の対策なのです。
 
 今回のシステム障害で、バックアップ用のディスク装置が稼働しなかった事実からは、できるだけリアルな環境で、実際の切り替え訓練を定期的に実施することの重要性を教訓として得られます。
 
 何らかの異常事態が発生し、切り替え決定を判断してから、バックアック機へスピーディに切り替えるには、日ごろからの訓練が何より重要です(東証でもNASの切り替え訓練を実施していましたが、シナリオがネットワーク障害を前提としていたため、メモリ障害時に実際に自動切り替えが可能かどうかは検証していなかったようです)。
 
 訓練の結果から得た気づき、変更が必要な手順、テスト項目のブラッシュアップなどを各資料に記録・反映し、関係者全員に周知・徹底させる必要があります。
 
 またバックアップ用のディスク装置に切り替えても業務を再開できなかった事実からは、発生した障害・災害を明らかにし、既存要件に追加・更新し、業務復旧手順と運用ルールを関係者全員で共有することの重要性を感じます。
 
 必要な運用ルールを決め、対応手順や人員体制などを取りまとめ、更新する変更があった場合は、速やかにその変更点を記録して、全員に周知徹底させます。
 
 そして、こうした切り替え訓練、業務復旧手順の管理・運用を継続させることが何より重要です。
 
 BCP対策はシステムを導入して、それで終わりではありません。その環境および体制の維持・継続こそが、対策の本質なのです。
 
 三和コムテックではMIMIXにより、「想定される障害・災害」といった要件定義をはじめ、お客様に適切な設計・設定でHA環境をご利用いただけるよう、導入・サポートをご提供しています。
 
 また業務との兼ね合いで、平時に訓練として実際に本番機を切り替えるのはなかなか難しい状況にあるお客様に向けて、MIMIXでは「バーチャルスイッチ」と呼ばれる、仮想的に本番機を切り替えて訓練を実施するための機能も搭載しています。
 
 障害・災害の定期訓練を実施しながら、手順書や運用ルール、運用体制の品質をより一層高めていけるように。要件を見直しながら、MIMIXの同期設定をブラッシュアップして、より品質の高いHA環境を構築できるように。三和コムテックは、実効性のあるBCP対策の実現をご支援しています。

 MIMIXファミリー製品群