−東京証券取引所、システム障害 二重化機能が働かず終日売買取引停止− |
|
1.事故の概要 |
(1)事故が起きた東京証券取引所(以下、東証)の「arrowhead」とは、2010年1月4日に稼働した、世界最高水準の高速性・信頼性・拡張性を兼ね備えた、現物商品売買システムの呼称である。 |
2019年11月5日、注文件数の増加、短時間での注文集中、株式市場の環境変化に対応するためにバージョンアップした。 |
(2)2020年10月1日、このarrowheadに障害が発生して、東京証券取引所が終日停止となる事態となった。当日の経緯は以下のようである。 |
・7:04: arrowheadのディスクに障害を検知し、影響調査が開始された。その結果、情報配信・管理機能に問題があると判明し原因の特定が開始された。 |
・8:01: 情報配信機能によって7:00に送信されるべき電文の送信が行われていない旨各証券会社に通知される |
・8:23: 復旧のめどが立たず、売買・相場への影響を確認中である旨各証券会社に通知される |
・8:36: 売買が停止となる旨各証券会社に通知される |
・8:39: WEBサイトで全利用者に売買停止が通知される |
・9:26: arrowhead2号機への強制切替を実施したが切り替えができなかった |
・11:45〜11:57:全利用者及び各証券会社に終日売買停止が通知される |
|
2.原因 |
2.1 直接的原因 |
(1)arrowheadのユーザ情報などを格納するストレージ「共有ディスク装置」(以下、NAS)1号機に搭載されていたメモリに故障が発生したこと |
(2)NAS1号機の制御機構が故障を検知すると、切り替え用設定値に従って、自動的にNAS2号機に切り替わるはずが、切り替えができなかった |
|
2.2 終日停止となった原因 |
(1)メモリ故障が原因の障害パターンが発生した際、自動的に切り替えができない設定値となっていた。NASのファームウェアの設定値に誤りがあったためにNASの二重化が機能しなかった。 |
(2)2010年に稼働を開始した初代のarrowheadでは自動切り替えが「オフ」でも障害を検知すると15秒後に予備機に切り替わる仕組みであった(そもそも、この仕組みがおかしい)。2015年9月に導入した2代目からは「オフ」の時はバックアップが動作しない方式(これが正しい仕様だ)に変更となっていた。 |
|
「自動バックアップ、5年そのまま、東証システム障害、富士通のマニュアルに不備」(ITmedea NEWS 2020.10.20)から転載 |
|
(3)この仕様変更を富士通は見逃し、初期設定を「オフ」のままにして東証に納入したという。またマニュアルへの反映もしていなかった。そのため、切り替わらない原因が判明するまでに長時間を要した。 |
|
2.3 テストを実施しなかった原因 |
(1)ネットワーク切断を想定した切替へテストは実施したが、メモリの故障など「NASの設定値とマニュアルの整合性については富士通内の製品出荷プロセスで検証されていることになっていた」ので東証ではテストしなかったという。 |
(2)東証では「富士通内の製品出荷プロセスで検証されている」を鵜呑みにしていたこと、及びNAS1号機から2号機に切り替わらなかった場合の危険性を見逃した。 |
|
3.対策 |
(1)arrowheadのNAS1号機の故障したメモリを搭載したマザーボードを交換した |
(2)arrowheadのNASの設定値を「OFF」から「ON」に設定変更した |
|
4.問題点 |
(1)参考文献(4)「東京証券取引所の株式売買システム「arrowhead」で発生した障害の原因と対策について」において、”「ETERNUS NR1000」は他社開発・製造メーカから提供された当社ブランド製品(OEM製品)です。その出荷品質責任は当社にあります”と記述しているが、この意図が分からない。富士通の姿勢に問題があるような気がしてならない。また、製造元への責任転嫁とも受け取れる。 |
(2)「ETERNUS」は富士通の系列である「富士通ITプロダクツ」(以下、FJIT)の製品であるにかかわらず、このような言い方をされたことには違和感を感じる。 |
(3)2015年9月に2代目のarrowheadを納入した際に、OSの仕様が変更されていることをなぜ富士通は見逃したのか。またFJITは富士通に仕様変更を連絡しなかったのか。富士通とFJITとのコミュニケーションにも問題がように思われる。 |
(4)「初代のarrowheadでは自動切り替えが「オフ」でも障害を検知すると15秒後に予備機に切り替わる仕組みであった」ことがそもそも不自然で誤解を招く仕様であった。このとき、どうしてこのような不自然な仕様なのかを追求しなかったことが問題である。2015年9月に導入した2代目からは本来の仕様である「オフ」のときはバックアップが動作しない方式に仕様変更となったことに対する認識がなかったことが事故を招いたといえる。 |
(5)ハードウェアは壊れるもの、ソフトウェにはバグがあるもの、マニュアルには記述ミスがあるもの、人間は操作ミスをするもの、という観点でシステムの信頼性を保証しなければいけない。そのためにサブシステムやパーツの二重化を行っている。これは「フォールトトレランス」といってシステムの信頼性設計思想の一つである。しかし、この二重化機能が正しく働くのかを実地レベルでテストを行わなければ意味がないのである。 |
(注)信頼性設計思想には、フェールセーフ、フェールソフト、フールプルーフ、フォールトアボイダンス、フォールトトレランスがある。 |
(6)証券取引所が停止するとどのようなことになるか、社会的影響は測りきれないので最悪事態を想定したテスト・訓練が必須である。 |
|
5.参考文献 |
(1)「東証、障害の原因を特定 自動切り替えができない設定になっていた」(ITmdea NEWS 2020.10.6) |
(2)「東証システム障害の一部始終と残る疑問、NAS故障と切替設定の不備が重なる」(日経XTECH 2020.10.9) |
(3)「10月1日に株式売買システムで発生した障害について」(株式会社東京証券取引所 2020.10.19) |
(4)「東京証券取引所の株式売買システム「arrowhead」で発生した障害の原因と対策について」(富士通 2020.10.19) |
(5)「自動バックアップ、5年間オフのまま、東証システム障害、富士通のマニュアルに不備」(ITmedea NEWS 2020.10.20) |
(6)「東証Arrowheadの開発と要求実現プロセス(次世代システム)」(株式会社東京証券取引所 第4回要求シンポジウム 2010.10.20) |
(7)「ストレージETERNUSの製造現場「富士通ITプロダクツ(FJIT)を探る より良い製品をお客様に提供するために−品質にこだわるモノづくり」(富士通ITプロダクツ 掲載日2011.9.13) |
|