半蔵門御散歩雑談/ODR Pickups

株式会社ODR Room Network

このブログは、株式会社ODR Room Networkのお客様へのWeekly reportに掲載されている内容をアーカイブしたものです。但し、一部の記事を除きます。ODRについての状況、国際会議の参加報告、ビジネスよもやま話、台湾たまにロードレーサーの話題など、半蔵門やたまプラーザ付近を歩きながら雑談するように。

【ODRピックアップ】20160125 データセンタートラブル模様

【ODRピックアップ】20160125 データセンタートラブル模様

 

メールサーバー、Webサーバー、あるいは基幹システム系のデータベースサーバーまで、なんらかの、あるいは全てのデータがクラウドにあるという場合も少なくないでしょう。そのほうが効率的。費用を抑えられる。

それがまさに、クラウド時代です。

おかげで、オフィス内にはウルサイ空冷の音を出すサーバー機器はありません。費用も節約できます。サーバーを管理するための特別な費用は抑えられています。それはそう。全てはネットワークの向こう側です。

 

それが意味することを忘れてはいけません。「ネットワークの向こう側」。つまり、ネットワークが命綱だということです。

 

  *   *   *

 

3連休開けの火曜日。

朝から某クラウドサーバーが接続されないという情報が入っていました。弊社顧客先からも問合せ。ツイッターにも徐々に問合せや情報が共有され始め、明らかになってきたのは、どうやらデータセンターにトラブルが発生しているということ。しかし、サーバー事業者のサイト自体もアクセスできず、状況もいっこうに開示されてきません。後からわかったことですが、事業者自体のメールやWebなども影響を受けており、おそらく、SNS等へのアクセスもできなかったのだろうと思われます。

 

サーバー障害履歴 | 高品質で安全な共用サーバー、専用サーバー、VPSサーバーはウィルネット

 

SAN(Strage Area Network)機器に障害が発生し、結果としてDNSへのアクセスができず、メールやWebなど、ほとんどのサービスにアクセスができなくなっていました。

30時間以上のサービス停止があったものの、データの破損もなく復旧できたことは幸いでしたが、様々な反省点を、事業者だけでなく、サービスを利用している側にもあらためて知らせることになりました。

 

【テクニカルな面】

  • DNSサーバー、Webサーバー、メールサーバーが、同じデータセンターにあることのリスクは考慮する必要がある。
  • 少なくともDNSは切り離しておくほうがよいのではないか。

もちろん、詳細に考慮するともっと様々なことがあげられますが、データセンターの状況によらず、自分たちのサービスの継続性から考えておくべきでしょう。

 

 

【障害時の情報提供】

  • 顧客先とのコンタクト手段として、Webやメールは分散させ、予備サイトを用意しておくか、SNSによる情報提供を確保あるいは複数のアクセス手段を用意して、音信不通にならないようにしておく必要がある。(今回の事業者は、顧客リストにアクセスできなくなったため、連絡がとれなかったと報告していました。)
  • 今回も、「クラウド提供会社自体が経営できなくなったのではないか」との憶測がとびかい、一部の利用者は、その会社までも行こうとしていました。
  • タイムリーな情報提供はもちろん必要。しかし、「進展なし」的な情報提供を継続することもまた、不信感をつのる場合がある。受け手側を配慮した情報提供が必要であるし、そうしたことを考慮できる余裕のある運営体制が、必要。緊急時の暫定体制として、臨時組織化することも考慮したい。

f:id:emandai34:20150217000257j:plain

 

【利用者側の発言から垣間見えること】

そうしたテクニカルや体制など事業者側の対応、対策については、自分たちも顧客を持つ以上同じような立場になるわけですから、改めて考えておくことが重要だと思ったのですが、SNSでの利用者としての発言にも考える所がありましたので、記しておきます。

 

最初は、繋がらない報告から始まります。

  • 自分だけでなくほかにも繋がらない人がいることを確認して、データセンタートラブルであることを認知
  • 会社が倒産したのではないかという疑念

 

やがて、事業者からの第一報が。

  • 担当者へのねぎらい
  • どれくらい待てばいいのか
  • 不通の時間が長過ぎることへのクレーム

 

そして、事業者からの復旧見込み報告

しばらく、待ちの状態。しかし!

 

時間になっても復旧しないことが判明

 

ここから書込みの口調が変化

  • 自分たちの顧客への報告ができないことへのクレーム
  • 経過報告が悪いコトへのクレーム
  • 復旧できないのではないかとの疑念
  • データを利用したいからそれだけでも取り出せないかとの要求
  • ほかの事業者に変更するので情報提供せよとの要求

 

そして

  • こんな対応が悪いのは初めてだ
  • この事業者は個人でやっているのではないかという疑念
  • この会社は大丈夫なのかという疑念

 

多くは、情報がないなかでの相互の情報共有と、苦労しているであろう担当者へのねぎらい、技術的な暫定対策等の情報共有など、善意に基づくエンジニアコミュニティが形成されましたが、中に気になるコメントがいくつか書込まれていました。

「対応に配慮が感じられない」

「この会社は信じられない」

 

でも、実は、この会社を自分あるいは自社が選んでいることを忘れているような、そういう点も含めて選定していなかったということを暴露しているようなコメント。

幸い、これに同調するような流れもなく、やがて復旧に向かっていき、平和に収束しましたが、ちょっと間違えば、惨たんたる殺伐とした状態にもなったかもしれません。そうでなかったことをよかったと思いながら、今後の対策をどうしようかと、思案にくれつつ週明けを迎えます。