季節は春に変わろうとしていますが、情報系部門の責任者の私としては気になることが幾つかあり、今回はそれについて書こうと思います。
それはシステムの安定稼動についてです。
「私には関係の無い話だよ!」と思われる方もいらっしゃると思いますが、お付き合い頂ければと思います。
システムは安定稼動が当たり前!
私が担当している情報系部門の大切な仕事の一つに、サーバやネットワーク機器等の管理があります。
なぜなら、それらは機器の障害やソフトウェアの不具合、人的ミスなどの様々な理由により、停止してしまうからです。
それらの「様々な理由」が起こらないように、また起こったとしてもシステムが止まらない様にすることが我々の大きなミッションです。
「システムは安定して動いて当たり前」と世の中の多くの方々がその様に考えていると思いますが、実際にシステムを安定稼動させることは様々な知識が必要であり、ノウハウも必要になります。
サーバやネットワークを構築し、その基盤上で動くプログラムを開発し、システム全体として組み上げる作業は、新たな”モノ”ができる工程なので、誰もが前向きに取り組むことができます。
一方、それらのシステムを運用し、安定して稼動させるためにはいろいろな角度からそのシステムが健康である事を確認しなければならず、また、健康ではなくなる兆候を如何に早く見つけて、すぐに直してあげられるのかが勝負になります。
しかし、多くの人はその様な業務は好まないかもしれません。
それは、なぜか!?
システムを作る時は新しいものができるため(そういう事ばかりではありませんが)、成果が目に見え、誰にとってもその成果が分かりやすいからでしょう。
しかし、システムを安定稼動させる仕事は、システムは動いて当たり前ですし、しかも、システムが一旦止まれば
「なんで止まるんだよ!困るじゃないか!」
と怒られます。
つまり、運用担当者からしてみると、怒られる事はあっても、褒められる事は滅多にない…。そこで、この様な業務は敬遠されがちになります。
そこに問題があるのですが、私は今、
その”安定運用する技術・ノウハウこそが重要である“
と強く感じているところです。
なかなか理解を得られないのですが…。
この記事を読んでいる方の中には(ごく一部かもしれませんが)、この辛さを分かる方がきっとおられると思います。
とは言え、システムを安定稼動させるために…
いくら怒られたって、褒められなくたって、それが仕事であればやるしかない!
そんなモチベーションを高く持つことは難しくても、どうすればシステムを安定的に稼動させる事ができるか、改めて必要な項目について整理してみたいと思います。
世の中には様々なシステムがありますが、弊社で稼動しているシステムで考えてみると、監視や管理が必要な項目は次の内容になります。
(1)サーバ/ネットワーク機器の死活監視
機器が停止したら速やかにそれを検知して必要な対応を執る必要があります。
一刻も早く正常な状態に戻したり、障害の予兆を検知した場合には、早めに計画停止を伝えたりしたりして、被害を最小限度に抑える対応もできます。
(2)サーバ/ネットワーク機器のサービス監視
項1と似ていますが、ソフトウェア的な動作の異常を検知して必要な対策を執るために必要な項目です。
(3)サーバ/ネットワーク機器のソフトウェアの管理
ソフトウェアに存在する不具合(いわゆるバグ)を突いて悪者が不正アクセスを試みますので、不具合が発見された場合には、速やかに不具合を改善したり、又は別な手段でその不具合が不正利用されないように対策を執る必要があります。
ソフトウェアの不具合=脆弱性の情報は様々な情報元から取得する事が出来ますが、その不具合情報が自分が管理するシステムの何に該当するのか、影響範囲はあるのか、の認識・認知が重要です。
いわゆる「情報管理台帳」的なものが無いと対応が必要/不必要かが判断できませんので、事前の準備も重要になります。
(4)セキュリティシステムの正常稼動の確認
ウイルス対策ソフトや不正侵入防御装置に適用されているパターンファイルは常にメーカーが提供する最新のものである必要があります。
この確認ができていないと、せっかく費用を払ってシステムを導入しているのに、活用できない状況が発生⇒ウイルス感染や、不正アクセスの可能性が高まります。
(5)データ/システムのバックアップの正常稼動の確認
ソフトウェアやハードウェアなど様々なやり方で、データやシステムのバックアップを取りますが、それらが正常に取られているかを確認しなければ、いざと言うときに「戻らない!」という恐ろしい事態になりかねません。
(6)ハードウェアやソフトウェアの保守期限の確認
ハードウェアもソフトウェアもメーカーの保守期限があり、それを超過すると、故障や不具合が発生してもメーカーは面倒みてくれなくなります。
故障しても修理できない。不具合が発生しても直らない、などの状況になる前に新しいものへの更新をするなどの対応が必要です。
改め列挙してみましたが、全ての事を確実に実施するためには人の手間も必要になりますし、経験やノウハウ、技術力も必要となります。
これらをそれぞれの組織で実施することは考えてみると、非現実的なのかもしれません。
だから、クラウドサービスの活用になるのでしょう。
⇒利用するシステム(クラウドサービス)においては全てです。
私達の仕事はクラウド側の仕事なので、以上のような作業をコツコツと粛々と行う必要がありますが、これらをお客様に「やるべきだ!」と言うのは無理がありますね。
今回、改めて自分達がやらなければならない事について、自分なりに整理できましたので、日々、精進してお客様のために安定したサービスを提供して行きたいと思います。
今回のテーマは、自分で問題を提起して自分で納得してしまいました。