[生活] 慣れと思い込みは天敵

ようやく試用期間が終わり、少し職場に慣れてきました。
少しほっとしたのもつかの間、事件はおきました。

現在の業務の1つに、サーバの監視業務があります。
CPU・メモリ・ディスク使用料など、リソースの使用状況を毎日記録しています。
また、月の終わりにはそれらを纏めて報告書として提出しています。

リソース監視は、ディスク使用料のような、明らかに数字で判断がつくもの(例えば使用料が85%を超えたら注意するといったようなもの)は、分かり易いのですが、ある程度そのシステムの利用状況や運用状況を知ったうえでないと分からないものがあります。

その1つが、データベースのデータ削除時間です。

日々増え続けるデータを持ち続けるのは不可能なため、ルールを決め、あるタイミングで削除します。
システム導入時は、データ量や理論値から、おおよその予測値を立てて設計・導入するのですが、使用年月が経つにつれ、システムも少しずつ変化し、データ量や内容も徐々に変わって行くため、データ削除に必要となる時間は、日々の運用の中で見直さなければならなくなります。

2か月ほどこのリソース状況の監視を経験したおかげで、データ削除時間がどれくらい必要になるか、また削除時間の増減が多少あることなどもわかってきました。また、日々の記録方法にも慣れてきました。

そんな最中、事件はおきました。

ある日、データ削除経過を監視していると、いつもの終了時刻に終わっていません。
「データ量が多いのかな?」と思い、30分ほど様子を見ていました。
ところが、30分経っても一向に終了する気配がありません。
「何かおかしい」と思い、先輩社員に状況を伝え、確認を行ってもらいました。
その間、ログなどを確認し、状況把握に努めました。
すると、驚くようなことが分かりました。

ここ数日間で数十万件のデータが削除できていないという事実が分かりました。
理由に関しては、現在も調査中なのですが、どうやらデータ削除アプリケーションに問題があるということが分かってきました。

アプリケーションに問題があることが根本の問題ではあるのですが、それ以前に日々の監視業務の中で、もっと早くデータ削除ができていないことに気付くべきでした。
改めて日々の記録を確認すると、2週間前頃からデータの削除時間が1時間~1.5時間くらい早くに終わっていることがわかりました。どうもこのころから、データ削除処理に関して問題が発生していたことが分かってきました。
幸い、主業務に大きな影響を与えることはなかったため、惨事にはなりませんでしたが、一つ間違えば大事でした。

少し業務に慣れてきたために、日々の記録の見方や確認が大雑把になってきていたのが、今回の見落としの原因です。
業務に慣れることは良いことだと思いますが、そのために肝心なことを見落としていては全く意味がありません。
気を抜いた訳ではないのですが、今回の件を教訓に、改めて気を引き締めて業務に取り組みたいと思います。