2024年2月27日

コールセンターの運用について ~第1回 運用保守~

callcenter

目次

Contents

はじめに

みなさまはじめまして。
再春館システムのY.Fです。

私事ですが10月からベトナムにて駐在勤務となり、日本との違いに驚く毎日を過ごしています。
なかでも特に驚いたのが、ベトナムの生活でスマートフォンアプリがとても便利だという事です。
通販は当然として、飲食店のメニュー、スーパーの商品もスマホ1つで自宅まで届けてくれます。
また、移動するときもアプリでタクシーを呼ぶことができます。
生活のほとんどすべてがスマホ1つで完結してしまうのです。
ただ、ここで気になることが出てきます。
アプリの使用中にトラブルが発生した場合は、どのような手順で対応されるのか…。

日本の場合、最近だとメールやSNSを活用した対応をよくみかけますが、最終的にお問い合わせ先の電話番号に電話をかけ、その先にいるコールセンターの方と話すことが多いのではないでしょうか。
ベトナムでも同じように電話対応が行われていて、日本と同じようなコールセンターが存在するようです。
そんなコールセンターですが、オペレータの方へサポートしているエンジニアが存在します。エンジニアはオペレータがお客様に対して円滑に対応できるよう、電話操作にかかわることから顧客情報の管理まで様々なシステムを提供することでサポートしています。

そこで、エンジニアのコールセンターシステム支援について、「運用保守」「開発」「提供サービスの質」のそれぞれを、3回の記事に分けて発信していこうと思います。

 

【コールセンターの運用保守作業とは】

maintenance

1回目となる今回のテーマは「コールセンターシステムの運用保守」です。
運用保守という言葉の意味については、次の通りです。

運用:「そのもののもつ機能を生かして用いること」
保守:「正常の状態を保ち、それが損じないようにすること」

ただし、IT分野においてはこう言った一般的な意味合いの他、各契約で個別に定められた要件(非機能要件やSLA等)によって何を実施するかを定義しています。一例としては次のようになります。

運用:「契約の要件に定められた稼働時間内において、問題なくシステムを稼働させること」
保守:「システムに何らかの異常が発生した場合、適切な対応を行いシステムを正常な状態に戻すこと」

それぞれの意味を確認したところで、次は「運用、保守」それぞれの作業についてざっくりと確認します。

[ 運用 ]
① システムの監視
② システム構成部品の交換
③ サーバ管理(再起動など)

[ 保守 ]
① 不具合の原因究明
② 不具合の修正・復旧
③ システムの更新

上記の作業内容からもお分かりの通り、運用作業は日常的に実施するのに対し、保守作業は事象発生時にのみ行います。

運用保守業務において保守は常に作業が発生しているわけでは無いので、見る人によってはとても地味な作業に見えてしまうかもしれません。
しかし、現代においては身の回りのほぼ全てのものが何らかのコンピューターとその制御プログラムで動いており、それらが常に正常に動くこと、それ自体が大変重要なことです。
身近な例えとして、キャリアで通信障害が起こった、ATMが使えない、レジが動かず開店できない…
等々、これらの重大事故も原因はほんの僅かな保守作業のミスであったということも珍しくありません。

コールセンター内で使われるシステムも、これらのインフラと同様に止まってはならないミッションクリティカルなシステムであると言えます。
「システムは正常に動いて当たり前」その当たり前を支えているのが「運用保守」です。
次の章では、それぞれの作業内容について記載します。

【作業内容】

それでは「運用、保守」それぞれの作業内容について、ひとつずつ見ていこうと思います。

[ 運用:システムの監視 ]

当たり前ですが、コールセンターシステムは24時間稼働し続けていることが多く、毎日多くのオペレータが使用しています。
オペレータが各々で必要な操作を行うので、それらを処理しなければいけないシステム(特にサーバ)には強い負荷が掛かっています。
システム監視では、強い負荷に対してシステム異常が発生していないか常に確認しています。
ただ確認といっても、何かの画面をじっと見つめるような作業ではありません。
システムに異常が発生しそうな兆候があればメールなどで適宜連絡が発報されるシステムを構築し、その発報をもって実作業に取り組めるよう常に準備をしています。
[ 運用:システム構成部品の交換  ]

多くのオペレータが使用するコールセンターのシステムで、最も消費が激しいのはメモリ関連の部品です。システム構築時にも、メインとバックアップ用の2本メモリを組み込みます。
他にもシステムを構成する物理的な部品は、予備の部品が迅速に手配できるよう常にストックが用意されています。

万が一稼働中の部品を交換する必要が発生した場合、本番環境への影響を最小限にするため、次の手順で部品交換を行います。

・ 本番環境から使用できないよう設定変更を行い、予備部品を設定する。
・ 新しく設定した部品を本番環境が使用するように設定変更を実施する。
・ 本番環境から故障した部品を使えなくする。
・ 本番環境から使用されていないことを確認し、故障した部品を本番環境から取り除く。
・ 部品交換中にシステムで異常が発生していないか、作業時間周辺を対象に調査を行う。

このように、部品のストック確保や、寿命の管理、異常発生時の迅速な対応も運用としての大切な仕事です。

[ 運用:サーバ管理(再起動など) ]

コールセンターを運用し続けると、サーバ内に不要な情報がたまっていくものです。
不要な情報はサーバへの負荷になってしまうので、サーバの再起動を行いきれいにする必要があります。
その作業を行うことも運用の仕事です。
仮にサーバを長時間稼働させ続けた場合に、OSやシステムに影響が無いとは言い切れません。
一定の間隔で再起動を行うことで、長時間稼働による異常を避けることができます。

また、定期的に再起動を行うことで、システムの停止・起動の作業をスムーズに実施できるようになります。滅多に起こる事では無いですが、建物やその他システム以外の都合で電源を落とす必要が出た場合のため、手順書の作成や作業者の慣れのためにも再起動の処理は必要な作業なのです。

[ 保守:不具合の切り分けと原因究明 ]

コールセンターシステムを使用していると想定外の動きをする場合があります。
この原因として、大きく以下に分けられます。

要因1:機器やネットワーク等の環境に起因する不具合
要因2:バグ
要因3:システム構築時の考慮・設計漏れ

上記のような原因の場合、オペレータがその場で事象の原因を特定や切り分けをするのは困難です。
そこで、保守メンバーが業務として事象発生の原因を特定します。
原因特定を行う場合、事象発生時のオペレータの操作や画面表示内容を把握することが大切です。
そのような情報を取得できるよう、システム内部の様々なアプリケーションに常にログを出力するのが一般的です。
ログにはアプリケーションの処理情報が記録されるので、そこから事象発生時の様々な情報を取得する事ができます。
また、取得した情報をもとにテスト環境で再現するかの確認をすることで、事象の原因を特定し都度適切な対処へと移ることができます。

 

[ 保守:不具合の修正・復旧 ]

不具合の原因が分かると、その影響度合いによってシステムの対応を行います。
修正が必要なケースの場合、オペレータやその先のお客様に直接影響が発生していることがほとんどです。オペレータやお客様への影響は、システムや会社の信用低下にもつながるので迅速な対応が必要となります。修正を行う場合は「顧客要望の確認、不具合箇所の修正、修正後の検証、本番環境へのリリース」の作業を行います。リリースタイミングは、システムの使用者やその先のお客様への影響を考慮し、稼働が低い夜間に実施されることがほとんどです。

 

[ 保守:システムの更新 ]

不具合もなく安定して稼働しているシステムでも、数年に1度のペースで更新をする必要があります。
その理由としては、次のようなものがあります。

理由1:セキュリティ性能を高めるため
理由2:各種サポートを継続して受けるため
理由3:新しい技術を導入するため

特には重要で、ITの進化スピードに合わせるように、悪意を持った者の攻撃手段も進化しています。
また、同じ商品でもリリースから時間が経過するほど、脆弱性が見つかりやすくなります。
そのようなことからある程度の年数でシステムを更新することで、セキュリティ性能が高まり、顧客からの信頼も守ることができるのです。

 

【事例紹介】

ここまで運用・保守それぞれの作業内容について触れました。
ここからは、運用・保守それぞれの業務についていくつか参考事例をご紹介します。
[ 本番環境でのメモリ交換作業 ]
本番環境で使用しているメモリディスクの予兆監視が上がったことがありました。
予兆監視なので時間に多少の余裕があったため、サポートデスクへ問い合わせを行い、交換作業での影響範囲について確認を行いました。
確認の結果、提供しているサービスを停止する必要があることが分かったので、お客様への事前周知を行いサービス時間外となる夜間に交換作業を行いました。
システム監視のおかげで故障前に知ることができ、故障部品や交換作業に関わる影響を最小限に留めることができました。

 

[ 本番環境へのログイン失敗 ]
本番環境は、実際にお客様が使用する環境なので、運用・保守メンバーといえど勝手に触ることができない事が一般的です。
操作するためには、管理者の許可とログインパスワードの入力が必要とされます。
またパスワードについても、セキュリティ面を考慮して一定の期間で更新するような運用となります。
そのため、パスワードを知らない人が勝手にログインしたり古いパスワードでログインしたりすると、ログイン失敗となり、管理者にログインに失敗した旨のメールが発報される仕組みになっています。
本番環境へのログイン作業には管理者の許可が必要なので、不正アクセスを検知できるようになっています。

 

[ 誤登録データの修正 ]
稀に、登録内容を誤って登録してしまったので、どうにか修正できないかという依頼が来ることがあります。その場合、当然登録されたデータは取り消す必要がありますが、データの影響範囲次第でとるべき対応が異なります。
対応方針を決めるためにも、ログからデータ誤登録時の情報を収取し、影響範囲の調査を行います。
調査の結果、影響が登録した該当データのみであれば、お客さま指定のタイミングでデータ削除対応を行いますが、影響が登録データ以外にまで及ぶ場合は、その場でリカバリは実施しません。影響があると思われる他システムなどにも調査を依頼し、関連システムすべてで調査が完了した時点で、リカバリタイミングをお客さまと相談します。

【まとめ】

今回はコールセンターの運用保守作業について、日頃から行っている作業内容をまとめてみました。
あまり目立つような作業が無いので、一見すると暇そうに見えるかもしれません。
ですが、実際にはコールセンターを常に正常に運用する上で、とても重要な役割をもっていることが分かっていただけたと思います。
次回はコールセンターの開発作業についてまとめてみようと思います。

記事: Y.F