WirelessWire News Philosophy of Safety and Security

by Category

KDDI、iPhoneなどのEメールトラブルはシステムバージョンアップ作業に原因

2013.04.25

Updated by Naohisa Iwamoto on April 25, 2013, 18:23 pm JST

KDDIは2013年4月25日、4月16日から19日にかけて発生したiPhone/iPad/iPad miniのEメールトラブルの内容と対策について発表した。Eメールリアルタイム送受信システムのバージョンアップに伴い、3つの問題が発生したことが要因だという。

4月16日から19日にかけて、KDDIのiPhoneなどが利用するEメールリアルタイム送受信システムでは、3つのトラブルが発生した。まず、4月16日0時35分~0時41分に、最大200人がEメールリアルタイム送受信サービスを利用できなくなるトラブルがあった。その後は既報の通り、4月16日8時8分~13時29分に最大288万人を対象に同サービスが利用できなくなり、さらに4月16日13時29分~4月19日2時54分に最大127万人を対象に同サービスが利用しづらい状況になった。

KDDIによるとトラブルは、Eメールリアルタイム送受信システムのバージョンアップ作業に伴い、3つの問題が発生したことに起因する。現行サーバー(マスター/レプリカ)から新サーバー(マスター/レプリカ)への移行でトラブルが発生した。

▼Eメールリアルタイム送受信システムに発生したトラブル(KDDI資料)20130425_kddi001.jpg

1つ目のトラブルは、現行ユーザー認証サーバーのマスターとレプリカの間で、ユーザー情報が不一致になったこと。この原因は、手順書ミスによるコマンド誤りで、ユーザー情報が一部欠損したことだった。

2つ目は、1つ目のエラーを解消した後に、ユーザー認証サーバーを新サーバーに切り替え、新プロキシサーバーに切り替えを実施したところタイムアウトエラーが発生したことがきっかけ。予期せぬエラーの発生で現行サーバーへの切り戻しを行ったところ、新ユーザー認証サーバーのレプリカの片系がハードウエア障害でダウンした。残る片系も過負荷でダウンし、Eメールリアルタイム送受信が利用不能になった。ハードウエア障害に加えて、二重障害時の対策準備不足が原因という。その後、現行ユーザー認証サーバーへの接続変更、メールBOXサーバーの再起動を行った。

3つ目は、2つ目のトラブル解決策として行ったメールBOXサーバーの再起動の際に、再起動手順上の問題と中継サーバーに滞留した大量の受信メールにより、62台あるサーバーのうち24台のサーバーが高負荷状態になったことが原因。さらに端末からのアクセス急増も重なり、メール送受信が利用しづらい状況になった。メールBOXサーバーへの流量コントロールなどの対策で、4月19日2時54分に利用しづらい状況を解消した。

KDDIでは今回のトラブルを受けて、対策をアナウンスした。1番目の手順書ミスに対しては、手順書チェックやリハーサルプロセスの総点検、事前検証試験内容の見直しなどを行う。2番目のハードウエア障害と二重障害時の対策準備不足に対しては、ハードウエア故障原因の分析と対策を決定するほか、二重障害時の復旧手順を確立する。3番目の再起動手順の問題などに対しては、ディスクの処理能力を考慮した早期復旧手順の見直しや、流量調整ツールの導入などを挙げている。バージョンアップなどの作業実施におけるミスをなくすため、対象設備だけでなく周辺設備まで含めたシステム全体の事前検証を行うほか、障害発生時の復旧の迅速化に務めるとしている。

【報道発表資料】
Eメールリアルタイム送受信システムの通信障害について

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

岩元 直久(いわもと・なおひさ)

日経BP社でネットワーク、モバイル、デジタル関連の各種メディアの記者・編集者を経て独立。WirelessWire News編集委員を務めるとともに、フリーランスライターとして雑誌や書籍、Webサイトに幅広く執筆している。