KDDIの通信障害の経緯を振り返る
KDDIの大規模通信障害は、スマートフォンの音声通話を主体として多くの人が通話・通信が利用しづらくなり、「110番」「119番」などの緊急通報ができないなどの問題が発生しました。問題はそれだけにとどまらず、KDDIの回線を用いて通信しているATMや気象観測所など、さまざまな企業のシステムやサービスにも影響が及び、およそ3日間にわたって社会的にも大きな混乱が生じたというのは実感した人も多いかと思います。
現時点で分かっている原因
では一体なぜ、KDDIのネットワークにそこまで大きな障害が発生してしまったのでしょうか。本記事公開時点(2022年7月13日)では全ての原因が解明されている訳ではないのですが、KDDIの説明からおおまかな経緯はある程度判明しているので、簡単に振り返ってみましょう。障害のきっかけとなったのは、モバイル通信の大本を司るコアネットワークの中にある機器を新しいものに交換するメンテンナンス作業にあるようです。KDDIは2022年7月2日の深夜1時にこの作業をするに当たって、音声通話のデータが流れるルートを変える作業を実施したところ、なぜか一部の音声通話が15分間、不通になってしまったそうです。 そこで一度音声通話のルートを元に戻したのですが、その際音声通話の処理を担う「VoLTE交換機」にアクセスが集中、混雑して通信がしづらくなる「輻輳」(ふくそう)と呼ばれる状態に陥ってしまったのです。
なぜアクセスが集中したのか
なぜ深夜にアクセスが集中するのか?と疑問を持つ人もいるでしょうが、4Gで音声通話をする「VoLTE」の仕組み上、スマートフォンから50分おきにネットワークに接続する必要があるとのこと。音声通話が止まっている15分のうちに多数のスマートフォンからなされた定期的なアクセスが溜まり、それが一気に流れたことでアクセス集中に至ったようです。 そしてVoLTE交換機が輻輳状態に陥ったことで、携帯電話が通信する上で必要不可欠な契約者情報などを保存している「加入者データベース」がVoLTE交換機に情報を書き込むことができなくなりました。輻輳状態に陥ってしまったうえ、加入者データベースとVoLTE交換機のデータに不整合が発生してしまったのです。KDDIでは7月2日の3時より、50%のアクセス制限をかけて輻輳状態に陥っているVoLTE交換機、そして加入者データベースの負荷を下げ、混雑を解消する措置を講じました。その後加入者データベースとVoLTE交換機の間で生じていたデータの不整合を1つずつ修正し、西日本では翌7月3日の11時、東日本では17時30分に復旧へと至っています。
ですがそれでもVoLTE交換機と加入者データベースへの負荷が完全には下がらなかったため、アクセス制限を継続して原因を究明。その結果、18台あるVoLTE交換機のうち6台が、輻輳の影響により加入者データベースに不要な信号を送るようになっていたことが、7月4日の午前に判明。6台をネットワークから切り離すことでようやく負荷がなくなり、障害発生前の水準を回復できたことから、徐々にアクセス制限を緩和して同日の14時51分には完全解除するに至っています。 これだけの大規模障害が起きただけに、その後も問題が起きないか慎重に監視が続けられ、完全復旧の宣言がなされたのは7月5日の15時となった訳です。ただ先にも触れた通り、現時点では原因究明が完全には終わっていないのが現状で、より詳細な原因の説明や、ユーザーへの補償などについては、今後KDDIから改めて発表されるものと考えられます。
>次ページ:技術畑ながら表舞台に立つ機会も多かった高橋氏の経歴