NTTドコモR&Dの技術ブログです。

大型配信イベントの裏側で活躍!Datadogによるリアルタイム計測と業務改善

はじめに

はじめまして。NTTドコモ 第一プロダクトデザイン部の横田零智と申します。

現在、サービス契約共通Webサイトのプロダクトオーナーを務めています。 「サービス契約導線」と聞いてピンとこない方もいらっしゃるかと思いますが、動画配信サービスをはじめとした定額制サービスの契約ページをイメージしていただければ問題ありません。

ドコモが提供する定額制サービスの契約ページはサービスごとに個別に作られておらず、複数のサービスで共通利用できる基盤システムとして開発しています。 こうした基盤システムで障害が発生すると複数のサービスに影響が及ぶため、イベント等で契約数が通常時より増加する際には、特に注意して対応しています。

そのためにリアルタイムにエラー数を把握し、ユーザ向け画面表示を最適化し、いつでも安定してサービスを提供できるよう、モニタリング・セキュリティプラットフォームであるDatadogを活用しています。

今回は、ドコモが提供しているとあるサービスにて配信された大規模ライブにおけるサービス契約共通Webサイトの裏側での取り組みをご紹介します。

事前準備

配信当日だけが私たちの出番ではありません。​ まず、サービス側の担当者が、どの時間帯にどの程度のお客様が契約ページに訪れ、手続きを完了するかを予測します。​ その予測に基づき、システムの耐久性を確認するため性能試験を実施します。​

これにより、実際の配信当日に契約ページの表示遅延やアクセス不能といったリスクを未然に防ぐことができます。​

​性能試験の結果を踏まえ、必要に応じてサーバーの増強や設定の調整を行い、安定したサービス提供を目指します。​

​当日対応:リアルタイム計測

配信当日は多数のお客様が契約ページにアクセスされるため、システムの状況を常に監視することが非常に重要です。​

私たちは、お客様の利用状況やシステムの動作状況をリアルタイムで把握し、問題発生時には即座に対応できる体制を整えています。​ そのために、Datadogをフル活用しています。​Datadogを使うことで、アクセス数やサーバーの負荷、エラー数などをリアルタイムで監視し、配信当日の安定稼働を支えています。​

実際に大型配信イベント時に使用したDatadogのダッシュボードの内容をご紹介します。​


①システム稼働状況​

サーバーのCPU、メモリ使用率、レスポンス時間などシステムの健康状態を確認できます。

図1:システム稼働状況

②ユーザ動向​・ビジネス指標

アクセス数とその変動、契約者数などユーザーの動きを把握できます。

図2:アクセス数変動

図3:ユーザの動きの数

③エラー数​

発生したエラーの総数や種類(例:HTTPエラー、タイムアウト、例外など)を監視できます。

サービス契約導線システムは、連携する他システムが多く様々なパターンでエラーが発生するため、原因毎にエラーコード/メッセージを分け、各エラーが増えていないかを監視しています。(200パタンを超えるアラート種類があります)

図4:エラー状況

当日対応:エラー表示内容改善

エラー数の監視については、前述の通りDatadogのダッシュボードで実数をリアルタイムに確認できるほか、​閾値超過時にはSlackへ自動でアラートを送信する機能もあります。​ これにより、問題を早期に発見し迅速に対応できます。​

​実際に大型配信イベント当日、あるエラーが閾値を超える件数発生したため、アラートが発報されました。​

このアラートを分析した結果、お客様のご契約状況や設定の影響により契約手続きが正常に行えないにもかかわらず、​同じお客様が10回、20回と繰り返しアクセスされていることが確認されました。​ なぜお客様にこのような状態が発生しているのか原因を探るため、実際のエラー画面の文言を確認したところ、​以下のような汎用的なエラー文言の表示となっていました(図4参照)。​

図4:エラー文言修正前

​この文言のままでは、お客様が何度もアクセスを繰り返してしまい、エラーが発生し続けてしまうことが明らかです。​ そこで、早急に文言の修正を行いました(図5参照)。​

図5:エラー文言修正後

​この対応は、アラート発報から約45分で文言修正まで完了しています。​

その結果、1時間あたり71件発生していたエラーが、次の時間帯には19件まで大幅に減少しています。

図6:エラー数推移

配信終了後​

大型配信イベントが終了した後も、私たちの仕事は続きます。 配信中に収集したデータやシステムのログを詳細に分析し、問題点や改善点を洗い出すことが非常に重要です。​

具体的には、アクセス状況や対応の振り返りを行い、今回の配信で発生したトラブルやパフォーマンスの課題を明確にします。​ その上で、次回の大型配信イベントに向けた対策やシステムの最適化を検討・実施します。​ また、SNSなどでのお客様からの声も参考にしながら、ユーザー体験の向上に繋がる改善を進めていきます。​

​このように、配信終了後の丁寧な振り返りと継続的な改善が、次回以降の大型配信イベントでの安定したサービス提供の土台となっています。​

さいごに

今回は、大型配信イベントにおけるサービス契約導線の裏側での取り組みについてご紹介しました。​ 配信当日のリアルタイム計測や迅速なエラー対応、そして事前の準備が、安定したサービス提供の鍵となっています。​

これからもお客様が快適・安心にご利用いただける環境を目指し、システム改善と最適化を続けます。​ 今後も技術や運用の進化に合わせて、より良い基盤システムの提供に取り組んでいきます。​

最後までお読みいただき、ありがとうございました。