NTTドコモR&Dの技術ブログです。

AWS re:Invent 2025: The Frugal Architect(コスト最適化)のGameDayで3位獲得と関連アップデート

NTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 5年目社員の小澤です。

今年のアドベントカレンダーではThe Frugal Architectと関連アップデート、GameDayで3位を獲得したことについて投稿いたします。

2025 Japan AWS Top Engineers (AI/ML Data Engineer) と全資格保有者である2025 Japan All AWS Certifications Engineers として、任期1年の活動にも取り組んでいます。

現地でいただいたお気に入りのSWAG等

普段の業務では、1日数百TBにわたる4G、5G基地局の通信制御信号をリアルタイムで分析可能とし、 ネットワークエリア品質向上に役立つデータへ変換するシステムの研究開発業務に携わっており、いわゆるデータエンジニア的な業務に携わっております。

MINADENシステムとは?

The Frugal Architectとは

「The Frugal Architect」とは、直訳すると「倹約なアーキテクト」でCTOのWernerさんが提唱しているシステム設計におけるコストの意識と継続的な改善の重要性を述べている7つのルールのことです。

The Frugal Architectについて
thefrugalarchitect.com

コスト最適化に関連するアップデート

AWS Lambda Managed Instances

運用・管理面でのサーバレスの強みを活かしつつ、EC2上でLambda関数を動作させることが可能な新機能です。つまり、インスタンスのライフサイクル管理、OS パッチ適用、負荷分散、自動スケーリングを意識せずにEC2上でLambdaを動かすことが可能です。 aws.amazon.com

  • 15分以上実行可能
  • RI/SPを適用可能(実態はEC2のため)
  • 1つの実行環境で複数のリクエストを処理可能(Lambda環境の並列性やコールドスタートの排除)
  • EC2費用 + 管理費用(EC2費用の15%)

    以下のようなワークロードでも合うケースが出てくるのではないかと考えられます。

  • ストリーミング (従来よりもスループット高く、継続的に動作させる)
  • AIモデルの推論 (15分以上の推論や性能面で諦めていたケース)
  • LLM実行パイプライン(Step FunctionsやSQS等を使用しないで構築)

    単純なLambdaの費用のみで比較すると高額ですが、ワークロードに対応するアーキテクチャやLambdaの使い方によって変わるはずですので、「The Frugal Architect」の原則に沿って最適化してみるとよいかもしれません。

    AWS Lambda Durable Functions

    docs.aws.amazon.com ⾃動チェックポイント機能の導入により、エラー発生時の再実行や最⼤1年間、待機することができる機能になります。従来Step Functionsを利用しなければならなかったようなワークフローをLambda単体で組むことに繋がるかもしれません。待機中は費用が生じない特徴もあります。AWS Lambda Managed Instancesと合わせて、これらが登場した背景はLambdaの利用のさせ方が今まで変化してきており、AIエージェント(LLM)の普及によってLambdaを長期的に動かしたいケースが増加しているからかもしれません。複数のリソースが1つにまとめられる可能性があるという観点で、コスト最適化に繋がるかもしれません。

    Database Savings Plans

    aws.amazon.com 従来は、Reserved Instance(RI)を適用可能でしたがSavings Plans(SP)も適用可能になりました。EC2とは異なり最大3年ではなく1年の利用になりますが、インスタンスファミリーやサイズを変更させられる柔軟性がSPによって生まれるため「The Frugal Architect」の原則の「Cost Optimization is Incremental (Law 6)」に当てはまりそうです。システムの要件、取り巻く環境は変化する場合もあるので採用することでことでコスト最適化に繋がるかもしれません。

    Amazon S3 Vectors がスケールとパフォーマンスを向上させてGA

    aws.amazon.com Amazon S3 Vectorsは、S3以外のリソースを使用せずにS3をベクトルストアとして利用可能なサービスです。従来は、Amazon OpenSearch Serviceが使用されることが多かったですが、性能や機能が充実している分、費用が高額でリソースの運用も必要でした。Bedrock Knowledge BasesでマネージドにRAGを作る際の選択肢としてOpenSearch Serviceがありましたが、Knowledge Basesを消してもOpenSearch Serviceは消されないという難点もありました。S3 Vectorsを利用することで、コスト最適化に繋げることができるとも考えられます。主な特徴は以下です。

  • S3以外のリソースは作成されずストレージとリクエスト・クエリ料金が必要
  • インデックスあたり最⼤20億ベクトルを処理可能 に(プレビュー時の40倍)
  • バケットあたり最⼤20兆ベクトルを格納可能に
  • 頻繁に実⾏されるクエリの性能を2-3倍に向上

GameDayで3位を獲得!

The Frugal Architect GameDay: Building cost-aware architectures

CTO Wernerさんの登場

GameDayの内容や工夫

  • Gravitonインスタンスへの移行(EC2/RDS)
    ASGのlaunch templateを使って既存〜新規に立ち上がるインスタンスにも適用する部分まで対応することでクリア。商用環境で同様の場面があったら、既存のインスタンスにも適用しないとコスト削減の効果が薄くなってしまうため、必要な対応でした。
  • インスタンスサイズの最適化
    ワークロードに合うような、インスタンスタイプ・サイズを選定することは重要です。CloudWatchでメトリクスを確認し、CPU使用率が低いので問題ないように見えましたが、クリアできない状況が継続的に生じていました。こちらはインスタンスサイズが小さすぎで、アプリが動けずにCloudWatchログにログすら出ていない状態でした。実際の商用環境でも発生したことがある、よくある事象の1つでした。
  • リクエストが少ないので、SQS->Lambdaへの非同期処理へ移行
    リクエストが少ないにも関わらず、常時EC2を立ち上げておくのは費用が無駄になってしまうためLambdaへの移行のための環境を構築しました。

    3位受賞!

    2024 AWS Jr.Championsの同期と臨んだ結果、40チーム以上の中、3位を獲得することができました!発表直前の順位では7位だったので、発表の際には驚きました。GameDayに関しては、SCSKさんの記事にもありますのでご覧ください!エンジニアの鏡で、憧れのCTOのWernerさんのサインが入ったノートをいただけてとても嬉しかったです。

    3位受賞!

同じテーブルの優しいエンジニアの方々

Werner CTOのサインとメダル

チームでのコスト最適化の取り組みは、国際レベル?!

チームでは、コスト最適化に以前から取り組んでおり登録者が約3,500名のAWSコスト削減 天下⼀武道会でも発表させていただきました。GameDayで3位を獲得できたことからもチームのコスト最適化の取り組みは国際レベルと言っても過言ではないのではないでしょうか?!今後もWernerさんの「The Frugal Architect」の考えは大事にしていきます! www.slideshare.net