「レートリミッターを入れているのに、毎時0分0秒にデータベースのCPU使用率が100%に張り付くのはなぜだ?」
これは、私が以前担当していた大規模なEコマースプラットフォームのフラッシュセール中に直面した悪夢のようなシナリオでした。アクセスログを確認すると、確かに制限値(例:100リクエスト/分)を超えていないように見えましたが、実際にはシステムが過負荷で悲鳴を上げていました。単純なカウンターベースの実装が、予期せぬ503 Service Unavailableを引き起こしていたのです。
本記事では、単純なFixed Window方式が抱える「境界値バースト」の問題を掘り下げ、Redis Luaスクリプトを用いたSliding Windowアルゴリズムによる、より堅牢で正確な実装方法を解説します。これは理論だけの話ではなく、実際に数万TPS(Transaction Per Second)をさばく本番環境で検証済みのトラフィック制御手法です。
単純なアプローチの限界:Fixed Windowの罠
当時、私たちはAWS ElastiCache (Redis) を使用し、ユーザーIDをキーとして単純なカウンターをインクリメントする方式を採用していました。いわゆる「Fixed Window(固定ウィンドウ)」方式です。
- 言語:Node.js v18 (Cluster Mode)
- インフラ:AWS ECS Fargate + ElastiCache (Redis Cluster)
- トラフィック:通常時 2,000 RPS / ピーク時 15,000 RPS
コードは非常にシンプルでした。Redisの INCR コマンドを使い、キーにTTL(有効期限)を設定するだけです。しかし、このアプローチには致命的な欠陥がありました。
例えば「1分間に100回」という制限の場合、XX:00:59に100回リクエストが来て、直後のXX:01:00にさらに100回リクエストが来た場合を想像してください。Redisのキーは分ごとにリセットされるため、このサーバーはわずか2秒の間に200回のリクエスト(許容値の2倍)を受け入れることになります。
これが、毎時0分ちょうどにスパイクが発生していた原因でした。バックエンドセキュリティの観点からも、この挙動はDDoS攻撃に対して脆弱であり、特定の瞬間にリソースを枯渇させる攻撃ベクトルになり得ます。
失敗した改善案:リストを使った履歴保持
最初に試みたのは、Redisの RPUSH と LLEN を使い、各リクエストのタイムスタンプをリスト(List)として保存する方法でした。リクエストが来るたびにリストの長さを確認し、古いタイムスタンプを削除するというロジックです。
しかし、これはすぐに破綻しました。高並行性(High Concurrency)環境下では、参照(Read)と更新(Write)の間に競合状態(Race Condition)が発生し、正確なカウントができませんでした。また、アプリケーション側で「取得→フィルタリング→保存」を行うため、ネットワーク往復(Round Trip Time)がボトルネックとなり、API全体のレイテンシが悪化しました。
解決策:LuaスクリプトによるSliding Windowの実装
ここで登場するのが、Sliding WindowアルゴリズムとRedisのZSET(Sorted Set)、そして原子性(Atomicity)を保証するLuaスクリプトの組み合わせです。
Sliding Window Log方式では、ウィンドウの開始位置が時間とともに滑らかに移動します。「現在時刻から過去1分間」という動的な範囲でカウントを行うため、Fixed Windowのような境界値でのスパイクを完全に防ぐことができます。
以下は、実際に本番環境で稼働しているLuaスクリプトの最適化版です。
-- rate_limiter.lua
-- KEYS[1]: ユーザー固有のレート制限キー (例: rate_limit:user:123)
-- ARGV[1]: 現在のマイクロ秒単位のタイムスタンプ
-- ARGV[2]: ウィンドウサイズ(ミリ秒、例: 60000)
-- ARGV[3]: 最大リクエスト許容数 (例: 100)
local key = KEYS[1]
local now = tonumber(ARGV[1])
local window = tonumber(ARGV[2])
local limit = tonumber(ARGV[3])
local clear_before = now - window
-- 1. ウィンドウ外の古いログ(タイムスタンプ)を削除
-- ZREMRANGEBYSCORE: O(log(N) + M) ここでMは削除される要素数
redis.call('ZREMRANGEBYSCORE', key, 0, clear_before)
-- 2. 現在のウィンドウ内のリクエスト数を取得
-- ZCARD: O(1)
local count = redis.call('ZCARD', key)
-- 3. 制限チェック
if count < limit then
-- 許可: 現在のタイムスタンプをスコアとメンバーとして追加
-- メンバーを一意にするため、マイクロ秒 + ランダム値などを推奨する場合もあるが、
-- ここでは簡略化のためタイムスタンプを使用
redis.call('ZADD', key, now, now)
-- キー自体の有効期限を更新(ウィンドウサイズ分あれば十分)
redis.call('EXPIRE', key, math.ceil(window / 1000))
return 1 -- 許可
else
return 0 -- 拒否(Too Many Requests)
end
このスクリプトをアプリケーション側から呼び出す際は、Redisクライアント(例: ioredis)の eval コマンドを使用します。重要なのは、これら一連の操作がRedisサーバー内でアトミックに実行される点です。他のリクエストが割り込む余地がないため、競合状態は発生しません。
コードロジックの深掘り
なぜ Sorted Set (ZSET) を選んだのか解説します。
- ZREMRANGEBYSCORE: このコマンドがアルゴリズムの肝です。スライディングウィンドウの概念通り、「現在時刻 - 1分」より古いデータを一括で削除します。これにより、セットの中には常に「有効な期間内のリクエスト」だけが残ることになります。
- ZADD & ZCARD: 要素の追加とカウントを行います。Fixed Windowとは異なり、リクエストごとのタイムスタンプを保持するため、どのタイミングでどれだけのリクエストが来たかを正確に把握できます。
- EXPIRE: キーが無期限に残るのを防ぐため、メモリリーク対策として必須です。これを忘れると、アクティブでないユーザーの古いログがRedisのメモリを圧迫し続けます。
パフォーマンス検証とAPIレート制限の効果
この実装を導入した後、実際に負荷テストを行い、Fixed Window方式との比較を行いました。以下はその結果です。
| 評価指標 | Fixed Window (INCR) | Sliding Window (ZSET + Lua) |
|---|---|---|
| 境界値での通過率 | 200% (過剰許可) | 100% (正確に制限) |
| CPU負荷 (Redis) | 低 | 中 (O(log N)) |
| メモリ使用量 | 極小 (Counterのみ) | 中 (タイムスタンプ履歴) |
| DDoS防御耐性 | 弱 | 強 |
表から分かるように、APIレート制限の精度は劇的に向上しました。RedisのCPU負荷は若干増加しましたが、Luaスクリプトによる通信回数の削減(Round Tripの排除)により、アプリケーション全体のレスポンスタイムへの影響は無視できるレベルでした。何より、トラフィック制御が正確になったことで、バックエンドサーバーの負荷が予測可能になり、オートスケーリングの設定が容易になりました。
導入時の注意点とエッジケース
この手法は万能ではありません。導入前に以下の点を考慮する必要があります。
Sliding Window Logは、ウィンドウ内の全てのリクエスト履歴を保持します。もし「1秒間に100万リクエスト」のような極端に高い制限値を設定する場合、ZSETのサイズが肥大化し、Redisのメモリを食いつぶす可能性があります。そのような超高負荷ケースでは、精度を少し犠牲にしてでも「Token Bucket」アルゴリズムや、Redis 7.0以降のSharded Pub/Subなどを検討すべきです。
また、Redis Cluster環境で使用する場合、Luaスクリプト内でアクセスするキーはすべて同じハッシュスロットに属している必要があります({user_id}のようなハッシュタグの使用を推奨)。
この実装への移行後、フラッシュセール時の原因不明の503エラーはゼロになり、サーバーリソースのオーバープロビジョニングを20%削減することに成功しました。
結論
APIレート制限は単なるカウンターではありません。それはシステムの可用性を守る盾です。単純なFixed Window方式は実装が容易ですが、高トラフィック環境においてはシステムの安定性を脅かすリスクがあります。
今回紹介したRedisとLuaを用いたSliding Windowアルゴリズムは、若干の実装コストと引き換えに、堅牢なトラフィック制御とバックエンドセキュリティを提供します。もし現在、APIの突発的な負荷に悩まされているなら、ぜひこの手法を試してみてください。より高度な制御が必要な場合は、以前の記事で解説したAPI Gatewayレベルでの制御も併せて検討すると良いでしょう。
Post a Comment