EKSスポットインスタンスの中断対策:Node Termination HandlerとpreStopフックで実現する「切れない」通信
深夜2時、PagerDutyが鳴り響きました。原因はAPIサーバーの一時的な502エラー多発。ログを確認すると、アプリケーションのエラーではなく、基盤側のノードローテーションに伴う接続断が原因でした。我々のチームでは、 FinOps の観点からAWS EKSのワーカーノードをオンデマンドから スポットインスタンス に移行したばかりでしたが、これが「安かろう悪かろう」の結果になってしまっては意…