你的AWS EC2实例成本真的降不下来吗

14 November 2025

作为一名全栈开发者，我们每天都在与代码、架构和部署打交道。我们追求功能的完善、性能的卓越和用户体验的极致。然而，在云时代，一个常常被我们忽视，却又能在月底给我们带来“惊喜”账单的幽灵，那就是云成本。尤其是AWS中的EC2实例，作为最基础也是最核心的计算资源，它往往是成本的大头。你是否也曾看着那不断攀升的AWS账单，发自内心地问一句：“这EC2成本，真的降不下来吗？”

答案是否定的。降低EC2成本并非不可能，但这需要我们跳出“能跑就行”的舒适区，以一种更精细、更具策略性的眼光来审视我们的资源使用。这不仅仅是运维或财务团队的责任，更是我们开发者提升自身工程能力和商业价值的重要一环。这背后其实是一种被称为 FinOps 的文化和实践，它倡导技术、财务和业务团队之间的协作，共同为云支出负责。

本文将以一名资深全栈开发者的视角，带你深入探索那些隐藏在AWS控制台深处的EC2成本优化秘籍。我们将不仅仅停留在“关闭不用的实例”这种基础操作，而是会深入到实例选型、购买选项、弹性伸缩、架构替代方案乃至自动化治理的每一个环节。准备好了吗？让我们一起开启这场榨干EC2成本的深度优化之旅。

成本优化的第一步：实现精准的成本可见性

在开始任何优化之前，我们必须先回答一个根本问题：“我的钱到底花在了哪里？” 如果没有精确的成本数据作为支撑，任何优化都如同盲人摸象。在AWS成本优化的领域里，可见性永远是第一位的。幸运的是，AWS提供了一系列强大的工具来帮助我们拨开成本迷雾。

释放AWS Cost Explorer的真正潜力

AWS Cost Explorer 是我们分析成本的首选工具。它不仅仅是一个账单查看器，更是一个强大的成本分析引擎。然而，很多开发者只是偶尔用它看一眼总花费，这远远没有发挥出它的价值。

基础入门： 如果你还没激活它，请立即前往AWS账单控制台的“成本管理”部分开启。数据通常需要24小时才能填充完毕。
分组与筛选： Cost Explorer最强大的功能之一就是其灵活的分组（Group by）和筛选（Filter）能力。要分析EC2成本，你应该这样做：
1. 在右侧的“筛选器”中，选择“服务(Service)”并勾选“EC2-Instances (Box Usage)”。
2. 使用“分组依据”功能，尝试按“实例类型(Instance Type)”、“可用区(Availability Zone)”或“使用类型(Usage Type)”来拆分成本。这能让你迅速定位到是哪种类型的实例、在哪个区域耗费了最多的资金。
创建自定义报告： 对于一个复杂的项目，你可能需要持续追踪特定模块或环境的成本。你可以将一套常用的筛选和分组设置保存为报告，方便日后一键查看。例如，创建一个“开发环境EC2成本报告”，筛选出所有`env:dev`标签的EC2实例成本。

除了图形界面，我们也可以通过AWS CLI获取成本数据，这对于自动化报表和集成非常有用。例如，获取过去一个月每天的EC2实例花费：


aws ce get-cost-and-usage \
    --time-period Start=$(date -d "-30 days" +%F),End=$(date +%F) \
    --granularity DAILY \
    --metrics "UnblendedCost" \
    --group-by Type=DIMENSION,Key=SERVICE \
    --filter '{
        "Dimensions": {
            "Key": "SERVICE",
            "Values": ["Amazon Elastic Compute Cloud - Compute"]
        }
    }'

不可或缺的基石：标签（Tagging）策略

如果说Cost Explorer是分析工具，那么标签就是为这个工具提供高质量数据的基石。没有一个良好、一致的标签策略，你的成本分析将举步维艰。

“一个没有被正确标记的资源，在成本归属上就是一个‘孤儿’。当这样的‘孤儿’资源成百上千时，你的云账单就会变成一笔糊涂账。”

作为开发者，我们应该在创建资源时就养成打标签的习惯。一个基础且有效的标签策略应至少包含以下几个维度：

Project: 资源所属的项目或应用名称（例如：user-service, order-pipeline）。
Environment: 资源所处的环境（例如：dev, staging, production）。
Owner: 负责该资源的团队或个人（例如：backend-team, john.doe）。
CostCenter: 成本归属的部门或成本中心代码（这通常由财务部门提供）。

为了强制执行标签策略，可以在AWS Organizations中使用服务控制策略（SCP）来限制用户创建没有特定标签的资源。这是一种自上而下的治理方式，能确保成本数据的整洁和可用性。

主动防御：设置AWS Budgets

与其在月底收到账单时才大吃一惊，不如设置一个主动的预警系统。AWS Budgets允许你为特定的服务、标签或账户设置预算阈值。当实际支出或预测支出超过阈值（例如80%）时，它可以通过SNS消息或邮件向你发出警报。

对于开发团队而言，可以为每个项目的开发环境设置一个独立的预算，一旦超支，团队负责人会立即收到通知，从而可以在成本失控前及时介入。这是将FinOps文化融入日常开发流程的有效实践。

选择正确的EC2实例：不只是CPU和内存

在创建EC2实例时，最常见的误区就是“过度配置”（Over-provisioning）。为了保险起见，开发者往往会选择一个远超实际需求的实例规格，“先用着，以后再调优”。这种想法正是导致云成本浪费的罪魁祸首。选择正确的实例类型，即“权利调整”（Rightsizing），是EC2成本优化的核心环节。

深入理解EC2实例家族

AWS提供了数百种实例类型，它们被划分为不同的家族，每个家族都针对特定的工作负载进行了优化。了解它们的特性是做出正确选择的前提。

实例家族	代表系列	核心特点	典型应用场景	作为开发者需要注意的点
通用型 (General Purpose)	M6g, M5, T4g, T3	CPU、内存、网络资源均衡	Web服务器、微服务、开发环境、小型数据库	T系列是“可突增”实例，有CPU积分概念。平时低负载时积累积分，需要时消耗积分来获得更高性能。如果积分耗尽，性能会被限制在基准线。要通过CloudWatch监控`CPUCreditBalance`和`CPUCreditUsage`，避免性能瓶颈。
计算优化型 (Compute Optimized)	C6g, C5	最高的CPU性能，相对内存较低	批处理、媒体转码、高性能计算（HPC）、科学建模、CPU密集型API	不要被“计算优化”误导，认为它适合所有计算任务。如果你的应用内存瓶颈更严重，使用C系列反而是浪费。要结合应用的性能剖析来选择。
内存优化型 (Memory Optimized)	R6g, R5, X2g, X1	每vCPU拥有大量内存	关系型数据库（RDS, Aurora）、内存数据库（Redis, Memcached）、大数据分析（Presto, Spark）	这类实例通常价格不菲。在选择前，务必确认应用确实存在内存压力。有时，代码层面的内存泄漏或不合理的缓存策略才是根本原因。
存储优化型 (Storage Optimized)	I4i, I3, D3	拥有极高IOPS和吞吐量的本地NVMe SSD	NoSQL数据库（Cassandra, MongoDB）、数据仓库、Elasticsearch集群	这些实例的本地存储是临时的，实例停止或终止时数据会丢失。必须设计好数据备份和持久化策略（如EBS快照，或利用应用自身的复制机制）。
加速计算型 (Accelerated Computing)	P4, G5, Inf1	配备GPU或AWS自研芯片（如Inferentia）	机器学习训练与推理、图形渲染、视频处理	驱动和CUDA版本需要与你的ML框架兼容。AWS提供了专门的深度学习AMI（DLAMI），预装了常用框架和驱动，能节省大量环境配置时间。

拥抱变革：Graviton (ARM) 实例

AWS自研的基于ARM架构的Graviton处理器是近年来云领域最重要的变革之一。最新的Graviton3实例（如C7g, M7g, R7g）相比同等的x86实例，可以提供高达40%的性价比优势。这意味着你可以用更少的钱，获得更好的性能。

对于全栈开发者来说，迁移到Graviton不仅是成本优化的手段，更是技术栈现代化的体现。

哪些应用适合迁移？

解释型语言应用： 使用Java (JVM)、Python、Node.js、Ruby、PHP等语言构建的应用通常可以无缝迁移，因为运行时环境（如JVM, V8引擎）已经为ARM64架构提供了良好支持。
容器化应用： 如果你的应用已经容器化，迁移过程会更简单。你只需要构建一个支持ARM64（`linux/arm64`）的Docker镜像即可。现代的CI/CD工具（如GitHub Actions, AWS CodeBuild）都支持多架构构建。

迁移时可能遇到的挑战：

编译型语言： 使用C/C++/Go/Rust等语言编写的应用需要重新编译为ARM64架构的二进制文件。
依赖库： 检查你项目的所有依赖，特别是那些包含原生代码的库，是否提供ARM64版本。
CI/CD流水线： 需要更新你的构建脚本和环境，以支持多架构构建和测试。

迁移到Graviton是一个值得投入精力的战略性优化。可以先从开发环境或非核心服务开始，逐步推广。

让数据说话：使用AWS Compute Optimizer进行权利调整

“我到底该用什么规格的实例？” 这个问题，AWS Compute Optimizer 可以帮你回答。它会分析过去14天（或更长）的CloudWatch指标（如CPU利用率、网络I/O），然后利用机器学习模型，为你的每个EC2实例推荐更优的配置。

如何解读它的建议？

Under-provisioned（配置不足）： 实例资源已经出现瓶颈，建议升级。这关系到你的应用性能和稳定性。
Over-provisioned（配置过高）： 实例资源长期处于低利用率状态，是成本优化的首要目标。Compute Optimizer会给出1-3个建议选项，包括更小的实例、不同系列的实例（例如从M5迁移到M6g）。
Optimized（已优化）： 当前配置与工作负载匹配良好。

重要提示： Compute Optimizer的建议是基于历史数据的，它无法预知未来的流量高峰。对于有明显周期性负载的应用，它的建议可能偏于保守。开发者必须结合自己对业务的理解来最终决策，而不是盲目采纳建议。例如，一个只在月底运行大型报表的服务器，在月初被判定为“配置过高”是正常的，但降级可能会导致月底任务失败。

购买选项的魔力：按需、预留与Spot实例

在完成了实例的权利调整之后，下一步就是选择最合适的付费方式。这就像去超市购物，你可以选择按原价购买，也可以选择办会员卡享受折扣，或者抢购临期特价商品。在AWS，这三种方式分别对应着按需实例、Savings Plans/预留实例和 Spot实例。

按需实例 (On-Demand)

这是最基础、最灵活的方式，按秒计费，无需任何承诺。它是新应用上线、需求不确定的短期任务以及开发测试环境的理想选择。但它的灵活性是有代价的——价格最高。长期稳定运行的服务如果一直使用按需实例，就相当于一直在用原价购物，是极大的浪费。

Savings Plans 与预留实例 (Reserved Instances, RIs)

对于那些可以预见的、稳定的工作负载（例如生产环境的核心Web服务器、数据库），通过承诺在1-3年内使用一定量的计算资源，你可以换取相比按需价格高达72%的折扣。这部分是FinOps团队和架构师需要紧密协作的领域。

开发者需要向决策者提供准确的资源使用预测。例如，“我们的核心API服务在未来一年内，至少需要稳定运行等同于8个vCPU和32GB内存的计算资源”。有了这个承诺，公司就可以购买相应的Savings Plans或RIs来覆盖这部分使用量。

购买选项	承诺类型	灵活性	折扣力度	最适合的场景
Compute Savings Plans	承诺在1或3年内，每小时消费特定金额（例如$10/小时）的计算资源。	极高。自动应用于EC2、Fargate和Lambda，跨区域、跨实例家族和操作系统。	高	拥有多样化或动态变化的计算需求，希望获得最大的灵活性。这是目前AWS最推荐的承诺类型。
EC2 Instance Savings Plans	承诺在1或3年内，在特定区域使用特定实例家族（例如ap-northeast-2的m5系列）。	中等。可以在该家族内自由更换实例大小（m5.large换成m5.xlarge），但不能更换家族（m5换c5）。	最高	对未来1-3年内使用的实例家族有非常明确的规划。
标准预留实例 (Standard RIs)	承诺在特定区域使用特定实例家族、大小和操作系统的实例。	较低。实例属性基本被锁定。	高	工作负载极其稳定，未来几年内都不会有任何变化。相对Savings Plans已不常用。
可转换预留实例 (Convertible RIs)	承诺使用预留实例，但可以更改实例家族、操作系统等属性。	中等。可以进行转换，但折扣率低于标准RIs。	中等	工作负载稳定，但可能需要随着技术发展调整实例类型。

Spot实例：高达90%折扣的“机会成本”

Spot实例是AWS利用其空闲的EC2容量，以极低的折扣价（通常是按需价格的1-3折）提供给用户。这听起来非常诱人，但天下没有免费的午餐。它的“陷阱”在于：AWS可以随时因容量需求变化而中断你的Spot实例，通常只会提前2分钟发出通知。

这就要求使用Spot实例的应用必须是容错的、无状态的或可中断的。作为开发者，我们需要从架构层面来驾驭Spot实例的这种不确定性。

Spot实例的完美应用场景：

CI/CD构建任务： Jenkins Agent或GitLab Runner可以运行在Spot实例上，构建任务失败了重新执行即可。
大数据处理： EMR和Spark集群的Worker节点是Spot实例的经典用例。任务被设计为可分布式、可重试。
批量处理和转码： 视频转码、图像处理、科学计算等可以被拆分成小任务的工作。
可伸缩的Web服务后端： 在Auto Scaling Group中混合使用按需实例和Spot实例。例如，保证最少有2个按需实例来维持核心服务，然后用大量便宜的Spot实例来应对流量高峰。

绝对不要在Spot实例上运行你的主数据库、Redis缓存或任何单点故障的关键应用。数据的丢失和服务的不可用是无法接受的。

作为开发者如何优雅地处理Spot中断？

当AWS决定回收Spot实例时，它会通过实例元数据（Instance Metadata）和CloudWatch Events发出一个中断通知。我们的应用程序需要捕获这个通知，并执行优雅的关闭逻辑。

一个典型的处理流程是：

一个后台进程或脚本定期（例如每5秒）轮询实例元数据URL：http://169.254.169.254/latest/meta-data/spot/termination-time。
正常情况下，这个URL会返回404。一旦返回一个时间戳，就意味着中断通知已发出。
收到通知后，立即执行清理工作：
- 将正在处理的任务状态保存到持久化存储（如S3, DynamoDB）。
- 从负载均衡器的目标组中注销自己，停止接收新流量。
- 上传日志文件。
- 完成最后的事务。

这是一个用Python实现的简单示例，用于检测中断并触发一个清理脚本：


import requests
import time
import subprocess
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

METADATA_URL = "http://169.254.169.254/latest/meta-data/spot/termination-time"
CHECK_INTERVAL_SECONDS = 5

def check_for_termination_notice():
    """Polls the instance metadata for a termination notice."""
    while True:
        try:
            response = requests.get(METADATA_URL, timeout=1)
            if response.status_code == 200:
                termination_time = response.text
                logging.warning(f"Spot instance termination notice received. Termination time: {termination_time}")
                run_cleanup_script()
                break
        except requests.exceptions.RequestException:
            # This is normal when there is no termination notice
            pass
        
        time.sleep(CHECK_INTERVAL_SECONDS)

def run_cleanup_script():
    """Runs the predefined cleanup script."""
    logging.info("Starting cleanup process...")
    try:
        # Replace '/usr/local/bin/cleanup.sh' with the path to your script
        subprocess.run(["/usr/local/bin/cleanup.sh"], check=True)
        logging.info("Cleanup script finished successfully.")
    except (subprocess.CalledProcessError, FileNotFoundError) as e:
        logging.error(f"Cleanup script failed: {e}")

if __name__ == "__main__":
    logging.info("Starting spot termination notice listener.")
    check_for_termination_notice()

掌握Spot实例是开发者从“能用”到“会用”AWS的进阶标志，也是实现极致成本优化的杀手锏。

智能伸缩：只为实际使用的资源付费

静态地选择实例类型和购买选项只是优化的一半。云的最大魅力在于其“弹性”，而实现弹性的核心就是自动伸缩（Auto Scaling）。其核心理念非常简单：在需求高时自动增加实例，在需求低时自动减少实例，确保你永远只为当前负载所需的资源付费。

精通Auto Scaling Group (ASG) 的伸缩策略

Auto Scaling Group (ASG) 是管理一组EC2实例并实现自动伸缩的基础构件。但它的强大之处在于其多样的伸缩策略，我们需要根据应用负载的特点来选择最合适的一种。

目标跟踪伸缩 (Target Tracking Scaling): 这是最简单也是最常用的一种策略。你只需要设定一个目标指标，例如“保持整个ASG的平均CPU利用率在60%”。ASG会自动增减实例来逼近这个目标。它非常适合那些负载与CPU或网络流量等单一指标强相关的应用，比如Web服务器。
步进伸缩 (Step Scaling): 提供了比目标跟踪更精细的控制。你可以定义一系列基于CloudWatch警报的规则。例如：
- 如果CPU利用率在70%-85%之间，增加1个实例。
- 如果CPU利用率超过85%，立即增加3个实例以快速应对流量洪峰。
步进伸缩允许你对不同程度的负载变化做出不同力度的反应。
计划伸缩 (Scheduled Scaling): 如果你的应用负载有非常明显的周期性，比如一个办公App在工作日的白天流量高，晚上和周末流量低，那么计划伸缩就是为你量身定做的。你可以设置一个时间表，例如“每天早上8点将最小实例数扩展到10个，晚上7点缩减回2个”。这是一种主动的、可预测的伸缩方式，可以避免不必要的资源浪费。
预测性伸缩 (Predictive Scaling): 这是最智能的策略。AWS会利用机器学习分析你过去几周的CloudWatch历史指标（特别是那些有明显日/周模式的），来预测未来的负载，并提前启动实例，以避免用户因实例冷启动而感到延迟。它非常适合电商网站应对大促活动，或者新闻网站应对突发事件。

优秀的伸缩策略组合通常是：使用计划伸缩来应对可预见的宏观负载模式，再结合目标跟踪伸缩来处理不可预测的实时流量波动。

别忘了存储的成本：EBS卷优化

EC2的成本不仅仅是实例本身，还包括挂载其上的EBS卷。很多时候，我们创建了EC2，却使用了默认的、并非最优的EBS配置。

gp2 vs. gp3: 一个简单的改变，持续的节省

长期以来，`gp2`是默认的通用型SSD卷类型。它的性能（IOPS）与卷的大小直接挂钩，每GB提供3 IOPS，最大16,000 IOPS。这意味着如果你需要高IOPS，就必须配置一个很大的卷，即使你用不了那么多存储空间，从而造成浪费。

新一代的`gp3`卷彻底改变了这一点。它的价格比`gp2`低约20%，并且允许你独立配置卷大小、IOPS和吞吐量。所有`gp3`卷都提供3,000 IOPS和125 MiB/s吞吐量的基准性能，你可以根据需要额外购买更高的性能，而无需增加存储空间。

特性	gp2 (通用型 SSD)	gp3 (通用型 SSD)
基准价格	相对较高	比 gp2 低约20%
IOPS性能	与容量挂钩 (3 IOPS/GB)，最大16,000	基准3,000 IOPS，可独立扩展至16,000
吞吐量性能	与容量挂钩，最大250 MiB/s	基准125 MiB/s，可独立扩展至1,000 MiB/s
性能配置	只能通过增加容量来提升性能	可以独立配置容量、IOPS和吞吐量
优化建议	将你所有的gp2卷都迁移到gp3！这是一个低风险、高回报的优化操作。AWS提供了无缝修改卷类型的操作，无需停机。

自动化生命周期管理

随着时间推移，我们会创建大量的EBS快照用于备份，同时也会产生一些与EC2实例分离后被遗忘的“僵尸”EBS卷。这些都会持续产生费用。

Amazon Data Lifecycle Manager: 使用它可以创建策略，自动创建、保留和删除EBS快照。例如，你可以设置一个策略：“每天为所有带有`Backup:true`标签的卷创建一个快照，保留7天；每周的快照保留1个月；每月的快照保留1年”。这极大地简化了备份管理并控制了成本。
清理未附加的EBS卷: 可以使用AWS Trusted Advisor或者编写自定义脚本（使用AWS SDK）来定期扫描并报告那些处于`available`状态（即未附加到任何实例）的EBS卷。确认不再需要后，应立即删除。

EC2的替代方案：无服务器与容器化

有时候，降低EC2成本的最好方法，就是根本不用EC2。这听起来有些极端，但“为价值付费，而非为闲置付费”是云原生时代的核心思想。对于许多工作负载，无服务器（Serverless）和容器化方案提供了比传统EC2更具成本效益的架构模式。

AWS Lambda：事件驱动的成本杀手

想象一个场景：你需要一个服务来处理用户上传图片的后续任务，比如生成缩略图。传统的做法是部署一台EC2服务器，上面运行一个后台进程，持续监听S3的上传事件。这台EC2服务器，无论有没有图片上传，都必须24/7运行，持续产生费用。

使用AWS Lambda，架构就变成了：S3上传事件直接触发一个Lambda函数。这个函数只在有图片上传时才被唤醒执行，执行完毕后就消失了。你只需要为函数执行的毫秒数和调用的次数付费。在没有图片上传的漫长时间里，成本为零。

成本对比估算：

假设使用一台`t3.micro` EC2实例（约$8/月）来处理任务，即使整月都处于闲置状态，你仍需支付这8美元。而使用Lambda，假设每月处理10万张图片，每次处理耗时500毫秒，分配512MB内存。根据AWS Lambda的免费额度（每月100万次免费调用和40万GB-秒的免费计算时间），这部分工作负载的成本几乎为零。这就是无服务器在成本上的颠覆性优势。

Lambda的理想场景：

事件驱动的数据处理： 响应S3事件、DynamoDB流、SQS消息等。
API后端： 结合API Gateway为Web和移动应用提供RESTful API，尤其适合流量波动大的API。
定时任务（Cron Jobs）： 使用CloudWatch Events按计划触发Lambda函数，替代EC2上的cron。
“胶水代码”： 连接不同AWS服务，实现自动化工作流。

当然，Lambda也有其局限性，比如最长15分钟的执行时间限制、部署包大小限制等。但对于大量短时、突发的任务，它无疑是成本优化的利器。

AWS Fargate：当你想用容器，又不想管服务器时

容器技术（如Docker）极大地提升了应用的可移植性和部署效率。在AWS上运行容器通常有两种模式：在EC2集群上运行（ECS on EC2, EKS on EC2）或使用Fargate（ECS on Fargate, EKS on Fargate）。

EC2模式： 你需要自己创建一个EC2实例集群，然后将容器调度到这些实例上。你需要负责这些EC2实例的补丁、安全和伸缩，并且需要处理“资源碎片”问题——即集群中可能有大量零散的、无法被容器使用的CPU和内存，但你仍需为整个实例付费。
Fargate模式： 你只需要定义你的容器需要多少vCPU和内存，然后告诉Fargate去运行它。你完全不需要关心底层的EC2实例，AWS会为你处理一切。计费模式也变成了按你为容器请求的vCPU和内存资源量，以及运行的时长来计算。

Fargate的核心优势在于消除了服务器管理的开销和资源闲置的成本。虽然单位vCPU/内存的价格比EC2略高，但你不再需要为操作系统、监控代理或未被容器使用的“空闲”资源付费。对于那些容器利用率不高或者希望简化运维的团队来说，Fargate往往是总体拥有成本（TCO）更低的选择。

何时选择EC2，何时选择Fargate？

如果你的应用有非常稳定且极高的资源利用率，并且你有成熟的运维团队来管理EC2集群，那么EC2模式（特别是结合Savings Plans和Spot实例）可能在裸金属成本上更低。
对于绝大多数应用，特别是微服务架构、工作负载波动大、或希望专注于业务逻辑而非底层设施的团队，Fargate提供的简便性和“按需付费”的精确性，使其成为更现代、更具成本效益的选择。

自动化与治理：构建持续成本优化的文化

成本优化不是一次性的项目，而是一个需要持续进行的文化和流程。手动去寻找和修复每一个成本浪费点是低效且不可持续的。我们需要建立自动化的机制和治理的框架，将成本意识融入到日常的开发和运维流程中。

自动化关闭闲置资源

开发和测试环境是成本浪费的重灾区。开发者经常在下班后忘记关闭测试实例，导致它们在夜晚和周末空转，白白消耗费用。通过自动化手段，我们可以轻松解决这个问题。

AWS Instance Scheduler 是AWS官方提供的解决方案模板，它可以让你通过标签来定义EC2和RDS实例的启停计划。例如，你可以定义一个名为`office-hours`的计划（周一至周五，早上9点到下午6点运行），然后给所有开发环境的实例打上`Schedule: office-hours`的标签。Instance Scheduler就会自动为你管理这些实例的开关。

如果你需要更灵活的控制，也可以自己动手写一个Lambda函数，由CloudWatch Events定时触发。下面是一个使用Python Boto3的简单示例，它会在每天晚上7点关闭所有带有`Auto-Shutdown: true`标签的实例：


import boto3
import logging

logger = logging.getLogger()
logger.setLevel(logging.INFO)

ec2 = boto3.client('ec2')

def lambda_handler(event, context):
    """
    This function stops all EC2 instances that have a tag 'Auto-Shutdown' with value 'true'.
    """
    # Define the filter for instances to be stopped
    filters = [
        {
            'Name': 'tag:Auto-Shutdown',
            'Values': ['true']
        },
        {
            'Name': 'instance-state-name', 
            'Values': ['running']
        }
    ]
    
    # Retrieve instance IDs that match the filter
    instances_to_stop = []
    response = ec2.describe_instances(Filters=filters)
    
    for reservation in response['Reservations']:
        for instance in reservation['Instances']:
            instances_to_stop.append(instance['InstanceId'])
            
    if not instances_to_stop:
        logger.info("No running instances with Auto-Shutdown tag found. Nothing to do.")
        return
        
    logger.info(f"Found instances to stop: {', '.join(instances_to_stop)}")
    
    # Stop the instances
    try:
        ec2.stop_instances(InstanceIds=instances_to_stop)
        logger.info(f"Successfully sent stop command for instances: {', '.join(instances_to_stop)}")
    except Exception as e:
        logger.error(f"Error stopping instances: {e}")
        raise e

你可以将这个函数部署到Lambda，并创建一个CloudWatch Events规则，设置为每天的特定时间（例如UTC时间晚上11点，对应北京时间早上7点前的关闭）触发它。

建立持续的资源审查机制

除了定时启停，我们还需要定期发现那些已经被“遗忘”的资源。

使用AWS Trusted Advisor： Trusted Advisor的成本优化检查功能可以自动发现闲置的EC2实例（连续多天CPU利用率低于特定阈值）、未附加的EBS卷、空闲的负载均衡器等。应该定期（例如每周）审查Trusted Advisor的报告，并采取行动。
自定义脚本巡检： 对于更复杂的需求，可以编写脚本来巡检。例如，一个脚本可以查找创建时间超过90天且没有`Project`标签的EC2实例，并向其所有者发送通知邮件，要求确认是否仍在使用。

将FinOps融入开发文化

技术手段只能解决一部分问题，更重要的是建立一个全员参与的FinOps文化。

“当开发者不仅关心代码能否运行，还关心运行代码需要花费多少钱时，真正的成本优化才算开始。”
某资深DevOps工程师

这意味着：

成本透明化： 借助我们第一步建立的标签和成本分析报告，将每个项目、每个功能的云成本清晰地展示给开发团队。让他们看到自己的代码和架构决策对账单的直接影响。
架构评审中的成本考量： 在设计新功能或新服务时，就将成本作为一个重要的非功能性需求来考虑。讨论“我们是用一个长期运行的EC2，还是用Lambda？”这样的问题，应该成为常态。
赋能与问责： 赋予开发者查看成本数据的权限和工具，同时让他们对自己的服务产生的成本负责。这会激励他们主动去寻找和实践成本优化的方法。

将云成本与性能、安全性同等看待，是现代云原生开发团队成熟的标志。

结论：成本优化是一场没有终点的旅程

回到我们最初的问题：“AWS EC2实例成本真的降不下来吗？” 通过本文的深入探讨，我们发现答案是响亮的“不”。从建立成本可见性，到精细化的实例选型和权利调整，再到巧妙利用各种购买选项和弹性伸缩，乃至拥抱无服务器等现代架构，最后到建立自动化的治理文化，我们拥有了全方位的策略来驯服这头名为“EC2成本”的猛兽。

对于我们全栈开发者而言，这不仅仅是省钱那么简单。它是一次对我们技术广度和深度的全面考验，它要求我们不仅懂代码，更要懂架构、懂资源、懂业务。掌握AWS成本优化的技能，能让你设计的系统不仅功能强大、性能卓越，而且经济高效，这无疑会极大地提升你的个人价值和在团队中的影响力。

成本优化并非一蹴而就，它是一场持续的、需要不断迭代的旅程。现在，就从你的AWS账单开始，选择本文提到的一个策略，立即行动起来吧。也许是从审查一个标签混乱的项目开始，也许是尝试将一个gp2卷改为gp3，又或许是为你的CI/CD流水线引入Spot实例。每一个小的改进，最终都将汇聚成巨大的成功。在这条路上，你我都是探索者，也是实践者。

AWS FinOps zh 云成本成本优化无服务器