May 2, 2026 原创 · 约 24 分钟阅读 · 阅读 --

Last updated on May 2, 2026

编程工具也能生图，而且价格低到难以置信

作者: Alex Xiang

古董级程序员，大厂出来后一直在创业公司，现在仍在一线做 AI 相关的工程。更完整的技术记录写在微信公众号「字与码」：工作经历、对新工具的看法，以及这些年踩过的坑，会不定期发在那里。若这篇对你有用，欢迎顺手关注。

过去我一直把 Cursor 当编程工具用：写代码、改文档、跑脚本、整理站点。最近才意识到，它现在还可以顺手做另一件事：生图。

这听起来有点奇怪。一个 IDE 里的 agent，为什么要关心图片生成？但用下来之后我觉得，这个入口反而很实用。因为很多工程任务并不是纯代码：文章要头图，产品页要视觉稿，README 要示意图，项目页面要封面，内部工具也可能要一张不那么丑的默认图。

更关键的是成本。用 Cursor 的 Composer 2 触发生图，体感上几乎没有额外负担。如果它背后确实按官方 changelog 说的那样调用 Google Nano Banana Pro，那这件事就很有意思了：一个编程工具，可能同时提供了一个非常便宜的高质量生图入口。

先把证据说清楚

Cursor 官方在 2.4 changelog 里写了 Image generation。这个功能可以在 agent 里直接生成图片，底层图像模型指向 Google Nano Banana Pro。

这不是我猜的，也不是“看起来像”。官方文档里就是这么写的。

同时，Cursor 的 Composer 2 发布文章给了模型价格：$0.50/M input tokens + $2.50/M output tokens。再结合 Cursor pricing 和 models 文档里按 model API rates 计算套餐用量的说法，Composer 2 在日常使用里的成本感非常低。

我这里的实际现象也很明确：

在 Cursor 里，Composer 2 可以直接触发生图。
GPT 5.5 和 Opus 4.7 这类更贵的模型，反而没有同样顺手的生图能力。
生图、改 prompt、保存图片、继续写文章或改页面，可以在一个会话里完成。

所以我更愿意把它理解成 Cursor 给 Composer 2 开了一个很实用的工具入口。生图不是 Composer 2 自己的像素能力，这一点没什么好纠缠；真正值得关注的是：这个工具入口被放进了一个很便宜、很耐用的编程 agent 工作流里。

这和普通生图工具不太一样

如果只是想画一张图，Midjourney、OpenAI、Gemini、各类网页工具都能做。

Cursor 的特殊之处在于，它本来就知道你的项目目录、文章路径、静态资源目录和上下文。你可以让它一边改文章，一边生成图片，一边把图放到正确的 public 目录，再回到 markdown 里引用。

这对我来说比“模型是不是最强”更重要。

生图时，我通常不会写很玄的 prompt。一个能稳定迭代的 prompt 大概这样：

Create a cinematic 16:9 concept image.
One young protagonist, ancient ruined gate, glowing jade object, dark sky, teal and gold light.
No text. No watermark. Keep the composition clean and suitable for a blog hero image.

第一版不满意，就只改一个变量：光线、构图、人物距离、服装、背景复杂度。Cursor 的价值就在这里，它适合把这件事做成连续工作，而不是一次性的抽卡。

先看 10 张全尺寸样张

下面这 10 张来自不同项目、不同题材方向。我把它们统一放到中性目录里，只看图本身，不展开来源。它们的共同点是：都不是一次性聊天截图，而是能直接进入项目页面、文章头图或静态资源库的成品图。

这组图能说明一个很实际的问题：编程工具里的生图，不只是“随手画一张”。当它和项目目录、文章、静态资源、发布脚本绑在一起时，它就变成了内容生产流程的一部分。

同画幅对比：封面图

前一版文章的问题是，Codex 生成的是竖图，Cursor 素材是横图，放一起比较不公平。这版重新生成了 16:9 横版 Codex 图，和 Cursor 素材按同画幅展示。

Cursor 这张更像已经进入项目资产库的图，整体比较稳。Codex 这张单张观感也不错，光影和主体都很明确。二者差距不在“能不能画”，而在使用场景：Cursor 更像在一个连续项目里打磨出来，Codex 更像一次性按 prompt 出结果。

人物定妆图对比一

人物图比封面更容易看出细节：脸、服装、气质、材质、手部、背景复杂度，都会暴露模型和 prompt 的取舍。

这组里，Cursor 图更像“已经定下来的人物资产”，Codex 图更像“重新按要求生成的一版人物概念图”。如果要做长期项目，我更关心前者的可复用性；如果只是探索风格，后者也足够好用。

人物定妆图对比二

再看一组偏冷色、细节更多的人物图。

这里我会更愿意把 Cursor 当作“资产生产工具”，而不是“单张图片工具”。人物图不是一次性出完就结束，后面经常要继续改：服装统一、表情收敛、风格靠近、背景简化。把这些动作放在 Cursor 里做，摩擦很小。

Codex 这边的模型、套餐和成本

Codex 这次用的是当前会话里的 OpenAI image_gen 工具。这个工具没有在界面上暴露每次调用的底层模型名，所以我不会把它武断写成某一个固定内部模型。

但从 OpenAI 公开 API 文档看，当前图像生成主力模型是 GPT Image 2。官方价格页里，gpt-image-2 的 1024x1024 大致是：

Low: $0.006 / image
Medium: $0.053 / image
High: $0.211 / image

OpenAI 文档还提醒，实际成本还要考虑文本输入、图像输入 token，以及不同尺寸和质量档位。也就是说，Codex / OpenAI 这边的价格是能算清楚的，而且并不离谱，但它和 Cursor 这种“套餐里顺手用 Composer 2 触发工具”的体感还是不同。

如果是在 Codex 套餐里使用生图，官方口径又不完全等同于 API 逐张计费。OpenAI 的 Codex pricing FAQ 写得比较清楚：

生图会计入和本地消息、云任务同一类的 Codex 通用使用额度。
平均来说，生图会比类似的非生图回合更快消耗 included limits，大约是 3-5 倍，具体取决于图片质量和尺寸。
included limits 用完后，生图会继续消耗 credits。
Free plan 不提供生图。
如果你用的是 API key 模式跑 Codex，那就不走 ChatGPT/Codex 套餐额度，而是按 API 图像价格计算。

在 credits 口径下，Codex pricing 页还给了一个更直观的估算：一张 1024x1024 图大约 5-6 credits，一张 1024x1536 图大约 7-8 credits。这不是 API 美元价格，而是 Codex/ChatGPT 套餐体系里的 credit 消耗估算。

这就是我觉得 Cursor 这条链路值得专门写一篇的原因：它不是单纯多了一个生图按钮，而是把生图塞进了一个本来就很便宜、很高频的编程工作流。

我的判断

如果你已经长期用 Cursor，生图能力值得认真试一下。

它不一定是所有场景下最强的图像工具，也不一定每次都能一次出到满意。但它有几个很现实的优点：

成本低，尤其是 Composer 2 在套餐里的体感成本低。
上下文近，能直接围绕项目文件和文章内容迭代。
落地快，生成后可以直接进入静态资源目录或文档。
适合反复改 prompt，而不是只做一次性试图。

所以标题里说“价格低到难以置信”，不是夸张。至少在我现在的使用方式里，它确实接近这样：用一个本来就会开的编程工具，顺手拿到了一个很强的生图入口。