编程工具也能生图,而且价格低到难以置信
古董级程序员,大厂出来后一直在创业公司,现在仍在一线做 AI 相关的工程。更完整的技术记录写在微信公众号「字与码」:工作经历、对新工具的看法,以及这些年踩过的坑,会不定期发在那里。若这篇对你有用,欢迎顺手关注。
过去我一直把 Cursor 当编程工具用:写代码、改文档、跑脚本、整理站点。最近才意识到,它现在还可以顺手做另一件事:生图。
这听起来有点奇怪。一个 IDE 里的 agent,为什么要关心图片生成?但用下来之后我觉得,这个入口反而很实用。因为很多工程任务并不是纯代码:文章要头图,产品页要视觉稿,README 要示意图,项目页面要封面,内部工具也可能要一张不那么丑的默认图。
更关键的是成本。用 Cursor 的 Composer 2 触发生图,体感上几乎没有额外负担。如果它背后确实按官方 changelog 说的那样调用 Google Nano Banana Pro,那这件事就很有意思了:一个编程工具,可能同时提供了一个非常便宜的高质量生图入口。
先把证据说清楚
Cursor 官方在 2.4 changelog 里写了 Image generation。这个功能可以在 agent 里直接生成图片,底层图像模型指向 Google Nano Banana Pro。
这不是我猜的,也不是“看起来像”。官方文档里就是这么写的。
同时,Cursor 的 Composer 2 发布文章 给了模型价格:$0.50/M input tokens + $2.50/M output tokens。再结合 Cursor pricing 和 models 文档 里按 model API rates 计算套餐用量的说法,Composer 2 在日常使用里的成本感非常低。
我这里的实际现象也很明确:
- 在 Cursor 里,Composer 2 可以直接触发生图。
- GPT 5.5 和 Opus 4.7 这类更贵的模型,反而没有同样顺手的生图能力。
- 生图、改 prompt、保存图片、继续写文章或改页面,可以在一个会话里完成。
所以我更愿意把它理解成 Cursor 给 Composer 2 开了一个很实用的工具入口。生图不是 Composer 2 自己的像素能力,这一点没什么好纠缠;真正值得关注的是:这个工具入口被放进了一个很便宜、很耐用的编程 agent 工作流里。
这和普通生图工具不太一样
如果只是想画一张图,Midjourney、OpenAI、Gemini、各类网页工具都能做。
Cursor 的特殊之处在于,它本来就知道你的项目目录、文章路径、静态资源目录和上下文。你可以让它一边改文章,一边生成图片,一边把图放到正确的 public 目录,再回到 markdown 里引用。
这对我来说比“模型是不是最强”更重要。
生图时,我通常不会写很玄的 prompt。一个能稳定迭代的 prompt 大概这样:
Create a cinematic 16:9 concept image.
One young protagonist, ancient ruined gate, glowing jade object, dark sky, teal and gold light.
No text. No watermark. Keep the composition clean and suitable for a blog hero image.
第一版不满意,就只改一个变量:光线、构图、人物距离、服装、背景复杂度。Cursor 的价值就在这里,它适合把这件事做成连续工作,而不是一次性的抽卡。
先看 10 张全尺寸样张
下面这 10 张来自不同项目、不同题材方向。我把它们统一放到中性目录里,只看图本身,不展开来源。它们的共同点是:都不是一次性聊天截图,而是能直接进入项目页面、文章头图或静态资源库的成品图。
这组图能说明一个很实际的问题:编程工具里的生图,不只是“随手画一张”。当它和项目目录、文章、静态资源、发布脚本绑在一起时,它就变成了内容生产流程的一部分。
同画幅对比:封面图
前一版文章的问题是,Codex 生成的是竖图,Cursor 素材是横图,放一起比较不公平。这版重新生成了 16:9 横版 Codex 图,和 Cursor 素材按同画幅展示。
Cursor 这张更像已经进入项目资产库的图,整体比较稳。Codex 这张单张观感也不错,光影和主体都很明确。二者差距不在“能不能画”,而在使用场景:Cursor 更像在一个连续项目里打磨出来,Codex 更像一次性按 prompt 出结果。
人物定妆图对比一
人物图比封面更容易看出细节:脸、服装、气质、材质、手部、背景复杂度,都会暴露模型和 prompt 的取舍。
这组里,Cursor 图更像“已经定下来的人物资产”,Codex 图更像“重新按要求生成的一版人物概念图”。如果要做长期项目,我更关心前者的可复用性;如果只是探索风格,后者也足够好用。
人物定妆图对比二
再看一组偏冷色、细节更多的人物图。
这里我会更愿意把 Cursor 当作“资产生产工具”,而不是“单张图片工具”。人物图不是一次性出完就结束,后面经常要继续改:服装统一、表情收敛、风格靠近、背景简化。把这些动作放在 Cursor 里做,摩擦很小。
Codex 这边的模型、套餐和成本
Codex 这次用的是当前会话里的 OpenAI image_gen 工具。这个工具没有在界面上暴露每次调用的底层模型名,所以我不会把它武断写成某一个固定内部模型。
但从 OpenAI 公开 API 文档看,当前图像生成主力模型是 GPT Image 2。官方价格页里,gpt-image-2 的 1024x1024 大致是:
- Low: $0.006 / image
- Medium: $0.053 / image
- High: $0.211 / image
OpenAI 文档还提醒,实际成本还要考虑文本输入、图像输入 token,以及不同尺寸和质量档位。也就是说,Codex / OpenAI 这边的价格是能算清楚的,而且并不离谱,但它和 Cursor 这种“套餐里顺手用 Composer 2 触发工具”的体感还是不同。
如果是在 Codex 套餐里使用生图,官方口径又不完全等同于 API 逐张计费。OpenAI 的 Codex pricing FAQ 写得比较清楚:
- 生图会计入和本地消息、云任务同一类的 Codex 通用使用额度。
- 平均来说,生图会比类似的非生图回合更快消耗 included limits,大约是 3-5 倍,具体取决于图片质量和尺寸。
- included limits 用完后,生图会继续消耗 credits。
- Free plan 不提供生图。
- 如果你用的是 API key 模式跑 Codex,那就不走 ChatGPT/Codex 套餐额度,而是按 API 图像价格计算。
在 credits 口径下,Codex pricing 页还给了一个更直观的估算:一张 1024x1024 图大约 5-6 credits,一张 1024x1536 图大约 7-8 credits。这不是 API 美元价格,而是 Codex/ChatGPT 套餐体系里的 credit 消耗估算。
这就是我觉得 Cursor 这条链路值得专门写一篇的原因:它不是单纯多了一个生图按钮,而是把生图塞进了一个本来就很便宜、很高频的编程工作流。
我的判断
如果你已经长期用 Cursor,生图能力值得认真试一下。
它不一定是所有场景下最强的图像工具,也不一定每次都能一次出到满意。但它有几个很现实的优点:
- 成本低,尤其是 Composer 2 在套餐里的体感成本低。
- 上下文近,能直接围绕项目文件和文章内容迭代。
- 落地快,生成后可以直接进入静态资源目录或文档。
- 适合反复改 prompt,而不是只做一次性试图。
所以标题里说“价格低到难以置信”,不是夸张。至少在我现在的使用方式里,它确实接近这样:用一个本来就会开的编程工具,顺手拿到了一个很强的生图入口。