编程工具也能生图,而且价格低到难以置信
原创 · 约 24 分钟阅读 · 阅读 --
Last updated on

编程工具也能生图,而且价格低到难以置信

作者: Alex Xiang


古董级程序员,大厂出来后一直在创业公司,现在仍在一线做 AI 相关的工程。更完整的技术记录写在微信公众号「字与码」:工作经历、对新工具的看法,以及这些年踩过的坑,会不定期发在那里。若这篇对你有用,欢迎顺手关注。

过去我一直把 Cursor 当编程工具用:写代码、改文档、跑脚本、整理站点。最近才意识到,它现在还可以顺手做另一件事:生图

这听起来有点奇怪。一个 IDE 里的 agent,为什么要关心图片生成?但用下来之后我觉得,这个入口反而很实用。因为很多工程任务并不是纯代码:文章要头图,产品页要视觉稿,README 要示意图,项目页面要封面,内部工具也可能要一张不那么丑的默认图。

更关键的是成本。用 Cursor 的 Composer 2 触发生图,体感上几乎没有额外负担。如果它背后确实按官方 changelog 说的那样调用 Google Nano Banana Pro,那这件事就很有意思了:一个编程工具,可能同时提供了一个非常便宜的高质量生图入口。

先把证据说清楚

Cursor 官方在 2.4 changelog 里写了 Image generation。这个功能可以在 agent 里直接生成图片,底层图像模型指向 Google Nano Banana Pro

这不是我猜的,也不是“看起来像”。官方文档里就是这么写的。

同时,Cursor 的 Composer 2 发布文章 给了模型价格:$0.50/M input tokens + $2.50/M output tokens。再结合 Cursor pricingmodels 文档 里按 model API rates 计算套餐用量的说法,Composer 2 在日常使用里的成本感非常低。

我这里的实际现象也很明确:

  • 在 Cursor 里,Composer 2 可以直接触发生图。
  • GPT 5.5 和 Opus 4.7 这类更贵的模型,反而没有同样顺手的生图能力。
  • 生图、改 prompt、保存图片、继续写文章或改页面,可以在一个会话里完成。

所以我更愿意把它理解成 Cursor 给 Composer 2 开了一个很实用的工具入口。生图不是 Composer 2 自己的像素能力,这一点没什么好纠缠;真正值得关注的是:这个工具入口被放进了一个很便宜、很耐用的编程 agent 工作流里。

这和普通生图工具不太一样

如果只是想画一张图,Midjourney、OpenAI、Gemini、各类网页工具都能做。

Cursor 的特殊之处在于,它本来就知道你的项目目录、文章路径、静态资源目录和上下文。你可以让它一边改文章,一边生成图片,一边把图放到正确的 public 目录,再回到 markdown 里引用。

这对我来说比“模型是不是最强”更重要。

生图时,我通常不会写很玄的 prompt。一个能稳定迭代的 prompt 大概这样:

Create a cinematic 16:9 concept image.
One young protagonist, ancient ruined gate, glowing jade object, dark sky, teal and gold light.
No text. No watermark. Keep the composition clean and suitable for a blog hero image.

第一版不满意,就只改一个变量:光线、构图、人物距离、服装、背景复杂度。Cursor 的价值就在这里,它适合把这件事做成连续工作,而不是一次性的抽卡。

先看 10 张全尺寸样张

下面这 10 张来自不同项目、不同题材方向。我把它们统一放到中性目录里,只看图本身,不展开来源。它们的共同点是:都不是一次性聊天截图,而是能直接进入项目页面、文章头图或静态资源库的成品图。

Cursor 生图样张 01
样张 01
Cursor 生图样张 02
样张 02
Cursor 生图样张 03
样张 03
Cursor 生图样张 04
样张 04
Cursor 生图样张 05
样张 05
Cursor 生图样张 06
样张 06
Cursor 生图样张 07
样张 07
Cursor 生图样张 08
样张 08
Cursor 生图样张 09
样张 09
Cursor 生图样张 10
样张 10

这组图能说明一个很实际的问题:编程工具里的生图,不只是“随手画一张”。当它和项目目录、文章、静态资源、发布脚本绑在一起时,它就变成了内容生产流程的一部分。

同画幅对比:封面图

前一版文章的问题是,Codex 生成的是竖图,Cursor 素材是横图,放一起比较不公平。这版重新生成了 16:9 横版 Codex 图,和 Cursor 素材按同画幅展示。

Cursor 生成的横版封面图
Cursor 生成:项目封面图
Codex 生成的横版封面图
Codex 生成:同题材横版图

Cursor 这张更像已经进入项目资产库的图,整体比较稳。Codex 这张单张观感也不错,光影和主体都很明确。二者差距不在“能不能画”,而在使用场景:Cursor 更像在一个连续项目里打磨出来,Codex 更像一次性按 prompt 出结果。

人物定妆图对比一

人物图比封面更容易看出细节:脸、服装、气质、材质、手部、背景复杂度,都会暴露模型和 prompt 的取舍。

Cursor 生成人物定妆图 1
Cursor 生成:人物定妆图 1
Codex 生成人物定妆图 1
Codex 生成:人物定妆图 1

这组里,Cursor 图更像“已经定下来的人物资产”,Codex 图更像“重新按要求生成的一版人物概念图”。如果要做长期项目,我更关心前者的可复用性;如果只是探索风格,后者也足够好用。

人物定妆图对比二

再看一组偏冷色、细节更多的人物图。

Cursor 生成人物定妆图 2
Cursor 生成:人物定妆图 2
Codex 生成人物定妆图 2
Codex 生成:人物定妆图 2

这里我会更愿意把 Cursor 当作“资产生产工具”,而不是“单张图片工具”。人物图不是一次性出完就结束,后面经常要继续改:服装统一、表情收敛、风格靠近、背景简化。把这些动作放在 Cursor 里做,摩擦很小。

Codex 这边的模型、套餐和成本

Codex 这次用的是当前会话里的 OpenAI image_gen 工具。这个工具没有在界面上暴露每次调用的底层模型名,所以我不会把它武断写成某一个固定内部模型。

但从 OpenAI 公开 API 文档看,当前图像生成主力模型是 GPT Image 2。官方价格页里,gpt-image-2 的 1024x1024 大致是:

  • Low: $0.006 / image
  • Medium: $0.053 / image
  • High: $0.211 / image

OpenAI 文档还提醒,实际成本还要考虑文本输入、图像输入 token,以及不同尺寸和质量档位。也就是说,Codex / OpenAI 这边的价格是能算清楚的,而且并不离谱,但它和 Cursor 这种“套餐里顺手用 Composer 2 触发工具”的体感还是不同。

如果是在 Codex 套餐里使用生图,官方口径又不完全等同于 API 逐张计费。OpenAI 的 Codex pricing FAQ 写得比较清楚:

  • 生图会计入和本地消息、云任务同一类的 Codex 通用使用额度。
  • 平均来说,生图会比类似的非生图回合更快消耗 included limits,大约是 3-5 倍,具体取决于图片质量和尺寸。
  • included limits 用完后,生图会继续消耗 credits。
  • Free plan 不提供生图。
  • 如果你用的是 API key 模式跑 Codex,那就不走 ChatGPT/Codex 套餐额度,而是按 API 图像价格计算。

在 credits 口径下,Codex pricing 页还给了一个更直观的估算:一张 1024x1024 图大约 5-6 credits,一张 1024x1536 图大约 7-8 credits。这不是 API 美元价格,而是 Codex/ChatGPT 套餐体系里的 credit 消耗估算。

这就是我觉得 Cursor 这条链路值得专门写一篇的原因:它不是单纯多了一个生图按钮,而是把生图塞进了一个本来就很便宜、很高频的编程工作流。

我的判断

如果你已经长期用 Cursor,生图能力值得认真试一下。

它不一定是所有场景下最强的图像工具,也不一定每次都能一次出到满意。但它有几个很现实的优点:

  • 成本低,尤其是 Composer 2 在套餐里的体感成本低。
  • 上下文近,能直接围绕项目文件和文章内容迭代。
  • 落地快,生成后可以直接进入静态资源目录或文档。
  • 适合反复改 prompt,而不是只做一次性试图。

所以标题里说“价格低到难以置信”,不是夸张。至少在我现在的使用方式里,它确实接近这样:用一个本来就会开的编程工具,顺手拿到了一个很强的生图入口。

参考链接