DALL-E

OpenAI 开发的第三代 AI 图像生成模型,与 ChatGPT 深度集成,支持对话式文本生成图像

深度报告

  • DALL·E 3 是 OpenAI 于 2023 年 9 月发布的第三代文本生成图像人工智能模型。与前代最大的区别在于它与 ChatGPT 深度集成,用户只需在对话中用自然语言描述想要的图片,系统即可自动生成优化的提示词并产出图像。该模型在文字渲染准确度方面领先业界,能够精准还原提示词意图,是目前最易用的 AI 绘画工具。2023 年 10 月向 ChatGPT Plus 用户开放,2024 年 4 月 DALL·E 2 正式下线。

  • DALL·E 由 OpenAI 发布,是一种基于深度学习的生成模型,专门用于从文本描述生成图像。其名称融合了艺术家 Salvador Dali 和 Walt Disney 的姓氏。2021 年 1 月 DALL·E 初代发布,2022 年 4 月 DALL·E 2 上线,2023 年 9 月 DALL·E 3 发布。DALL·E 3 在生成与用户提供的文本完全一致的图像能力方面实现了重大飞跃,能够理解的细微差别和细节明显多于以前的系统。

  • DALL·E 3 的核心功能是将自然语言文本转换为高质量图像。用户可以通过几种方式使用该工具:在 ChatGPT 网页版中直接输入图像请求并通过对话迭代修改;通过微软 Bing Chat 和 Bing Chat Enterprise 访问;使用 DALL·E 3 API 接口进行程序化调用。与 ChatGPT 的深度集成是该产品最大的技术亮点,ChatGPT 可以作为头脑风暴伙伴,自动将简单描述扩展为详细的图像提示词,用户只需说「一只猫」,系统会自动补充光影、构图、风格等元素。该工具支持漫画、像素画、油画等多种风格,生成速度在 8-15 秒左右,分辨率为 1024×1024。 DALL·E 3 在安全机制方面做了充分设计:拒绝要求使用在世艺术家风格图片的请求;拒绝描绘公众人物的请求;与「红队」合作提升安全性能;正在开发「来源分类器」用于识别 AI 生成图像。2024 年 2 月起,所有 DALL·E 3 生成的图像都会添加 C2PA 标准水印(包括可见 CR 符号和隐形元数据),用户可通过 Content Credentials Verify 网站验证图像来源。 与 Midjourney 和 Stable Diffusion 对比,DALL·E 3 在文字渲染准确度(88% 对比 45%)和易用性方面领先,但在艺术质量和风格控制方面略逊于 Midjourney。第三方测试(100+ 提示词、400+ 图像、50 小时测试)给出综合评分:DALL·E 3 为 8.8/10,Midjourney 为 9.2/10,Stable Diffusion 为 8.5/10。

  • DALL·E 3 通过三种方式提供:作为 ChatGPT Plus 的一部分($20 / 月,含更高每日图像生成限额和 GPT-4o 使用权);免费版(每日 3 张);API 接口(标准质量 $0.040 / 张,高清 $0.080 / 张,按用量付费)。与竞品相比:Midjourney 提供 $10-120 / 月多档订阅,Stable Diffusion 可免费本地部署。综合来看,DALL·E 3 的定价对于已订阅 ChatGPT Plus 的用户而言性价比突出。

  • Product Hunt 平台(172 关注者,9 条评价,综合评分 4.6/5)中,用户对「根据文本生成高质量图像」功能最为认可(5 次提及),也肯定了其在创意项目中的实用价值(如 Boolvideo 将 DALL·E 用于免费图像工具)。负面反馈主要集中在较长的文字在图像中显示不准确(2 次提及),即短文本渲染优秀但长文本会出现拼写错误或顺序混乱。 中文用户实际体验(虎嗅转载 AppSO 评测)中,测试生成「李白穿白衣、杜甫穿黑衣的对弈图」时,人物变成了「国际友人」,衣服颜色出错,棋类也被识别为国际象棋而非围棋,说明 DALL·E 3 对中文语境和特定文化概念的理解仍有不足。但生成连环画(四格漫画)的体验流畅,速度较快,多种风格支持得到认可。综合评价:DALL·E 3 是最「好用」的 AI 绘画工具,无需学习 prompt 即可上手,适合追求便捷的用户。

  • 36氪报道指出,DALL·E 3 标志着文本生成图像技术的重要飞跃,OpenAI CEO Sam Altman 也亲自为产品站台。与 Midjourney 等竞品相比,DALL·E 3 的差异化在于与聊天界面深度整合,降低了使用门槛。TechCrunch 报道则关注其「允许艺术家选择退出训练」机制,回应了此前关于训练数据侵权的争议。The Verge 报道了 OpenAI 添加 C2PA 水印的计划,但同时指出元数据可被轻易删除或绕过,该方案并非完美解决方案。

  • 2023 年 12 月,微软软件工程部门经理 Shane Jones 发现 DALL·E 3 模型存在可生成 NSFW 不当内容的漏洞,上报后被下达「封口令」,最终选择向外界披露该漏洞,引发对产品安全审核流程的关注。此外,OpenAI 因涉嫌使用艺术家受版权保护的作品训练生成式 AI 图像模型而面临多起版权诉讼。DALL·E 2 于 2024 年 4 月正式下线,标志着 OpenAI 图像生成产品线的重大调整。

  • DALL·E 3 适合以下用户:不想学习复杂 prompt 的普通用户;需要准确文字渲染的商业场景(如海报配图);已订阅 ChatGPT Plus 希望一站式获得图像生成能力的用户;需要快速生成系列图像的内容创作者。不适合追求极致艺术效果和专业设计品质的用户(建议选择 Midjourney)。替代方案包括:Midjourney(艺术质量更高,但需学习参数);Stable Diffusion(免费开源,适合技术人员);Adobe Firefly(创意工作流集成)。

  • DALL·E 3 代表了 OpenAI 在文本生成图像领域的重要迭代,其与 ChatGPT 的深度集成重新定义了 AI 绘画工具的易用性标准。对于追求极致画质和艺术风格的专业创作者,Midjourney 仍是首选;但对于日常内容创作和商业应用场景,DALL·E 3 以其零门槛的交互方式和准确的文字渲染能力,成为最具实用价值的 AI 图像生成工具之一。

用户评论

  • 头像
    傅怡琪
    订阅了 ChatGPT Plus 之后才发现还送 DALL-E 3,简直是白嫖!

  • 头像
    JoshuaMiller007
    文字渲染确实强,试试「一个戴墨镜的人在沙滩上写着OPEN AI的T恤」,它真的能把那几个字母拼出来。

  • 头像
    枫叶_23
    画图速度是真的快,基本 10 秒以内就出来了,比 Midjourney 那种等一分钟的体验好太多。

  • 头像
    bvsyny
    跟 Midjourney 比还是差点意思,艺术感不够强,但日常配图够用了。

  • 头像
    trueIlanSimon_dev
    直接跟 ChatGPT 说「画一个穿汉服的女生在桃花树下」,它居然真的生成了,细节还挺丰富。

  • 头像
    ElizabethJenkinsX455
    yyds!

  • 头像
    MirandaMyers
    API 按张收费其实挺贵的,一张$0.04到$0.12,量大的时候成本不低。

  • 头像
    HannahRoss_Max
    不需要学 Prompt,聊天就能出图,这点真的很爽。

  • 头像
    Douglas.Howard_2020
    免费版每天只有 3 张,太少了,想多生成几张还得订阅 Plus。

  • 头像
    Frank.James7
    生成的图片版权归用户所有,可以商用,这点比 Midjourney 良心多了。

  • 头像
    墨染_1
    让 DALL-E 3 画一个「正在写代码的程序员」,结果生成的是一个穿着格子衫的人对着多台显示器,细节还是很准的。

  • 头像
    竹影_10
    卡了。

  • 头像
    RLopezJr
    生成连环画特别好用,连续几张图风格一致性很高,拿来做小红书配图很方便。

  • 头像
    JasonThompson_Pro
    对中文的理解还是一般,说「一只猫在屋顶上」它能理解,但如果描述更抽象一点就容易出错。

  • 头像
    nftcOLLECTOR731
    我尝试生成「一个戴墨镜的人在沙滩上写着OPEN AI的T恤」,结果那几个英文字母居然拼出来了,虽然边缘有点糊,但基本可读!文字渲染这块真的比 Midjourney 强太多。

  • 头像
    bsn9g
    安全审核确实严格,有些明显有创意的描述它直接拒绝了,不知道是不是规则有问题。

  • 头像
    AustinMorales168224
    好用。

  • 头像
    王涛燕
    画手的还是一塌糊涂,任何 AI 绘图工具都这样吗?

  • 头像
    JasonHughesX
    集成在 ChatGPT 里最大的好处是不用切换软件,直接在对话里就能出图,然后还能让 AI 帮你改,这种工作流太顺了。

  • 头像
    Johnny_Coleman_2022
    分辨率只有 1024×1024,比 Midjourney 的 1024×1792 差很多,竖版配图不太友好。

  • 头像
    kzz8c5eny
    试了一下生成「杜甫和李白下围棋」,结果出来的是两个穿古装的人在上下国际象棋,文化的理解还是差点。

  • 头像
    JRamosII619
    真的回不去了,现在做 PPT 配图都是直接让 DALL-E 3 出,再也不用去图片网站找了。

  • 头像
    qr6gbv
    OpenAI 的安全团队还是靠谱的,至少不会乱生成奇怪的内容。

  • 头像
    Adam_Walker369
    用 DALL-E 3 生成的图片加水印了,虽然元数据可以删除,但至少表明了一种负责任的态度。

  • 头像
    Philip517
    每天的生成次数到底是怎么算的,API 文档写得太模糊了,根本搞不清楚用量。

  • 头像
    2mn1pxam
    我是设计师,用 DALL-E 3 做初稿确认和提案配图很方便,交付还是得用 Midjourney。

  • 头像
    Elizabeth_BrooksII
    已经订阅了 ChatGPT Plus,每月 $20 同时有 GPT-4o 和 DALL-E 3,性价比超高。

  • 头像
    烟雨664
    ChatGPT 会自动把简单描述扩展成详细 Prompt,说「一只猫」它会扩展成「一只橘色的猫坐在窗台上,阳光洒进来,超现实主义风格」,这个功能太强了。

  • 头像
    Deborah.Parker_Max
    免费的 DALL-E 3 也能用,每天 3 张额度,对于偶尔用一下的人足够了。

  • 头像
    莲花103
    我测试了几款 AI 绘图工具,DALL-E 3 的 prompt 理解准确度是最高的,几乎不会跑偏。