谷歌推出了 Whisk,这是一种新的人工智能工具,可以使用其他图像作为提示来生成图像。据报道,与严重依赖长而详细的文本描述的旧工具不同,Whisk允许用户上传图像来defi他们想要生成的主题、场景和风格。
该工具还支持每个输入的多个图像,为用户提供了极大的实验灵活性。如果您没有开始的图像,Google 有一个骰子图标,可以自动用视觉效果填充提示。
然而,这些占位符图像似乎也是人工智能生成的。用户还可以添加一些文本来微调输出,但文本框是可选的。据该公司称,在没有它的情况下,Whisk 仍然可以产出结果。
然后,该工具会生成图像以及在创建图像时使用的相应文本提示。如果您喜欢结果,可以收藏或下载。如果不这样做,您可以通过编辑底层文本提示或生成全新的内容来完善它。
谷歌表示,Whisk 是为“快速视觉探索,而不是像素完美编辑”而构建的。因此,虽然它使用起来灵活且有趣,但它不会每次都提供完美的结果。该公司承认该工具可能“达不到目标”,这就是为什么他们允许快速编辑以获得更高的准确性。
Whisk 运行在 Google 最新的 Imagen 3 图像生成模型上,该公司还与该工具一起发布了该模型。 Imagen 3 为 Whisk 提供人工智能生成的结果,据说底层技术可以提高输出的整体质量。
除了 Imagen 3 之外,谷歌还推出了 Veo 2,其升级版视频生成模型。据报道,Veo 2 更好地掌握了电影摄影,并修复了幻觉特征等常见问题,例如多余手指的classic人工智能错误。
该模型首先在 Google 的 VideoFX 平台上推出,该平台仍在通过 Google 实验室进行有限测试。该公司表示,Veo 2 最终将在 2025 年的某个时候扩展到 YouTube Shorts 和其他 Google 产品。
目前,该公司将 Whisk 定位为一种探索工具,而不是专业的编辑解决方案。它是否能与 OpenAI 的 DALL-E 等竞争对手抗衡还有待观察。
从零到 Web3 Pro:您的 90 天职业启动计划