在数字图像编辑领域,Apple 最近推出的多模态大型语言模型引导图像编辑 (MGIE) 系统标志着一个重要的里程碑。这款尖端的 AI 工具利用大型语言模型的功能来解释和执行复杂的、基于指令的图像修改,为用户提供前所未有的控制和灵活性。MGIE 的创新方法结合了文本和视觉输入的强大功能,以显着的效率促进 Photoshop 风格的调整、全局照片增强和精确的本地编辑。
苹果MGIE
MGIE 的开发体现了 Apple 致力于突破技术和创造力界限的承诺,提供了一个平台,不仅简化了复杂的编辑任务,还鼓励了开源社区内的协作和创新。通过整合多模态学习技术,MGIE显著改进了以前的图像编辑系统,能够对用户指令进行更具表现力和准确的解释。为 Midjourney 和 OpenAI 的 DallE 3 等提供开源竞争。
开源图像编辑器
近年来,人工智能和创意工具的交集导致了我们与数字媒体互动方式的革命性进步。Apple 推出的 MGIE 系统证明了这一持续转型,为 AI 驱动的创造力树立了新标准。
MGIE(MLLM-Guided Image Editing),一种与加州大学研究人员合作开发的开源 AI 模型。该模型因其能够根据自然语言指令执行复杂的图像操作而著称,它利用多模态大型语言模型 (MLLM) 来准确解释用户请求。MGIE 支持广泛的编辑,从调整亮度和对比度等全局照片增强功能到局部修改和 Photoshop 风格的更改(如裁剪、调整大小和添加滤镜)。
iOS的18
它能够理解和执行命令,例如使比萨饼看起来更健康或改变照片中的焦点,展示了其先进的常识推理和像素级操作技能。MGIE 的开发在 2024 年国际学习表示会议 (ICLR) 上分享,并在 GitHub 上提供,标志着 Apple 在 AI 研究方面的重大飞跃,紧随其他重要的 AI 项目之后,以及对 iOS 18 中生成式 AI 功能的预期。
MGIE 代表了高级 AI 功能和用户友好型图像编辑之间的桥梁,支持大量修改,从亮度、对比度和锐度调整等全局照片增强到可以改变形状、大小、颜色或纹理的更集中的局部编辑特定图像元素。此外,它在 Photoshop 风格的操作中表现出色,包括裁剪、调整大小、旋转和应用各种滤镜,为用户提供前所未有的数字环境控制水平。
多模态大语言模型引导图像编辑
MGIE 最显着的方面之一是其常识推理能力,它允许它执行一些任务,例如在比萨饼中添加蔬菜配料以使其看起来更健康或增强照片的对比度以模拟额外的光线。这种直观的操作水平为更具创意和个性化的图像编辑铺平了道路,突破了人工智能技术可以实现的界限。
与加州大学的合作以及 MGIE 在 2024 年学习表征国际会议 (ICLR) 上的展示标志着 Apple 人工智能研究工作的一个里程碑。MGIE 可在 GitHub 上使用,邀请进一步探索和开发,为更广泛的科学和创意社区提供对其代码、数据和预训练模型的访问。
AI图像生成与处理研究
这一举措是苹果公司对人工智能研究的更广泛承诺的一部分,最近在iPhone和其他内存有限的设备上部署大型语言模型的成就就证明了这一点。“Apple GPT”竞争对手和大型语言模型的“Ajax”框架的开发突显了该公司对推进人工智能技术的奉献精神。此外,iOS 18 中对生成式 AI 功能的预期,包括具有类似 ChatGPT 功能的增强版 Siri,标志着 AI 将如何集成到日常设备中的重大转变,据行业分析师称,这可能标志着 iPhone 历史上“最大”的软件更新。
MGIE不仅仅是一种工具,更是数字创意未来的预兆,融合了技术创新和艺术表达之间的界限。它的开发和开源发布突显了 Apple 的愿景,即技术不仅可以提高生产力,还可以通过直观、易用且功能强大的工具培养创造力和个人表达。随着 MGIE 的发展,它将重新定义图像编辑的格局,使更广泛的受众能够使用先进的 AI 驱动的图像处理,并鼓励数字艺术的新时代。