Stable Diffusion 是一种深度学习的文本到图像模型,自 2022 年发布以来一直在掀起波澜。Stable Diffusion 由慕尼黑LMU的CompVis小组开发,基于一种称为潜在扩散模型(LDM)的独特扩散模型(DM)。最近,Stability AI以SDXL 1.0 n开放模型的形式推出了其最新的开源图像模型,代表了文本到图像生成模型的下一个进化步骤。
“SDXL 1.0 是 Stability AI 开发的旗舰图像模型,是用于图像生成的开放模型的巅峰之作。通过广泛的测试和与其他各种模型的比较,结论性结果表明,人们绝大多数更喜欢 SDXL 1.0 生成的图像,而不是其他开放模型。
与其前辈不同,Stable Diffusion 不仅仅是一种基于文本描述生成详细图像的工具。它具有更广泛的应用范围,包括修复、外绘制和生成由文本提示引导的图像到图像翻译等任务。
Stable Diffusion 是一种潜在扩散模型,是一种深度生成人工神经网络。它的代码和模型权重是公开的,因此任何拥有配备 GPU 的消费类硬件且至少 8 GB VRAM 的人都可以访问它。这是与以前的专有文本到图像模型(如DALL-E和Midjourney)的重大转变,这些模型只能通过云服务访问。
Stable Diffusion的创建是由初创公司Stability AI带头的。该公司的愿景是创建一个平台,允许用户不受限制地生成人工智能艺术,这与Mid Journey等其他平台不同。
如何在本地和云中安装Stable Diffusion
本指南由Matt Wolfe精心创建,提供了有关如何在PC本地设置和运行Stable Diffusion 的全面演练,并在云中为旧计算机或Mac设置和运行Stable Diffusion 。要在本地安装Stable Diffusion ,用户需要一台带有体面显卡的 PC。
他们还需要在 huggingface.co 和GitHub上创建免费帐户,并下载适用于Windows的Git。然后,该指南将引导用户完成从Hugging Face和Python下载和安装Stable Diffusion 文件的过程。
Stable Diffusion 的突出特点之一是它允许用户合并自己训练的图像。它还提供诸如精确姿势建模、涂鸦控制网络、图像到图像创建和视频生成等功能。
对于那些没有PC或足够强大的GPU的人来说,有一个替代解决方案。运行扩散是一项在云中运行Stable Diffusion 的服务,需要付费。它提供不同的GPU选项,具有不同的图像生成速度和成本。
什么是扩散模型?
想象一下,你把一滴墨水滴进一杯水中。你会注意到墨水扩散开来,对吧?这就是扩散。现在,在计算机和数据的世界里,有一种叫做“扩散模型”的工具,它模仿墨水的扩散,但用于数据点。
那么,它有什么作用呢?
这个工具或模型可以帮助我们理解一堆数据中的模式。它就像一个侦探,试图找出数据中隐藏或不明显的内容。
为什么它很重要?
我们可以用扩散模型做的一件很酷的事情是修复模糊的图像。想象一下,你有一张完全模糊的图片。这个模型可以帮助再次明确这一点。它通过研究数据(如图片中的颜色和形状)如何扩散(或扩散)来做到这一点,然后尝试逆转这种扩散以获得原始、清晰的图片。
它是如何工作的?
构建此模型涉及三个主要步骤:
- 转发过程:这就像故意使清晰的图像模糊一样。它为数据添加“噪音”或干扰。
- 反向过程:这是侦探部分。它试图消除噪音并恢复原始的清晰图像。
- 采样:这就像选择要训练模型的图片或数据,有点像体育教练如何选择让运动员在训练中做哪些练习。
有不同种类的吗?
是的!有几种类型的扩散模型使用,特别是在使图像清晰时:
- 降噪模型:主要用于清除模糊的图像。
- 噪声评分网络:他们查看干扰与原始图像之间的关系,以预测或猜测事物。
- 随机方程:这是一种奇特的说法,这些模型可以处理随时间变化的随机内容。