stable diffusion在线运行的方法

AI教程 2025-03-17

成立于 2019 年的初创公司 Stability AI 与多位学术研究人员和非营利组织合作,开发了 Stable Diffusion 模型,该模型于 2022 年首次发布。

Stable Diffusion 是一种开源深度学习模型,旨在从文本描述中生成高质量、详细的图像。它还可以使用文本输入修改现有图像或增强低分辨率图像。该模型不断发展,最新的进步提高了其性能和功能。

在本文中,我们将探讨 Stable Diffusion 的工作原理,并介绍运行它的各种方法。

什么是稳定扩散?

Stable Diffusion 是由 Stability AI 开发的高级开源深度学习模型。它于 2022 年发布,擅长从文本描述中生成高质量、详细的图像。这种多功能模型可以使用文本输入修改现有图像或增强低分辨率图像。

Stable Diffusion 最初在 23 亿张图像的庞大数据集上进行训练,它利用了生成建模和扩散过程的原理。这使它能够通过从训练数据中学习模式和结构来创建新的逼真图像。它的功能可与其他最先进的模型相媲美,使其成为图像生成和处理中广泛应用的强大工具。

2024 年 2 月,Stability AI 在早期预览版中宣布推出 Stable Diffusion 3,展示了大幅改进的性能,尤其是在处理多主题提示、图像质量和拼写方面。Stable Diffusion 3 套件的范围从 8 亿到 80 亿个参数不等,强调可扩展性和质量,以满足各种创意需求。到 2024 年 6 月,Stable Diffusion 3 Medium 的发布(一个 20 亿个参数的模型)标志着一项重大进步,它提供卓越的细节、色彩和照片级真实感,同时在标准消费类 GPU 上高效运行。

Stable Diffusion 3 采用了一种新的多模态扩散转换器 (MMDiT) 架构,该架构对图像和语言表示使用单独的权重集。与以前版本的模型相比,这项创新增强了文本理解和拼写功能。根据人类偏好评估,Stable Diffusion 3 优于其他领先的文本到图像生成系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1 在排版和提示遵守方面。

Stability AI 发表了一篇全面的研究论文,详细介绍了 Stable Diffusion 3 的底层技术,重点介绍了它的进步和卓越的性能。这些增强功能使 Stable Diffusion 3 成为从文本描述生成高质量图像的强大工具,在处理复杂提示和生成逼真的输出方面具有显著改进。

稳定扩散是如何工作的?

Stable Diffusion 是一类称为 Diffusion Models 的深度学习模型的复杂示例。更具体地说,它属于生成模型的类别。这些模型旨在生成与训练数据相似的新数据,使它们能够根据学习的模式和结构创建新的真实输出。

扩散模型的灵感来自物理学中的扩散概念,其中粒子随着时间的推移从高浓度区域扩散到低浓度区域。在深度学习的背景下,扩散模型在高维数据空间中模拟这一过程。该模型从随机噪声开始,然后通过一系列步骤迭代优化此噪声,以生成连贯且高质量的图像。

生成建模是一种无监督学习,涉及训练模型以自动发现和学习输入数据中的模式。训练后,这些模型可以生成类似于原始数据的新示例。此功能使生成模型对于图像合成、数据增强等任务特别有用。

如果您想了解有关这些模型的更多信息,请考虑参加我们的 Python 深度学习课程路径。

扩散过程

Stable Diffusion 中的扩散过程包括两个主要阶段:正向扩散过程和反向去噪过程。

1. 正向扩散过程:

此阶段涉及在几个步骤中逐渐向训练数据(图像)添加噪声,直到图像变为纯噪声。此过程在数学上设计为可逆的。

2. 反向去噪过程:

在此阶段,模型学习反转噪声添加过程。该模型从随机噪声开始,通过多个步骤迭代地对图像进行去噪,逐渐重建出连贯的高质量图像。这个反向过程由从训练数据中学到的模式和结构指导。

多模态扩散变压器 (MMDiT) 架构

Stable Diffusion 3 引入了一种称为多模态扩散转换器 (MMDiT) 的新架构。此体系结构为图像和语言表示形式采用单独的权重集,增强了模型理解和生成基于文本的提示的能力。通过使用不同的路径来处理图像和文本信息,MMDiT 提高了生成图像的连贯性和准确性,尤其是在处理复杂的提示和排版时。

稳定扩散实际应用

Stable Diffusion 可用于各种实际应用,包括:

  • 图像生成:从文本描述创建新图像。

  • 图像修改:根据文本提示更改现有图像。

  • 图像增强:提高低分辨率图像的质量。

这些功能使 Stable Diffusion 成为艺术家、设计师、研究人员以及任何有兴趣探索生成式 AI 潜力的人的强大工具。

如何在线运行 Stable Diffusion

如果您希望立即开始使用稳定扩散模型,可以使用以下工具在线运行它。

1. 梦工作室

Stability AI 是 Stable Diffusion 的创建者,它让好奇的各方可以使用他们的在线工具 DreamStudio 测试他们的文本到图像模型变得非常简单。

DreamStudio 允许用户访问最新版本的 Stable Diffusion 模型,并允许他们在最多 15 秒内生成图像。


image.png



DreamStudio 用户界面。图片来源:DreamStudio。

在编写本教程时,新用户将获得 100 个免费积分来试用 DreamStudio,使用默认设置,这足以处理 500 张图像!您可以在方便时在应用程序中购买额外的积分,每 1000 个积分的费用仅为 10.00 USD。

2. 拥抱脸

Hugging Face 是一个促进开源贡献的 AI 社区和平台。尽管 Hugging Face 的 transformer 模型得到了高度认可,但它也提供了对最新 Stable 扩散模型的访问,就像真正的开源爱好者一样,它是免费的。

要在 Hugging Face 中运行稳定扩散,您可以尝试其中一个演示,例如 Stable Diffusion 2.1 演示。

Hugging Face 的缺点是,您无法像在 DreamStudio 中那样自定义属性,并且生成图像需要更长的时间。



image.png

如何在本地运行 Stable Diffusion

但是,如果您想在本地计算机上试验 Stable Diffusion,该怎么办?我们已经为您准备好了。

在本地运行 Stable Diffusion 使您能够尝试各种文本输入,以生成更符合您要求的图像。您还可以根据您提供的输入,根据数据微调模型以改善结果。

免責聲明: 您必须具有 GPU 才能在本地运行 Stable Diffusion。

第 1 步:安装 Python 和 Git

要从本地计算机运行 Stable Diffusion,您需要 Python 3.10.6。这可以从 Python 官方网站安装。如果您遇到困难,请查看我们的 如何安装 Python 教程。

通过打开命令提示符、键入 并执行命令来检查安装是否正常工作。这应该会打印你正在使用的 Python 版本。python

免責聲明:运行 Stable Diffusion 的推荐版本是 Python 3.10.6。我们建议不要在没有此版本的情况下继续作,以避免出现问题。

接下来,您必须安装代码仓库管理系统 Git。Git 安装教程可以提供帮助,我们的 Git 简介课程可以加深您对 Git 的了解。

第 2 步:创建 GitHub 和 Hugging Face 帐户

GitHub 是一种软件开发托管服务,开发人员可以在其中托管他们的代码,以便他们可以跟踪项目并与其他开发人员协作。如果您还没有 Github 帐户,现在也是创建一个帐户的好时机——请查看 Github 和 Git 初学者教程以获得帮助。

另一方面,Hugging Face 是一个倡导开源贡献的 AI 社区。它是来自各个领域的多个 AI 模型的中心,包括自然语言处理、计算机视觉等。您需要一个帐户才能下载最新版本的 Stable Diffusion。我们稍后会讨论这一步。

第 3 步:克隆 Stable Diffusion Web-UI

在此步骤中,您需要将 Stable Diffusion Web-UI 下载到本地计算机。虽然为此目的创建专用文件夹 (例如 ) 很有帮助,但这不是强制性的。stable-diffusion-demo-project

1. 打开 Git Bash:

  • 确保您的计算机上安装了 Git Bash。

2. 导航到您想要的文件夹:

  • 打开 Git Bash 并使用命令导航到要克隆稳定扩散 Web-UI 的文件夹。例如:cd

cd path/to/your/folder

3. 克隆存储库:

  • 执行以下命令,克隆 Stable Diffusion Web-UI 仓库。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

4. 验证克隆:

  • 如果命令成功执行,您应该会在所选目录中看到一个名为 的新文件夹。stable-diffusion-webui


image.png

注意:您可以在 Stable Diffusion Web UI Github 存储库中找到有关您的硬件和作系统的更具体说明。

第 4 步:下载最新的 Stable Diffusion 模型

1. 登录 Hugging Face:

  • 访问您的 Hugging Face 帐户。

2. 下载 Stable Diffusion 模型:

  • 从 Hugging Face 中找到并下载你想要运行的 Stable Diffusion 模型。这些文件很大,因此下载可能需要几分钟时间。

3. 找到模型文件夹:

  • 导航到计算机上的以下文件夹:stable-diffusion-webuimodelsStable-diffusion

4. 移动下载的模型:

  • 在该文件夹中,您将看到一个名为 .Stable-diffusionPut Stable Diffusion Checkpoints here

  • 将下载的 Stable Diffusion 模型文件移动到此文件夹中。

第 5 步:设置 Stable Diffusion Web UI

在此步骤中,您将安装运行 Stable Diffusion 所需的工具。

1. 打开命令提示符或终端。

2. 导航到 Stable Diffusion Web UI 文件夹:

  • 使用命令导航到您之前克隆的文件夹。例如:cdstable-diffusion-webui

cd path/to/stable-diffusion-webui

3. 运行设置脚本:

  • 进入文件夹后,运行以下命令:stable-diffusion-webui

webui-user.bat

此脚本将创建一个虚拟环境并安装运行 Stable Diffusion 所需的所有依赖项。此过程可能需要大约 10 分钟,因此请耐心等待。

注意:您可以在 Stable Diffusion Web UI Github 存储库中找到有关您的硬件和作系统的更具体说明。

第 6 步:在本地运行 Stable Diffusion

安装依赖项后,命令提示符中将显示一个 URL:http://127.0.0.1:7860。

  • 将其复制并粘贴到 Web 浏览器中,以运行 Stable Diffusion Web UI。

  • 现在,您可以开始运行提示并生成图像了!

image.png

结论

Stable Diffusion 代表了生成式 AI 领域的重大进步。它提供了从文本描述生成高质量、详细图像的能力。无论您是想修改现有图像、增强低分辨率图像,还是创建全新的视觉效果,Stable Diffusion 都提供了强大且多功能的工具集。

随着 Stable Diffusion 3 和 Medium 的最新更新和改进,该模型的功能得到了进一步增强,使其成为生成式 AI 领域的领导者。

在本地或通过 DreamStudio 和 Hugging Face 等各种在线平台运行 Stable Diffusion 可以让您探索和利用其全部潜力。按照本指南中概述的步骤,您可以设置并开始使用 Stable Diffusion 来满足您的创意和实际需求!

了解有关生成式 AI 的更多信息

生成式 AI 是一种开创性的深度学习模式,它根据训练的数据创建高质量的文本、图像和其他内容。Stable Diffusion、ChatGPT 和 DALL-E 等工具是生成式 AI 如何通过实现新形式的创造力和创新来改变各个行业的优秀例子。随着这些技术的不断发展,它们为艺术家、开发人员和研究人员开辟了新的可能性,以突破可能的界限。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章