讲故事的未来：用 Python、Streamlit 和 Hugging Face 创建引人入胜的照片转音频

type

status

slug

summary

date

使用带有免费 API 令牌的 Python、Streamlit 和 Hugging Face 模型，根据您的图片创建音频故事。

我们被人工智能模型和工具包围：更好的说法是，对于我们这些追随法学硕士发展的人来说，我们几乎已经超负荷了。

但你不觉得我们被抛在后面了吗？大公司和工具都隐藏在黑匣子后面，我们无权了解它们是如何运作的。

在本文中，我想与您一起探索一种仅使用开源和免费工具的多模式人工智能方法。我们破解这个过程，并将其分解为简单的步骤：然后我们学习如何自己做。

我们要创建的 Python-Streamlit 应用程序将我们的一张照片作为输入：Hugging Face 模型将识别描述照片的文本，并根据它生成一个短故事。之后，我们将根据该短篇故事生成音频。很酷，不是吗？

这里是我们要做的事情的细分：

自己学习如何做有很多好处：你了解官方文档的流程；您也可以在其他上下文中重用该函数。例如，根据描述对照片进行分类，或根据提示创建故事，甚至创建有声读物！

废话不多说，让我们开始吧

0.创建虚拟环境

我们不必安装很多库。作为一个好的实践，让我们创建一个虚拟环境来处理这个项目。

创建一个全新的目录（我的是AI-yourVideoStory）并运行 venv 创建指令：

激活虚拟环境：

1.安装所需的依赖项并获取 Hugging Face API 令牌

激活 venv 后，运行以下 pip 安装所需的软件包：

正如您所看到的，我们没有安装pytorch或tensorflow：这是因为我们将仅在免费的 Hugging Face 模型上使用 API 推理。为此，您需要在 Hugging Face 上注册并创建 API 令牌（您向法学硕士发出 API 请求的个人授权密钥）。

在API 推理的官方 Hugging Face 页面上，我们提供了获取 API 令牌的说明。

但什么是 🤗 托管推理 API？API是应用程序编程接口的缩写，是一组规则和协议，允许各种应用程序相互通信，即使它们是用不同的语言编写的。

因此，让我们在 Hugging Face 上创建一个帐户（如果您还没有），然后我们将创建我们的第一个 API 令牌

注册或登录https://huggingface.co/join

登录后，在 Hugging Face 配置文件设置中获取用户访问权限或 API 令牌。

您应该看到一个令牌hf_xxxxx（旧令牌是api_XXXXXXXX或api_org_XXXXXXX）。

记住！
如果您在向 API 发送请求时未提交 API 令牌，您将无法在私有模型上运行推理。

在主目录中创建一个新的 python 文件并将其命名为app.py

现在，为了验证一切正常，让我们导入库并运行它：

保存它，然后在激活venv的情况下从终端窗口运行

如果你什么也没得到......意味着它工作正常😁

注意：我们还导入 Langchain，因为 Hugging Face 尚不支持文本生成推理管道：🦜️🔗 Langchain 将为我们解决这个问题。

我们都准备好了。

2.创建照片转文字AI功能

在我们的app.py中，我们可以开始创建一些函数。我们将为每项任务创建一个函数：一个用于图像到文本，一个用于文本生成，最后一个用于文本到语音。

导入后遵循以下代码：

我们使用 HF 令牌设置一个字符串变量，并为与任务相关的模型创建一个字符串（在本例中为 Image2Text）。

图像到文本任务位于 Hugging Face Multimodal 模型中。

在 Hugging Face 的模型页面上，我们可以只过滤多模式/图像到文本任务的模型：在最受欢迎的模型中，让我们以著名的 blip-base 为例

Salesforce/blip-image-captioning-base

当您单击它时 (3)，模型卡页面将打开，其中包含大量说明和快速启动代码。为了进行推断，无论如何，我们遵循 API 的 Hugging Face 指南的说明，仅更改模型名称：您只需单击复制图标即可，如图所示

单击复制图标

我们的函数现在有了一个模型，我们发送带有以下说明的请求：

我们的函数将接受本地图像文件（称为url）并返回描述该图像的文本。

你的app.py应该是这样的：

出于测试目的，我们将使用此图像（您也可以在 GitHub 存储库上找到它）

该图片由Michelle Raponi在Pixabay上发布

下载项目主文件夹中的图像（我的是AI-yourVideoStory），保存 python 文件并激活 venv，运行

您应该得到以下内容

3.根据文本创建人工智能生成的故事

我们的 imageToText 函数检索到的照片描述将是我们故事生成的起点。

我告诉你：使用 Hugging Face 模型进行文本生成推理并不是一件容易的事情！首先，许多执行模型都禁用了 API：其次，文本生成推理根据您选择的模型遵循不同的规则。

我测试了其中的 20 个，最终决定选择Togethercomputer/RedPajama-INCITE-Chat-3B-v1主要基于OpenAssistant LLM 的模型之一。Open Assistant 是由 LAION 和世界各地有兴趣将该技术带给每个人的个人组织的一个项目。他们的座右铭是