简化您的网页抓取任务:使用 ChatGPT 的代码解释器进行 HTML 解析和数据提取
00 分钟
2023-7-12
2023-8-26
type
status
slug
summary
date
tags
category
password
Text
AI summary
AI custom autofill
Multi-select
Status
URL
hashtag
勘误
标签
标题
类型
贴文
🪄
icon
notion image
 
想象一下这个工具,它可以简化您的网页抓取任务,使 HTML 解析和数据提取不仅易于访问,而且非常简单。不再需要处理复杂的代码,不再需要理清错综复杂的 HTML 字符串。这听起来好得令人难以置信吗?事实并非如此,这要归功于 OpenAI 最新的游戏规则改变者,即其非凡的 AI 模型 ChatGPT 中名为代码解释器的创新功能。
没错,已经令人印象深刻的 ChatGPT 现在又推出了一项新功能,这必将使您作为数据爱好者的生活变得更加顺利。您只需右键单击将网站保存为 HTML,通过拖动上传该 HTML 文件,然后要求代码解释器解析它并为您完成繁重的工作。哦,我有没有提到它集成了 BeautifulSoup 包?伙计们,我们在这里谈论的是更高水平的简单性和效率!
因此,如果您准备好将您的网络抓取技能提升到新的高度,请加入我,我们将通过 ChatGPT 的代码解释器深入研究 HTML 解析和数据提取的奇迹。让我们开始吧!

代码解释器的实际应用

让我们看看代码解释器的实际应用。首先,您需要确保为 ChatGPT 中的新 GPT-4 聊天窗口激活代码解释器:
notion image
接下来,使用提示输入字段中的上传功能上传您要从中提取数据的 HTML 文件:
notion image
现在输入您的提示文本:
notion image
热“输入”,让 ChatGPT 和 Code Interpreter 来解决这个任务。您将收到的第一个回复如下:
notion image
在这里您可以看到 Code Interpreter 使用 Python 脚本(利用网络抓取库 Beautiful Soup)从 HTML 文件中提取请求的数据。
Next Code Interpreter 正在生成生成显示提取数据的 Markdown 表所需的源代码:
notion image
执行代码后,ChatGPT 会为您提供前 5 个数据集的示例 Markdown 输出:
notion image
此外,AI 询问是否应在 Markdown 文件中提供完整的 Markdown 表以供下载。回答“是”以获得最终输出:
notion image

结论

亲爱的数据爱好者,我们已经得到了它!全面了解 ChatGPT 的新功能“代码解释器”如何大大简化您的网页抓取任务。HTML 解析和数据提取从未如此简单。与复杂代码或错综复杂的嵌套 HTML 结构搏斗的日子已经一去不复返了。现在,您所需要做的就是将网页保存为 HTML,上传,然后让 Code Interpreter 发挥其魔力。
请记住,此功能的美妙之处不仅在于其效率,还在于其所拥有的潜力。通过集成 BeautifulSoup,您进行实体提取和数据解析的机会几乎是无限的。无论您是刚刚涉足网络抓取领域,还是经验丰富的数据管理员,Code Interpreter 都是数据提取工具箱中的宝贵工具。
 


评论