♦️学习日记|Day 17:使用 LLM 自动执行繁琐的任务
00 分钟
2023-5-8
2023-8-26
type
status
slug
summary
date
tags
category
password
Text
AI summary
AI custom autofill
Multi-select
Status
URL
hashtag
勘误
标签
标题
类型
贴文
🪄
icon
对于数据分析师来说,处理数据是日常工作的重要部分。尽管大多数分析师都有熟练的技能和经验来完成这项任务,但是这个过程通常是繁琐和耗时的。幸运的是,现在有一种新技术可以帮助分析师更快、更准确地完成这项任务:大型语言模型(LLMs)。
LLMs是一种人工智能技术,它可以通过对大量文本数据进行训练,产生具有自然语言理解和生成能力的模型。这些模型可以用于自动化各种任务,包括文本摘要、翻译、问答和情感分析等。
在数据分析领域,LLMs可以帮助分析师在数据处理和分析方面更高效地工作。本文详细介绍了LLMs的三种应用:技术、软技能和战略。在技术方面,LLMs可以自动执行数据清洗、数据预处理和数据分析等常规任务。在软技能方面,LLMs可以帮助分析师更好地与合作伙伴沟通和协作,例如自动化电子邮件的撰写和客户服务的响应等。在战略方面,LLMs可以帮助分析师更好地了解公司和市场的趋势,例如通过头脑风暴和竞争对手分析等。
本文提供了许多实际应用的例子,其中包括使用LLMs自动执行数据清洗、创建报告和分析客户细分等。文章还介绍了OpenAI的ChatGPT,这是目前市场上最强大的LLM之一,可以免费使用。此外,文章还提供了一些使用LLMs的有效技巧,例如提供明确和具体的输入以及记住LLMs是一种工具而不是人类分析的替代品。
如果您是数据分析师或对人工智能和数据分析感兴趣,那么阅读本文将会给您带来一些新的启示和技巧。LLMs作为一种强大的自动化工具,可以提高您的分析工作效率并释放更多时间进行思考和决策。
 

 
数据分析既具有挑战性又有回报。从清理混乱的数据集到构建复杂的模型,总是有很多事情要做,而时间却不够用。但如果有一种方法可以简化和自动化一些更常规的任务,从而为战略思考和决策提供更多的时间,那该多好呢?这就是LLMs的作用。
大型语言模型(LLMs)是能够辅助各种自然语言处理任务的人工智能语言模型,从生成文本到回答问题。事实证明,它们也可以成为数据分析师的有价值的工具。在本文中,我们将探讨一些您可以在日常工作中使用LLMs的方法,并向您展示如何通过人工智能帮助您更加智能地工作。
让我们直接开始吧。
注意:这些系统(尚)不是能够取代您的全流程分析解决方案。请关注此领域的最新动态。

LLMs如何提供帮助

LLMs可以作为人工智能聊天机器人,协助简化和自动化与数据分析相关的任务。凭借其先进的能力,LLMs可以协助完成各种任务。我将它们分类为三个大类:

技术

该类别包括一些最常见的应用程序,通常涉及编码,包括编写代码和文档,清理数据,回答编码问题,运行数据分析和可视化数据等。

软技能

这个类别涵盖了成功的数据分析师通常需要的软技能。人工智能可以帮助起草文件以传达发现,从合作伙伴收集数据要求和总结会议记录等。

战略

数据分析师可以提供的最有价值的部分也许是他们的战略思考,这也可以通过人工智能增强。这些包括构思要运行的分析,创建广泛的理解框架,改进和迭代您的分析方法以及作为普通的思想伙伴。
将所有这些付诸实践可以节省大量时间和精力,使您成为一名数据分析师。
notion image
让我们探讨一些示例,以了解这些工具的强大和灵活性。

使用LLMs的示例

本节将包含LLMs应用程序的示例。示例大多采用不同的格式来突出显示响应,否则您可能会将其与我的写作混淆!
在本文中,我们在提示LLMs时将使用包括数据集列信息和数据集前20行的节选内容,这是来自Spotify和Youtube歌曲数据集。将来,LLMs可能直接访问数据集以及对数据集上执行的代码的响应,以消除这样一个小样本的限制。

技术上的向导

经过代码库训练的LLMs是有能力的编码器,就像在这篇文章中看到的那样。这意味着它们可以很容易地解决常见的技术数据分析任务。它们可以很好地完成需要很少上下文的任务,而技术任务更常见地落入这个桶中。
数据分析师最基本的任务之一是执行探索性数据分析(EDA)。LLMs能够编写能够探索数据集并输出相应图像的Python代码。以下引用的文本包含LLMs在提示进行EDA时返回的响应:
  • 读取csv文件并显示示例:“df = pd.read_csv(“filename.csv”) df.head()
  • 确定感兴趣的列并进行探索:“通过艺术家对数据进行分组并检查每个艺术家的歌曲数量。 df.groupby('Artist')['song name'] .count()
  • 创建图表:“创建舞蹈度列的直方图以查看分布。 plt.hist(df ['danceability'],bins = 20)
这些都是相当基本的,但LLMs可以进一步推进,提供其他EDA方法。在这种情况下,它们能够提供异常值检测和聚类等其他探索数据的方法。
下面是给出的响应示例。通过阅读此内容,它绝对可以作为初级分析员的工作,识别出一些见解,例如:
“Gorillaz歌曲的舞蹈度值通常高于Red Hot Chili Peppers。”
“数据是关于来自两位艺术家Gorillaz和Red Hot Chili Peppers的歌曲。 Gorillaz在给定数据中有9首歌曲,而Red Hot Chili Peppers有4首歌曲。歌曲的舞蹈度和能量值在0.559至0.938和0.345至0.938之间变化。 Gorillaz歌曲的舞蹈度值通常高于Red Hot Chili Peppers。 Gorillaz歌曲的能量值也倾向于高于Red Hot Chili Peppers。歌曲的键范围从1.0到11.0,没有可辨认的模式或趋势。”
在创建表格时,编写列和整个表格的良好描述可能有点麻烦。虽然这是良好的实践,但通常被忽视。LLMs可以通过猜测表格的上下文来做到这一点,或者更好的是,在提供一些上下文时可以编写它们。
“这个表格似乎显示了关于两个不同艺术家(Gorillaz和Red Hot Chili Peppers)的各种歌曲的一些信息。表格中的每一行代表一个不同的歌曲,并为每个歌曲提供了10列信息。以下是列的描述:
索引:这只是一个整数索引,似乎是表格中每首歌曲的唯一标识符。
艺术家:此列列出了创建歌曲的艺术家。
链接:此列提供了指向Spotify上艺术家页面的链接。
歌曲名称:此列列出了歌曲的名称。
专辑名称:此列列出了歌曲所在的专辑的名称。
专辑:此列指示行是否表示专辑还是单曲。
源标识符:此列似乎是每首歌曲的唯一标识符,可能特定于Spotify。
舞蹈度:此列提供0到1的分数,指示歌曲适合跳舞的程度。
能量:此列提供0到1的分数,指示歌曲的能量水平。
键:此列提供0到11的数字,指示歌曲的音乐键。
总的来说,这个表格似乎是歌曲数据的一个集合,包括有关艺术家、专辑和每首歌曲的各种音乐特征的信息。”
这些结果的一些令人印象深刻的部分是LLM已经查看了数据样本,以确定“键”列不是一些行的键,而是歌曲的音乐键,而“专辑”列描述它是专辑还是单曲。典型的分析师无法仅仅通过查看列名称来猜测它们,必须浪费时间进行基本的EDA以确定数据源可以提供的价值,而LLMs可以节省这些时间。
增强智能在数据分析中的主要用例是由Stack Overflow等提供的技术问题解答。但是LLMs通常更优秀,可以为您的特定用例和变量提供正确的代码,以及深入回答或教程作为后续步骤。
例如,绘制Wordcloud是偶尔需要的事情,但很难记住绘制一个需要使用的确切库和代码。您可以简单地询问LLMs,它将愉快地返回您的工作代码。下面是其中的关键摘录:
Generate the wordcloud
wordcloud = WordCloud(width = 800, height = 800, background_color ='white', stopwords = set(), min_font_size = 10).generate(wordcloud_text)
我意识到这只使用了单词列表,但我有单词计数,因此我立即跟进了“我可以输入加权单词吗?”然后LLMs重新制作了代码:
Generate the wordcloud
wordcloud = WordCloud(width = 800, height = 800, background_color ='white', stopwords = set(), min_font_size = 10).generate_from_frequencies(weighted_words)
这在Stack Overflow上是不可能的,节省了大量时间搜索或查找旧代码。
正如所见,LLMs非常擅长技术问题,并可以在数据分析工作流程中节省时间,但它们还能做什么?

来自 AI 的软方法

软技能作为数据分析的一项要求可能会被忽视,但它们对于确保任何分析对业务有用至关重要。
任何数据分析师都知道,了解与您一起工作的人真正想要的数据是最困难的部分之一这可能会在很多方面出错,从合作伙伴在某物的名称上犯了一个简单的错误,到您返回第一部分后立即扩展他们想要的东西,再到要求不支持他们想要的结论的错误数据制作。由于他们的对话性质,法学硕士非常擅长从合作伙伴那里收集需求。下面是一个示例对话。
“我需要你拉出最新的动画贴纸号码。
太好了,感谢您的请求!澄清一下,当你说“动画贴纸数字”时,你能否提供更多信息来说明你的意思?
您是否正在寻找有关已创建的动画贴纸数量的数据?或者您是否对动画贴纸的使用指标感兴趣,例如它们被查看或下载的次数?
另外,能否请您指定您感兴趣的时间范围?您是否正在寻找有关特定日期、周或月的最新动画贴纸编号的数据?最后,您是否希望我以任何方式对数据进行细分,例如按贴纸类别或按用户人口统计?”
实际上,可能很难让您的合作伙伴先与 LLM 交谈,但 LLM 有助于确定在开始项目工作之前是否应该进一步澄清一些事情,并在未来将其整合到直接分析解决方案。
一旦收集了需求并完成了分析,就必须反馈调查结果。法学硕士已经有帮助作家更快、更高质量地制作内容的记录。同样,LLM 可以帮助准备总结分析工作的文件或准备演示文稿。LLM 擅长的一些特定任务是基本介绍和结论,以及文本摘要。
“基于这个 EDA,歌曲推荐服务可能会考虑在他们的推荐算法中添加更多 Gorillaz 歌曲,并优先考虑具有更高舞蹈性和能量值的歌曲,因为这些歌曲似乎在他们的用户中很受欢迎。”
可以在这篇文章中找到使用 LLM 进行写作的一些技巧,但是还有更多,并且随着我们继续如何最好地使用 LLM,还会添加更多。
我们现在已经了解了 LLM 如何解决技术任务并协助完成许多“软”任务。这对于改进分析师的工作流程已经很不错了,但我们可以更进一步吗?

大指挥部

战略思维是分析师可以为公司提供的最高价值之一。这可以通过法学硕士得到加强。一些可以做到这一点的方法包括集思广益分析要运行的内容、创建广泛的理解框架、改进和迭代您的分析方法以及作为一般的思想伙伴。
让我们从头脑风暴开始吧。您可能已经承担了“更多地了解您的客户”的一般任务。你能对此做什么样的分析?他们会导致什么结果?理想情况下,您会与同行一起进行头脑风暴,但这并不总是可能的,因此您可以改为与 AI 一起进行头脑风暴。
当被问及我们应该运行哪些分析以更好地了解我们的客户时,输出包括:“客户细分、RFM 分析、购物篮分析、流失分析、客户生命周期价值。” 有一些预测结果:
“这些分析的结果将取决于您发现的具体见解。例如,您可能会发现您最有价值的客户是对特色烹饪项目感兴趣的年长、富有的女性。这可能会让你开发更多针对这一人群的产品,并投资于能引起他们共鸣的营销活动。”
这是一个很好的起点,可以确保您涵盖所有空白,这在单独工作时可能很困难。法学硕士还可以就框架提供建议。您可能想知道在接下来的几年中如何发展您的业务,以及如何衡量它:
“有几种增长框架可用于了解如何在未来三年内增加销售额。以下是三个流行的框架:
AARRR:该框架代表获取、激活、保留、推荐和收入。它是由 Dave McClure 开发的五步框架,在创业圈中很常用。AARRR 框架可帮助公司了解客户生命周期的不同阶段以及如何优化每个阶段以推动增长。
RACE:该框架代表 Reach、Act、Convert、Engage。它是由 Smart Insights 开发的一个四阶段框架,专注于数字营销。RACE 框架可帮助公司了解如何优化其数字营销工作以推动增长。
3HAG:该框架代表三年高度可实现的目标。它是由 Shannon Susko 开发的战略规划框架,可帮助公司设定并实现雄心勃勃的增长目标。3HAG 框架涉及定义一个 BHAG(大毛茸茸的大胆目标),然后在三年内将其分解为更小、可实现的目标。
在决定使用哪种增长框架时,重要的是要考虑贵公司的独特情况和目标。AARRR 和 RACE 是更具战术性的框架,专注于优化客户生命周期或数字营销工作的特定阶段,而 3HAG 是更具战略性的框架,专注于设定雄心勃勃的增长目标。”
如您所见,该响应很有帮助,并且肯定可以代表您期望从您团队中的分析师那里得到的响应。

使用哪种LLM?

截至目前,真正能够完成上述任务的LLM只有一个,那就是OpenAI的ChatGPT。它是第一个普及LLM的产品,并且仍然是市场上最强大的产品之一,而且是免费的(有订阅选项)。
随着我们在人工智能领域看到的变化速度,很可能几个月后就不再是这样了,因此值得注意的是还有许多其他竞争对手。例如,谷歌正在开发他们的产品Bard,预计将执行与ChatGPT类似的功能。还有许多开源替代品可供考虑。虽然它们通常不具备相同的质量,但预计它们将不断改进并缩小商业运营模型之间的差距。

使用LLM的有效技巧

作为数据分析师,要充分利用LLM,有几个技巧可以遵循。首先,重要的是向LLM提供明确和具体的输入。这意味着使用适当的语言,避免歧义,并在必要时提供上下文。此外,LLM可以处理结构化和非结构化数据,因此值得尝试不同的输入格式,以查看哪种格式最适合特定任务。最后,重要的是要记住LLM是一种工具,而不是人类分析的替代品。虽然它可以帮助自动化一些例行任务,但仍由数据分析师来解释结果并根据数据做出明智的决策。
有很多文章,例如本文所讨论的文章,可以了解如何使用LLM,这是一个不断发展的研究领域,因此请继续学习!

结论

总之,LLM是提高您的分析工作效率甚至是成长学习新事物的好工具。LLM可以帮助解决技术问题,发展软技能并提高您的战略思维能力。与AI一起工作是未来,因此现在是最好的时机开始学习如何将其集成到您的工作流程中,以免被落下。
 

作者:Jye Sawtell-Rickson
 

评论