Meta's Llama 2:革新商业AI的开源语言模型
00 分钟
2023-8-8
2023-8-26
type
status
slug
summary
date
tags
category
password
Text
AI summary
AI custom autofill
Multi-select
Status
URL
hashtag
勘误
标签
标题
类型
贴文
🪄
icon
notion image
随着 Llama 2 的发布,Meta 再次突破了人工智能的界限,Llama 2 是其突破性的 Llama 1 语言模型的备受期待的继任者。Llama 2 拥有一系列尖端功能,已经颠覆了人工智能领域,并对 ChatGPT 的主导地位构成了真正的挑战。在本文中,我们将深入了解 Llama 2 的激动人心的世界,并探索是什么让它成为真正的游戏规则改变者。

I. Llama 2:商业用途的革命

与仅限于研究用途的前身 Llama 1 不同,Llama 2 代表了开源商业模型的重大进步。企业现在可以将 Llama 2 集成到产品中以创建人工智能驱动的应用程序。Azure 和 AWS 上的可用性有助于微调和采用。
然而,限制适用于防止剥削。每日活跃用户超过 7 亿的公司不能使用 Llama 2。此外,其输出不能用于改进其他语言模型。

二. Llama 2 型号口味

Llama 2 有四种不同的模型大小:70 亿、130 亿、340 亿和 700 亿个参数。虽然 7B、13B 和 70B 已经发布,但 34B 型号仍在等待。该预训练变体接受了高达 2 万亿个 token 的训练,拥有 4096 个 token 的上下文窗口,是其前身 Llama 1 大小的两倍。
notion image
Meta 还发布了针对聊天应用程序的 Llama 2 微调模型,该模型接受了超过 100 万条人工注释的训练。
如此广泛的训练是有代价的,70B 模型需要惊人的 1720320 个 GPU 小时来训练。上下文窗口的长度决定了模型一次可以处理的内容量,使 Llama 2 成为在规模和效率方面强大的语言模型。

三.安全考虑:Meta 的首要任务

Meta 对安全性和一致性的承诺在 Llama 2 的设计中得到了体现。该模型表现出极低的人工智能安全违规百分比,在安全基准方面甚至超过了 ChatGPT。
notion image
来源:Meta Llama 2 论文
优化模型时,在有用性和安全性之间找到适当的平衡会带来重大挑战。虽然一个非常有用的模型可能能够回答任何问题,包括诸如“如何制造炸弹?”之类的敏感问题,但它也引起了人们对潜在滥用的担忧。因此,在提供有用信息和确保安全之间取得完美平衡至关重要。
然而,极端地优先考虑安全可能会导致模型难以有效解决各种问题。这种限制可能会阻碍模型的实际适用性和用户体验。因此,实现使模型既有用又安全的最佳平衡至关重要。
为了在帮助性和安全性之间取得适当的平衡,Meta 采用了两种奖励模型——一种是帮助性的,另一种是安全性的——来优化模型的响应。34B 参数模型报告的安全违规行为比其他变体更高,这可能导致其发布延迟。

四.有用性比较:Llama 2 优于竞争对手

Llama 2 成为开源语言模型领域的有力竞争者,在大多数类别中都优于竞争对手。70B 参数模型优于所有其他开源模型,而 7B 和 34B 模型在所有类别中均优于 Falcon,在除编码之外的所有类别中均优于 MPT。
notion image
尽管 Llam a2 较小,但其性能可与 Chat GPT 3.5(一个更大的闭源模型)相媲美。虽然 GPT 4 和 PalM-2-L 的尺寸较大,但其性能优于 Llama 2,这是预期的,因为它们具有处理复杂语言任务的能力。Llama 2 与大型型号的竞争能力令人印象深刻,凸显了其效率和市场潜力。
notion image
然而,Llama 2 确实面临编码和数学问题的挑战,而像 Chat GPT 4 这样的模型由于尺寸大得多,因此在这方面表现出色。在编码(HumanEval 基准)和数学问题任务(GSM8k 基准)方面,Chat GPT 4 的表现明显优于 Llama 2。Llama 2 等开源人工智能技术不断发展,为闭源模型提供了强有力的竞争。

五、Ghost Attention:增强对话连续性

Llama 2 的一项独特功能是 Ghost Attention,它可以确保对话的连续性。这意味着即使在多次交互之后,模型也会记住其初始指令,确保整个对话过程中的响应更加连贯一致。此功能显着增强了用户体验,并使 Llama 2 成为交互式应用程序更可靠的语言模型。
在下面的示例中,左侧,在几次对话后它忘记使用表情符号。右边,有了 Ghost Attention,即使进行了多次对话,它也会记住上下文并继续在响应中使用表情符号。
notion image

六.时间能力:信息组织的飞跃

Meta 报告了一种突破性的时间能力,该模型根据时间相关性组织信息。向模型提出的每个问题都与一个日期相关联,并且模型会通过考虑问题变得无关的事件日期来做出相应的响应。例如,如果您问“巴拉克·奥巴马 (Barack Obama) 当选总统多久了?”,则只有 2008 年之后才有意义。这种时间意识使 Llama 2 能够提供更准确的上下文响应,从而进一步丰富用户体验。
notion image

七.悬而未决的问题和未来展望

Meta 的 Llama 2 开源代表了一场巨大的转变,现在为开发人员和研究人员提供了对领先语言模型的商业访问。由于 Llama 2 的性能优于 MosaicML 当前的 MPT 模型,所有人都在关注 Databricks 将如何应对。MosaicML 的下一个 MPT 迭代能否击败 Llama 2?是否值得与 Llama 2 竞争,或者与开源社区联手,让开源模型变得更好?
与此同时,尽管微软在 ChatGPT 上投入了大量资金,但仍将 Llama 2 托管在 Azure 上,这引发了一些有趣的问题。用户是否会更喜欢 Llama 2 等开源模型的功能和透明度,而不是封闭的专有选项?
风险很高,因为 Meta 大胆的民主化策略将重塑人工智能领域的偏好和合作伙伴关系。有一点是肯定的——开放语言模型竞赛的时代已经开始。

八.结论

随着 Llama 2 的推出,Meta 在开源语言模型方面取得了里程碑式的突破,通过其商业可访问性释放了新的潜力。Llama 2 在自然语言处理方面的强大能力,以及强大的安全协议和时间推理,为该领域树立了新的基准。虽然目前数学和编码方面存在一些限制,但 Llama 2 的优势远远超过了其劣势。
随着 Meta 不断完善 Llama 技术,这项最新的创新有望带来真正的变革。通过开源这种先进的模型,Meta 正在推动人工智能在各行业的民主化和扩散。从医疗保健到教育等领域,Llama 2 将突破性的语言模型交到所有开发人员和研究人员手中,从而塑造行业格局。这种开源方法所释放的可能性标志着人工智能未来向更具协作性、创造性的转变。
 
 


评论