AI的冲击：探索技术最前沿的十年飞跃进步

type

status

slug

summary

date

从图像分类到聊天机器人

过去十年对于人工智能（AI）领域来说是一个激动人心和充满事件的时期。对深度学习潜力的谨慎探索变成了一个领域的爆炸式增长，现在该领域包括从电子商务中的推荐系统到自动驾驶汽车中的物体检测和可以创建一切，从逼真的图像到连贯的文本的生成模型。

在本文中，我们将回到记忆的车道，重新审视一些关键突破，让我们走到今天的位置。无论您是经验丰富的AI从业者还是对该领域的最新发展感兴趣，本文都将为您提供全面的概述，介绍了导致AI成为家喻户晓的可观进展。

2013年：AlexNet和变分自动编码器

2013年被广泛认为是深度学习“成年”的一年，由计算机视觉的重大进步引发。根据Geoffrey Hinton的最近一次采访，到2013年，“几乎所有计算机视觉研究都已转向神经网络”。这次繁荣主要是由于一年前图像识别的意外突破。

在2012年9月，AlexNet，一个深度卷积神经网络（CNN），在ImageNet大规模视觉识别挑战赛（ILSVRC）中取得了创纪录的表现，展示了深度学习用于图像识别任务的潜力。它取得了15.3％的前5错误率，比其最接近的竞争对手低了10.9％。

这个成功背后的技术改进对AI未来的轨迹至关重要，并显著改变了深度学习的感知。

首先，作者应用了一个由五个卷积层和三个全连接线性层组成的深度CNN - 这是当时许多人认为不切实际的架构设计。此外，由于网络深度产生的大量参数，训练在两个图形处理单元（GPU）上并行进行，展示了大幅加速大型数据集训练的能力。交换传统的激活函数，例如Sigmoid和tanh，以更有效的修正线性单元（ReLU）进一步减少了训练时间。

这些集体推动了AlexNet成功的进展，标志着AI历史的转折点，并引发了学术界和技术界对深度学习的浓厚兴趣。因此，2013年被许多人认为是深度学习真正开始起飞的拐点。

2013年发生的另一件事情是变分自动编码器，或VAEs的开发 - 可以学习表示和生成图像和声音等数据的生成模型。它们通过在较低维空间中学习输入数据的压缩表示，即潜在空间，来生成新数据。后来，VAEs证明开辟了新的生成建模和数据生成道路，在艺术，设计和游戏等领域有应用。

2014年：生成对抗网络

第二年，2014年6月，深度学习领域又见证了一个严重的进展，即Ian Goodfellow和同事介绍了生成对抗网络（GANs）。

GAN是一种能够生成与训练集相似的新数据样本的神经网络。基本上，两个网络同时进行训练：（1）生成器网络生成虚假或合成样本，（2）鉴别器网络评估它们的真实性。这种训练是在类似游戏的设置中进行的，生成器试图创建欺骗鉴别器的样本，而鉴别器试图正确地调用假样本。

当时，GAN代表了数据生成的强大而新颖的工具，不仅用于生成图像和视频，还用于音乐和艺术。他们还通过展示在不依赖于显式标签的情况下生成高质量数据样本的可能性，为无监督学习的进步做出了贡献，该领域在很大程度上被认为是不发达和具有挑战性的。

2015年：ResNets和NLP突破

2015年，AI领域在计算机视觉和自然语言处理（NLP）方面都取得了相当大的进展。

Kaiming He和同事发表了一篇名为“用于图像识别的深度残差学习”的论文，其中介绍了残差神经网络或ResNets的概念 - 可以通过添加快捷方式使信息更容易地流经网络。与常规神经网络不同，在常规神经网络中，每个层将上一层的输出作为输入，而在ResNet中，则添加了额外的残差连接，这些连接跳过一个或多个层，并直接连接到网络中的更深层。

因此，ResNets能够解决梯度消失问题，这使得训练比当时认为可能的要深得多的神经网络成为可能。这反过来又在图像分类和物体识别任务中带来了显着的改进。

在同一时间左右，研究人员在循环神经网络（RNN）和长短期记忆（LSTM）模型的开发方面取得了相当大的进展。尽管这些模型自20世纪90年代以来一直存在，但直到2015年左右才开始引起人们的关注，主要是由于以下因素：（1）为训练提供了更大和更多样化的数据集，（2）改进了计算能力和硬件，使得能够训练更深和更复杂的模型，以及（3）沿途所做的修改，例如更复杂的门控机制。

因此，这些架构使语言模型能够更好地理解文本的上下文和含义，从而在语言翻译，文本生成和情感分析等任务中取得了巨大的改进。当时RNN和LSTM的成功为今天我们所看到的大型语言模型（LLMs）的开发铺平了道路。

2016年：AlphaGo

在1997年Garry Kasparov被IBM的Deep Blue击败之后，另一场“人类vs机器”的战斗在2016年震惊了游戏界：Google的AlphaGo击败了围棋世界冠军李世石。

Sedol的失败标志着AI进步轨迹中的又一个重大里程碑：它表明机器可以在曾经被认为太复杂而无法处理的游戏中胜过甚至是最熟练的人类玩家。使用深度强化学习和蒙特卡罗树搜索的组合，AlphaGo分析了来自以前游戏的数百万个位置，并评估了最佳的可能移动 - 这种策略在这种情况下远远超过了人类决策。

2017年：变压器架构和语言模型

可以说，2017年是奠定了我们今天所见到的生成AI突破的基础的最关键的一年。

2017年12月，Vaswani和同事发布了基础性的论文“全是你需要的关注”，介绍了变压器架构，利用自我关注的概念处理序列输入数据。这使得长程依赖关系的更有效处理成为可能，这在传统RNN架构中以前曾是一个挑战。

变压器由两个基本组件组成：编码器和解码器。编码器负责对输入数据进行编码，例如可以是一串单词。然后，它接受输入序列，并应用多层自我注意力和前馈神经网络来捕获句子中的关系和特征，并学习有意义的表示。

本质上，自我关注允许模型理解句子中不同单词之间的关系。与传统模型不同，传统模型会按照固定顺序处理单词，变压器实际上会一次检查所有单词。它们基于单词之间的相关性为每个单词分配所谓的“注意力”分数。

另一方面，解码器接受来自编码器的编码表示，并生成输出序列。在机器翻译或文本生成等任务中，解码器根据从编码器收到的输入生成翻译序列。与编码器类似，解码器也包含多层自我注意力和前馈神经网络。但是，它包括一个额外的注意机制，使其能够集中精力处理编码器输出。这使解码器在生成输出时考虑输入序列的相关信息。

变压器架构后来成为LLMs开发的关键组成部分，并在NLP领域的机器翻译，语言建模和问题回答等方面取得了显着的改进

2018年：GPT-1、BERT和图神经网络

在Vaswani等人发表了他们的基础论文几个月后，OpenAI于2018年6月推出了生成预训练转换器或GPT-1，它利用转换器架构有效地捕捉文本中的长距离依赖关系。 GPT-1是第一个展示无监督预训练然后在特定NLP任务上进行微调的有效性的模型之一。

同样利用仍然相当新颖的转换器架构的是谷歌，他们在2018年末发布并开源了自己的预训练方法，称为双向编码器来自转换器的表示或BERT。与以前以单向方式处理文本的模型（包括GPT-1）不同，BERT同时考虑了每个单词的上下文。为了说明这一点，作者提供了一个非常直观的例子：

…在句子“我访问了银行账户”中，单向上下文模型将基于“我访问了”而不是“账户”来表示“银行”。但是，BERT使用其先前和下一个上下文“我访问了…账户”来表示“银行”，从深度神经网络的最底部开始，使其具有深度双向性。

双向性的概念是如此强大，以至于BERT在各种基准任务上优于最先进的NLP系统。

除了GPT-1和BERT之外，图神经网络或GNNs也在当年引起了一些轰动。它们属于一类专门设计用于处理图数据的神经网络。GNN使用消息传递算法在图的节点和边之间传播信息。这使得网络以更直观的方式学习数据的结构和关系。

这项工作使得从数据中提取更深入的洞察成为可能，因此扩大了深度学习可以应用的问题范围。有了GNN，社交网络分析，推荐系统和药物发现等领域取得了重大进展。

2019年：GPT-2和改进的生成模型

2019年标志着生成模型的一些显着进步，特别是引入了GPT-2。这个模型通过在许多NLP任务中取得最先进的性能，并且能够生成高度逼真的文本，使其在同行中脱颖而出，回过头来，它为我们预示了即将在这个领域中发生的事情。

该领域的其他改进包括DeepMind的BigGAN，它生成的高质量图像几乎与真实图像无法区分，以及NVIDIA的StyleGAN，它允许更好地控制这些生成的图像的外观。

总的来说，这些在现在被称为生成AI的领域中的进步将这个领域的界限推向了更远，而且……

2020年：GPT-3和自监督学习

不久之后，又诞生了另一个模型，即使在技术社区之外也已成为家喻户晓的名字：GPT-3。这个模型代表了LLMs规模和能力的重大飞跃。为了理清事情，GPT-1只有117百万个参数。该数字增加到15亿的GPT-2，以及GPT-3的1750亿。

这么多的参数空间使得GPT-3能够生成在各种提示和任务中非常连贯的文本。它还在各种NLP任务中展示了令人印象深刻的性能，例如文本完成，问答甚至创意写作。

此外，GPT-3再次突显了使用自监督学习的潜力，这使得模型可以在大量未标记的数据上进行训练。这具有优势，这些模型可以在不需要大量特定于任务的训练的情况下获得对语言的广泛理解能力，这使得它更经济。

Yann LeCun在推特上发表了关于自监督学习的纽约时报文章。

2021年：AlphaFold 2、DALL·E和GitHub Copilot

从蛋白质折叠到图像生成和自动化编码辅助，2021年的发展充满了活力，得益于AlphaFold 2、DALL·E和GitHub Copilot的发布。

AlphaFold 2被誉为解决几十年来蛋白质折叠问题的期待已久的解决方案。DeepMind的研究人员扩展了变压器架构，创建了evoformer blocks——利用进化策略进行模型优化的体系结构——构建了一个模型，能够根据其1D氨基酸序列预测蛋白质的3D结构。这一突破具有革命性的潜力，可以革新药物发现、生物工程以及我们对生物系统的理解。

OpenAI今年也再次成为新闻焦点，他们发布了DALL·E。本质上，该模型结合了GPT风格的语言模型和图像生成的概念，使得可以从文本描述中创建高质量的图像。

最后，GitHub发布了后来成为每个开发者最好的朋友的Copilot。这是与OpenAI合作实现的，OpenAI提供了底层语言模型Codex，该模型在大量公开可用的代码语料库上进行了训练，并学会了理解和生成各种编程语言的代码。开发人员可以通过简单地提供一个代码注释来使用Copilot，说明他们正在尝试解决的问题，然后模型会建议实现解决方案的代码。其他功能包括能够用自然语言描述输入的代码，并在编程语言之间进行代码翻译。

2022年：ChatGPT和Stable Diffusion

过去十年人工智能的快速发展达到了一个开创性的进展：OpenAI的ChatGPT，这个聊天机器人于2022年11月发布。这个工具代表了NLP方面的尖端成就，能够生成一系列查询和提示的连贯，并且与人交流，提供解释，提供创意建议，协助解决问题，编写和解释代码，甚至模拟不同的个性或写作风格。

与机器人互动的简单直观界面也刺激了可用性的大幅增长。以前，主要是技术社区玩弄最新的基于AI的发明。然而，这些天，AI工具已经渗透到几乎每个专业领域，从软件工程师到作家，音乐家和广告商。许多公司还将该模型用于自动化服务，例如客户支持，语言翻译或回答常见问题。实际上，我们正在看到的自动化浪潮引发了一些担忧，并激发了关于哪些工作可能面临被自动化的风险的讨论。

尽管ChatGPT在2022年占据了很多关注，但图像生成也取得了重大进展。由Stability AI发布的一个文本到图像扩散模型，名为Stable Diffusion，可以生成从文本描述到逼真图像的照片。

Stable Diffusion是传统扩散模型的扩展，它通过在低维表示空间或潜在空间上进行操作，而不是直接在输入图像上进行操作，来加快这个过程。此外，扩散过程通过将用户的变形器嵌入文本提示添加到网络中进行修改，使其在每次迭代中指导图像生成过程。

总的来说，ChatGPT和Stable Diffusion在2022年的发布突出了多模式生成AI的潜力，并引发了进一步发展和投资的大幅提升。

2023年：LLMs和机器人

当前的年份无疑是LLMs和聊天机器人的年份。越来越多的模型正在以快速增长的速度开发和发布。

例如，在2月24日，Meta AI发布了LLaMA——一种LLM，在大多数基准测试中性能优于GPT-3，尽管参数数量明显较少。不到一个月后，在3月14日，OpenAI发布了GPT-4——一个更大、更强大、多模态的GPT-3版本。虽然GPT-4的确切参数数量未知，但据推测可能达到了万亿级别。

3月15日，斯坦福大学的研究人员发布了Alpaca，一种轻量级语言模型，该模型是从LLaMA的指令跟随演示中进行了微调。几天后，在3月21日，谷歌推出了其ChatGPT竞争对手：Bard。谷歌还于本月10日发布了其最新的LLM，PaLM-2。在这个领域的不懈发展速度下，很可能在您阅读本文时，另一个模型已经出现了。

我们还看到越来越多的公司将这些模型纳入其产品中。例如，Duolingo宣布其由GPT-4驱动的Duolingo Max，这是一个新的订阅级别，旨在为每个人提供定制的语言课程。Slack还推出了一个名为Slack GPT的AI助手，可以编写回复或总结线程等。此外，Shopify向公司的Shop应用程序引入了一个ChatGPT驱动的助手，可以帮助客户使用各种提示识别所需的产品。

Shopify在Twitter上宣布其ChatGPT驱动的助手。

有趣的是，如今，人工智能聊天机器人甚至被认为是人类治疗师的一种替代方法。例如，美国聊天机器人应用程序Replika为用户提供“关心的AI伴侣，随时倾听和交谈，始终站在你这边”。其创始人Eugenia Kuyda表示，该应用程序拥有广泛的客户群体，从自闭症孩子，他们将其用作“人际交往之前的热身”，到孤独的成年人，他们只是需要一个朋友。

在结束之前，我想强调过去十年人工智能发展的高潮：人们实际上正在使用Bing！今年早些时候，微软推出了其定制的面向搜索的GPT-4驱动的“web的副驾驶员”，这是自……以来的第一次，已成为Google在搜索业务上长期占主导地位的严肃竞争对手。

回顾和展望

当我们回顾过去十年的人工智能发展时，很明显，我们见证了一场对我们工作、商业和相互交流方式产生深刻影响的转型。最近在生成模型方面取得的相当大的进步，特别是LLMs方面，似乎遵循着“越大越好”的普遍信念，指的是模型的参数空间。这在GPT系列中尤为明显，该系列从117万个参数（GPT-1）开始，每个连续的模型增加约一个数量级，最终在可能拥有万亿级参数的GPT-4中达到顶峰。

然而，根据最近一次采访，OpenAI CEO Sam Altman认为，我们已经到达了“越大越好”的时代的尽头。未来，他仍然认为参数计数将趋于上升，但未来模型改进的主要重点将放在增加模型的功能、实用性和安全性上。

后者尤为重要。考虑到这些强大的AI工具现在已经落到公众手中，不再局限于研究实验室的受控环境中，现在比以往任何时候都更加关键，我们要谨慎行事，并确保这些工具是安全的，并符合人类最佳利益。希望我们能看到与我们在其他领域看到的发展和投资一样多的AI安全领域的发展和投资。

作者：Thomas A Dorfer