2023年，初学者如何阅读机器学习论文？

type

status

slug

summary

date

及时了解最新的突破

在我们讨论如何真正深入研究论文之前，我们先看看阅读论文的第一个原因。了解最新的突破和进展。在这里，您需要最高水平的理解。

即使您是计算机视觉研究人员，您也应该了解大型语言模型的最大发展。我并不是想助长你的“FOMO”，但我认为能够与其他研究人员进行有意义的闲聊，或者理想情况下幸运地了解一种可以应用于你自己的研究的新技术，这一点很重要。

现在，在浏览新论文之前，您首先需要了解最新、最热门的出版物是什么。因此，我建议只关注 Twitter（现在称为 X）和 LinkedIn 上的大型 AI 实验室，以及一些 AI 新闻人物，例如 Lior S. 或阿莱克萨·戈迪克。通常，当人们发布一篇论文时，他们会总结主要贡献和结果。

不过，如果您想自己看一下这篇论文，您应该开始阅读摘要以了解论文的内容。摘要是作者本人对论文最简洁的总结。它通常已经包含了他们的主要结果，“我们比其他模型更好和/或更高效”。但看看它到底有多大的改进以及它的主要优势是什么，可能会很酷。

如果摘要没有突出论文的主要贡献，您可能需要在引言中查找它们或使用 AI 来了解 AI！当然，已经有法学硕士工具可以帮助您阅读论文。例如，您可以直接要求完全免费的工具（例如SciSpace Copilot）来总结论文或列出主要贡献，这通常效果非常好！

请记住，我们需要知道“阅读”论文的目标是什么。在这种情况下，我们只是想要对正在发生的事情有一个高层次的了解。所以，确实，Twitter、LinkedIn 和 YouTube（更新稍有延迟）上的人工智能新闻人物真的非常非常出色！

探索自己研究的想法

同样，在我们讨论您可能最想听到的原因之前，我们将简要讨论阅读论文的第二个原因：探索您自己的研究的想法。

您可能有兴趣采用哪些新技术、数据集或更高效的实现？仅 2022 年，ICLR 就接收了约 1000 篇论文。你绝对不可能读完所有的论文。除了炒作论文之外，您可能还想了解您研究领域的新想法和见解。如果你真正分解它，许多论文提出了一个通常非常简单的核心新想法。

例如，如果您正在研究语言模型，对比解码 [1] 的基本思想几乎只是说“让一个强大和较弱的语言模型为下一个标记生成其输出 logits，并为新的输出 logits 按元素减去它们。这将产生更加多样化的结果”。

正如您可能已经想到的，这个过程涉及大量的探索。主要是通过简单地谷歌搜索一篇论文，浏览会议的出版物列表，或者更自然地，通过递归地查看您已经阅读的论文中的参考文献。最终，我们再次想要阅读摘要，并希望找到主要思想及其性能改进，即主要结果，始终留在我们的脑海中；这对我的研究有何帮助？但从 2023 年起，如果你不能立即理解主要思想，你可以再次要求人工智能工具提取主要贡献、新颖性和结果，并让它用简单的术语解释概念。事实上，在某些情况下，我们也可以直接要求将新方法与另一种方法进行比较！

另一件要看的事情是架构图，当然如果有的话。这通常可以让您一目了然地了解模型或管道的流程。

融入自己的研究——深入研究

如果您现在觉得这篇论文及其主要思想和结果非常适合您自己的研究，那么我们终于找到了阅读论文的最后一个原因。真正深入了解细节，有可能将其整合到您自己的研究中并在此基础上进行构建。

说实话，如果这篇论文上有视频或博客文章，那就是大奖！在我看来，通常最好从 YouTube 视频或博客文章开始，然后阅读论文。这样，您就知道会发生什么、最关注什么，并且已经有了基本的了解。纸上的行话非常复杂，而且（可以说）不必要地困难。

现在，我们应该看看这篇论文。特别是如果没有视频或博客文章，您将需要（如果还没有的话）从摘要开始，然后转到结果。如果您想在本文的基础上进行构建，那么查看他们用于训练和评估的数据集可能会非常有用。如果有的话，您可能想自己使用它们！

现在进入方法论部分。要真正理解该模型，我建议您首先查看模型图。如前所述，这将使您对数据流有一种感觉。然后，开始阅读解释该模型的文本。从根本上讲，有点过于简单化了，深度学习模型只是对某些矩阵或张量的一系列重塑操作。因此，如果您查看模型的各个块，将会有一个具有特定形状的输入和一个具有各自形状的输出。在文本中，可能有一些数学公式化了这种转变。

我怎么强调都不为过。您需要始终了解数据维度（即其形状）如何变化。

我喜欢做的就是在每次操作后写下形状，然后写下最后的块。如果我一步一步地做到这一点，它就不会像最终看起来那样令人难以承受，而且对我有很大帮助！

这是一个专业提示。如果论文中存在代码：下载它并使用 VSCode 中的调试器单步调试它。这意味着要么查看论文中引用的作者自己的实现，要么查看带有代码的论文上的第三方实现，或者，在我看来更简单，只需导入并运行一个 Huggingface 模型并逐步完成他们非常好的实现。

您所寻找的是将各个代码操作或模块与论文中的模型图和数学公式相匹配。再次强调，始终查看并理解输入和输出的维度。

现在，当谈到数学公式时，它们通常看起来很可怕，但含义很简单！特别是如果你看一下损失函数。很多时候，作者会使用常见的损失，例如负对数似然、交叉熵、均方误差等。但即使他们提出了一个全新的损失，这也只是人类想法的数学表述。

GAN 损失，[2]

例如，训练鉴别器将真实图像识别为真实图像，将生成的图像识别为假图像。然后，训练生成器生成图像，以便鉴别器认为它们是真实的。冲洗并重复。

您可以再次使用人工智能来帮助您解释这些公式！我们确实生活在一个迷人的时代！

使用这些不同的技术、AI 工具、VSCode 调试，只需查看论文解释视频或博客、查看数据形状或剖析损失，每当你发现一些你不理解的东西或每当你有一个“啊哈！”时刻，您应该始终突出显示并做自己的笔记。

当然，也有一些非常困难的论文，非常理论化或数学性很强的论文，或者是人工智能和科学交叉领域的论文，涉及大量进一步的领域知识。最终，真正理解一篇论文的解决方案总是相同的。继续前进。如果您在阅读论文时一开始不理解某个想法，请不要担心。继续阅读，可能会变得更清楚。如果您当前正在阅读的论文没有对引用的技术给出足够的解释，请转到他们引用的论文并阅读它们。

我喜欢的另一个专业建议是想一想研究人员在简单的茶歇期间可能会谈论什么以及如何谈论他们的想法。

我知道……这可能很烦人，但我保证，开始总是最难的。一开始你努力积累的这些知识将帮助你在未来轻松地完成新论文！再次，我保证！

可操作提示摘要

因此，简要总结一下可操作的技巧：

1）我几乎总是从阅读摘要开始，然后是结果，然后是方法部分。

2）使用其他来源，例如 YouTube 或博客。纸质行话通常非常简洁，因此通常很难懂。

3）如果有代码：使用调试器单步执行代码并始终了解输入和输出的形状

4）最后，不要犹豫使用 SciSpace Copilot 等人工智能工具来帮助您总结和提取主要贡献，使语言更简单，并解释一些数学公式。

参考

[1] 对比解码，XL Li 等人。2023，https://arxiv.org/abs/2210.15097

[2] 生成对抗网络，IJ Goodfellow 等，2014，https://arxiv.org/abs/1406.2661

作者：Boris Meinardus

及时了解最新的突破

探索自己研究的想法

融入自己的研究——深入研究

可操作提示摘要

参考

Inevitable AI

DC交流频道

加入我们的社群讨论分享