回顾2023年AI的突破

Goldrute
29 Dec 2023

2023年是大型语言模型（LLMs）的突破年。可以将这些模型称为人工智能——它们是自20世纪50年代以来人工智能学术领域最新和最有趣的发展。

在过去的24-36个月里，我们发现一个物种LLM，你可以把大量的文本数据通过一堆GPU运算，从而创造出一种引人入胜的新型软件。

LLMs能做很多事情。它们可以回答问题、总结文件、从一种语言翻译成另一种语言、提取信息，甚至编写出令人惊讶的合格代码。

它们也可以帮助你在作业中作弊、生成无限的虚假内容，还可以被用于各种恶意目的。

到目前为止，我认为它们是净正面的。我个人使用它们提高了生产力（并以各种不同的方式娱乐自己）。我认为学会有效使用它们的人可以显著提高他们的生活质量。

很多人还没有被它们的价值所打动！有些人认为它们的负面超过了正面，有些人认为它们是热气腾腾的，甚至有些人认为它们对人类构成了存在的威胁。

构建LLMs其实相当容易

我们今年了解到最令人惊讶的事情之一是，构建LLMs实际上相当容易。

直觉上，人们会以为这样强大的系统需要数百万行复杂的代码。相反，事实证明，几百行Python代码就足以训练一个基本版本！

最重要的是训练数据。你需要大量的数据才能使这些东西工作，而训练数据的数量和质量似乎是决定结果模型好坏的最重要因素。

如果你能收集到正确的数据，并且负担得起训练它所需的GPU费用，你就可以构建一个LLM。

一年前，唯一发布了一个普遍有用的LLM的组织是OpenAI。现在我们已经看到Anthropic、Mistral、Google、Meta、EleutherAI、Stability AI、TII in Abu Dhabi（Falcon）、Microsoft Research、xAI、Replit、Baidu以及其他一些组织生产了超过GPT-3级别的模型。

培训成本（硬件和电力）仍然显著——最初为数百万美元，但似乎已经降至数万美元。微软的Phi-2声称使用了“96个A100 GPU上的14天”，按当前Lambda定价计算，约为35,000美元。因此，培训LLM仍然不是业余爱好者能负担得起的，但它不再是超级富有者的专属领域。我喜欢将训练LLM的难度与建造悬索桥进行比较——并不是微不足道的，但世界上有数百个国家已经弄清楚了如何做到这一点。

你可以在自己的设备上运行LLMs

今年1月，我认为在自己的电脑上运行有用的LLM还需要几年时间。GPT-3和3.5几乎是唯一的选择，我认为即使模型权重可用，也需要一台价值1万美元以上的服务器来运行它们。然后在2月，Meta发布了Llama。几周后，Georgi Gerganov发布了代码，使其能够在MacBook上运行。我写了一篇文章，谈论大型语言模型正在经历它们的“稳定扩散”时刻，回顾起来，这是一个非常好的判断！这释放了一股创新旋风，随后在7月Meta发布了Llama 2——一个改进版本，关键是包括了商业使用许可。今天，有成千上万的LLMs可以在各种不同的设备上本地运行。我在我的笔记本电脑上运行了一堆LLM。我在我的iPhone上运行Mistral 7B（一个出奇地优秀的模型）。你可以安装几个不同的应用程序，获得自己的、本地的、完全私人的LLM。你甚至可以使用WebAssembly和最新的Chrome完全在浏览器中运行它们！

业余爱好者可以构建自己的微调模型

我之前说过，从头开始训练LLM对业余爱好者来说仍然遥不可及。但对其中一个模型进行微调又是另一回事。现在有一个迷人的生态系统，人们在这些基础上训练自己的模型，发布这些模型，构建微调数据集并共享它们。 Hugging Face Open LLM Leaderboard是跟踪这些的一个地方。我甚至无法尝试去计数，而且任何计数都会在几小时内过时。任何时候最好的整体开放许可LLM很少是一个基础模型：相反，它是最近发现最好的微调数据组合的哪个微调社区模型。这对开放模型而言是一个巨大的优势：封闭的、托管的模型没有成千上万的研究人员和业余爱好者在全球范围内协作和竞争来改进它们。

我们还不知道如何构建GPT-4

令人沮丧的是，尽管今年我们取得了巨大的进步，但我们还没有看到比GPT-4更好的替代模型。 OpenAI在3月发布了GPT-4，尽管后来证明我们在2月份就有了一瞥，当时微软将其用作新版Bing的一部分。这可能在未来几周改变：谷歌的Gemini Ultra有很大的宣称，但目前我们还没有机会尝试它。 Mistral团队也在努力超越GPT-4，考虑到他们的第一个公开模型只在去年9月发布，并且自那时起他们已经发布了两次重大改进，他们的记录已经非常强了。

感觉驱动开发

与传统编程不同，使用LLM时我们不能直接控制输出。这导致了一种基于直觉和试错的开发模式，我们需要花费数周时间来了解每个模型的优势和不足。

聪明又愚蠢

LLM能够执行一些出乎意料的任务，但有时为了让模型表现出我们想要的行为，需要采取一些看似愚蠢的方法。例如，改变提示的日期可能会影响回答的长度。

易受欺骗的问题

LLM易受欺骗是一个未解决的重大问题。它们往往“相信”训练数据中的内容，这在安全性和准确性方面带来了挑战。

编码可能是最佳应用

编写代码可能是LLM最擅长的领域之一。与自然语言相比，编程语言的规则更加简单明了，这使得LLM在代码生成方面表现出色。

道德复杂性

LLM在未经授权的情况下使用人们的内容进行训练，这引发了一系列法律和道德上的问题。例如，纽约时报近期对OpenAI和微软提起的诉讼就是一个例子。

对社会和工作的影响

LLM的发展已经开始影响某些工作领域，如文案写作、艺术创作和翻译等。这些变化对社会的影响需要我们进一步关注和研究。

随着我们进入2024年，如何解决这些挑战，以及LLM将如何继续影响我们的工作和社会，都是值得深思的问题。

不要错过富源更多关于融资、科技和商业趋势的精准信息，最新动态和深入分析。立即点击这里立刻订阅富源！

上篇下篇