江南官方网站大模型新：定制化推理释放企业数据价值

扫一扫!

扫一扫!

浏览：-11 发布日期：2024-05-19 10:50:16【大中小】

　　Naveen Rao已经在建立人工智能技术和公司方面有十多年的经验。他创立了 Nervana Systems（被英特尔收购）和 MosaicML（被Databricks收购），现在担任 Databricks 的生成AI副总裁。从芯片到模型，很少有人比他更了解企业如何使用人工智能。

　　在AI + a16z播客的首发节目中，Naveen Rao与a16z合伙人Matt Bornstein、a16z企业编辑Derrick Harris对谈，讨论了企业在大型语言模型（LLM）采用方面的现状，以及LLM将如何影响芯片设计和软件更新周期。他还分享了一些个人故事，观察人工智能技术和意识如何从边缘运动发展为主流现象。

　　或许一些读者已经对CUDA计算平台对于英伟达绑定用户的重要意义有所耳闻，但 Naveen 在谈及芯片时提出了一个新观点，软件堆栈的成熟性才是将客户与英伟达深度绑定的原因。

　　尽管 Transformer 架构存在着幻觉、背景知识依赖等固有问题，但对于众多芯片公司来说，大语言模型在很大程度上遵循 Transformer 架构的标准这一特征也为他们创造了机会，因为这使得他们可以根据更同质化的工作负载来定制他们的产品，降低了开发难度。Transformer 这样更模式化的架构，使我们有机会去构建一些不太灵活但性能更高的硬件。

　　除了通用大语言模型，对预训练模型进行微调而形成的定制化模型也将是企业采用的大势所趋。在特定领域，这样的定制化小模型的性能表现可能远超一流的大模型，对于企业来说性价比很高。

　　根据 Naveen 的观察，一个模型的生命周期在六个月，六个月之后模型就会在经历多轮训练推理之后发生很大的变化。事实上，每个收集数据的公司都有可用于模型训练的数据集，企业应该从以往的业务积累中挖掘数据，开发自己的定制化模型。同时也应确定自己的模型评估标准，以便对模型做出更精准的反馈，促进训练推理迭代。

　　Naveen Rao：英伟达确实一直非常好地把握每一个新兴趋势，并将其执行得非常出色。所以对任何与之竞争的公司来说，英伟达无疑是一个强大的对手。大家普遍谈论CUDA生态系统的绑定效应，但我认为这已不再是原因所在。我觉得他们已成为行业标准，转投其他硬件平台会带来风险。

　　我们一直在寻找新的硬件，看看是否能找到更好的总体拥有成本（Total Cost of Ownership，TCO），基本上我关注的是每美元有效算力这一数字。事实上很难找到合适的替代品，因为他们确实制造出了优秀的产品，再加上成熟的软件堆栈，我们能从中获得很大算力。软件堆栈的成熟性才是将用户与英伟达真正绑定的原因。

　　Derrick Harris：当你说你们在看其他的硬件平台时，可以透露一下具体是哪些吗？我马上想到的是云平台正在构建的东西。显然有一些初创公司也在这个领域尝试，但我很好奇你们在关注什么？

　　Naveen Rao：是的，我们之前有讨论过这些。但是到目前为止，放弃英伟达仍然非常困难，因为如果我们想为某个目的构建模型，这将是最短的路径。其他任何选择都会在这个阶段引入一些阻力。不过，我认为到年底情况可能会发生变化。可能会有其他的一些厂商能够在更少的阻力下实现最终的目标。我们正在构建我们的软件栈，让它对我们的客户来说非常容易使用，并通过他们已经熟悉的使用方式为客户提供最佳的总体拥有成本。我们有很多人正在Databricks mosaic堆栈之上进行构建。如果我们能够抽象掉这些硬件细节，我们就能让客户拥有更多选择。

　　Matt Bornstein：语言模型在很大程度上都遵循 Transformer 架构的标准。这似乎为芯片公司创造了一个机会，可以根据更同质化的工作负载来定制他们的产品。您认为这是真的吗？如果是这样，您认为这对行业来说是好事还是坏事？

　　Naveen Rao：这确实如此。如果你回到五、六年前，你必须支持许多不同的神经网络家族。当时有卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆（LSTM）等等，所以实际推出一些硬件要困难得多，因为你必须针对所有这些不同的东西进行支持和优化。

　　而现在，正如你所说，现在主要是 Transformer 架构或者是扩散模型。我认为扩散模型仍然是非常重要的工作负载。所以这两种模型都有一组相对较小的基本运算单元，因此你只需要进行针对性优化。

　　那它是好是坏？我并不确定好坏如何界定。我不认为 Transformer 架构是万能的。我认为 Transformer 架构还存在一些固有的问题，还没有得到很好的解决。任何接下来的架构都将建立在 Transformer 的经验教训之上。比如幻觉、背景知识依赖等问题，我并不能确定这些问题能否在 Transformer 架构内解决。我认为会需要一些修改。

　　我们正在做RAG（检索增强生成，Retrieval Augmented Generation）这样的事情，我相信你一定听说过。它基本上是一种通过近似搜索将上下文窗口扩展到大量其他文档的方法。我觉得这是一种行之有效的模式，不过，现在来看它仍然像是一种权宜之计，因为涉及到近似搜索、嵌入模型等。

　　Transformer 作为一种标准范式对硬件厂商来说肯定是件好事，因为它给了他们真正进入游戏的机会。正因为如此，我认为今年我们将看到一些竞争。我认为目前对这个架构有点过分依赖，但这正是这些事情的发展方式，不是吗？我们的意思是，我们找到了一些可行的方法，然后就一直在追逐它。而接下来必须对这种范式进行修改，才能向前发展。

　　Matt Bornstein：作为同时精通硬件和软件的少数专家之一，能否从你的角度解释一下，为什么在过去需要支持卷积神经网络等多种不同架构时，定制化芯片制造如此艰难？展望未来，如果我们真的抛弃 Transformer 架构，芯片行业进行相应调整会有多大难度？

　　Naveen Rao：硬件设计的一个基本概念就是限制计算模型的数量，所谓模型指的是一组反复出现的运算操作集合。比如，如果我进行矩阵乘法、线性缩放和查表操作，如果看到这一模型反复出现，那我就可以构建一款针对性优化这种操作集合的硬件。因此，定制化硬件的做法一直是寻找这些主导性的计算模型和模式，并专门为之打造硬件。在通用性与定制化之间存在着固有的权衡。

　　长期以来，CPU都是主导范式，因为大多数应用程序如Word等主要关注指令的顺序执行。现在我们进入了数据并行的时代，在支持新一代算法的同时，保持足够灵活性并在某些基本运算上拥有良好性能，这就是我们需要权衡的。比如，早期我们在Nervana构建软硬件解决方案时，主要关注感知器和卷积神经网络等一些基本运算。但后来出现了ResNet等不同的卷积网络，给我们带来一些挑战，我们不得不考虑在频域（frequency domain）而不是时域（time domain）进行卷积运算，这实际上改变了运算模型。这种情况更有利于GPU这类相对灵活的硬件。

　　但现在有了像 Transformer 这样更模式化的架构，它使我们有机会去构建一些不太灵活但性能更高的东西。你可以想象这种极端情况：我把一个完全训练好的神经网络直接刻在芯片上。对于这种神经网络，我们能做出各种创新优化，比如将所有0权重抛弃不计，不占用任何晶体管面积;还有那些含有大量0值的矩阵乘法运算，在优化逻辑合成时，相关的晶体管也会被优化掉。所以如果我们愿意完全牺牲灵活性，去刻录一个固定的神经网络，确实能实现很大程度的优化。但问题是，这样优化出的芯片是否有足够大的市场容量，能让开发成本合理化？这就是权衡所在。

　　Derrick Harris：你认为这种非常特定且缺乏灵活性的芯片的市场将是什么样子？是目前一些大型语言模型供应商如谷歌、OpenAI以及一些其他公司，还是企业界也会投资于此？

　　Naveen Rao：说实话，可能两者都有市场。大规模训练模型并为不同领域构建定制模型注定将成为一种趋势，它已经是当下的现实状况。首先，对于受监管行业而言，获得控制权很重要；其次，各公司都希望获得差异化，构建适用于自身数据和客户的专属模型，从而与竞争对手区隔开来。

　　但与此同时，一些主导性应用场景，比如chatGPT这样的大型语言模型，也有很大的潜力。GPT-4在过去一年里也在不断更新，虽然有人说它是一年前的模型，但实际上并非如此，它在内部一直在持续演进。但即便我们认定它是一年前训练的模型，如果这个模型仍有价值，那么只要能通过它运行足够多的推理，或者有足够多的用户付费订阅（比如1亿用户每月付费20美元），那构建一款专用芯片的成本（大约3000万美元）就能够被合理化。

　　相比之下，运行每次推理的成本会大大降低，因此对于这些大型通用模型而言，定制化芯片的做法其实是值得的。所以在某些情况下，我们可以换种思路来看待这件事。过去我们认为硬件是一个巨大、高成本且永久不变的存在，但在如今融资上亿美元已不足为奇的时代，这种观念并不适用。我可以每6个月推出一款新芯片，成本3000万美元，根本不算什么。所以如果我们从这个角度来看，只要知道一个模型的生命周期，以及将有多少人使用或产生多少token，我们就能够建立一个合理的财务模型，为每一款大型模型定制芯片。

　　Derrick Harris：这种转变发生得太快了，令人难以置信。几年前我想，做这种事的恐怕只有谷歌之类的巨头。但现在连创立仅数年的公司都在做了。我想稍微转移话题，从硬件方面转向软件方面。我的印象是，你更偏向于自定义训练模型。但我很好奇，在这种做法和其他可选方案之间，权衡在哪里？每种方案都有哪些适当的使用场景？

　　Naveen Rao：我认为这没有一个统一的答案。我们希望多从客户的角度考量，为他们提供价值。目前，我们的大部分业务实际上是定制训练模型。一旦客户将这些模型投入生产，我们预计推理端的业务将进一步增长。我会将微调与预训练统称为训练，将推理看作部署生产的一部分。从收入角度看，两者可能会趋于50：50的比例。

　　这是我的猜测，因为在训练模型后，你显然需要将其部署投入生产;而在生产环境下，你会收集反馈并希望基于此重新训练模型。所以，这两者相互促进、相辅相成。当然，这种情况将来可能会发生变化。

　　在构建一个模型时，这个模型只是一个时间点的快照，而并非永久不变的存在。根据我的观察，一个模型的生命周期大约为6个月。即使是目前最优秀的模型，比如GPT-4，情况也是如此。在大约6个月后，你就会看到它经历了很大程度的修改。如果我们从这个角度来看，情况就是这样：我会将一个模型投入生产运行6个月，然后根据部署过程中的经验教训，回过头来重新训练、优化这个模型。

　　所以训练和推理两者是相辅相成的。说实话，我们并不偏好某一方，会随着趋势而动。但就我目前的观察，训练和推理是同步增长的。

　　Derrick Harris：这似乎是一种转变。基本上我们所运行的应用程序每6个月就需要重做一次，这对企业的运作方式会产生何种影响？对于一些企业而言，这种更新速度看起来比传统上对核心应用的节奏要快得多。

　　Naveen Rao：这的确如此。在芯片行业你也能看到类似情况，芯片的生命周期大约为2年左右。2年后，芯片并不会完全过时，但就已经较为陈旧。当然，一些特殊场景下，企业可能会因合规审查或其他原因，将某些模型保留在生产环境中的时间更长。比如汽车领域，芯片需要运行10年甚至更长时间。这种场景下芯片经历了大量检查，生命周期自然会更长。但在数据中。

江南官方网站

上一篇：AI科技正在影响医学成果的开发、部署与使用方式下一篇：数字人掀起直播经济新浪潮AI应用亟需融入产业链