DeepSeek 不是 ChatGPT 的克隆,这就是它的不同之处
总结
- DeepSeek 提供的不仅仅是财务节省,还有一些重要的技术。
- DeepSeek 的突出之处在于透明的思维过程,使其更容易调整输出。
- 内容缓存是另一项重要的技术创新,可以带来更好的提示。
过去几周,科技新闻主要关注 DeepSeek(中国对西方大型语言模型 (LLM) 的回应)如何席卷全球,此外,它还会扫除大量市场价值。然而,DeepSeek 与 GPT 的不同之处是什么,除了运行成本更低之外,还有更多的原因吗?
事实证明是有的。事实上,一旦你仔细观察,你就会发现 DeepSeek 并不是中国在其他行业中闻名的相同但更便宜的克隆。它是一个真正的竞争者,对 AI 模型进行了创新并进行了真正的改进。
思路链
与人类非常相似,LLM 需要解决一个复杂的问题。我不能要求你简单地计算一个复杂的方程式,你需要一步一步地进行,直到你得出结论。在 AI 中,这被称为“思维链”,它是从聊天机器人获得良好输出的重要组成部分。
与 GPT 相比,思路链可能是 DeepSeek 取得最大进步的地方,它不仅能够解决复杂的谜题(如本例所示),而且还能以令人满意的方式展示其工作。您无需提出问题并仅得到答案,而是可以检查 DeepSeek 的工作。
这也意味着,如果您对收到的答案不满意,可以要求更改,或者让 DeepSeek 回答您在阅读其思路时可能想到的任何问题。对于任何用户来说,它都是一个强大的补充和出色的工具。
缓存
DeepSeek 是 GPT 的真正竞争对手的另一种方式是缓存或临时存储您的问题和答案,从而允许您构建问题链。ChatGPT 背后的公司 OpenAI 限制了缓存,原因很简单,它需要花钱,因此在聊天机器人“擦除”其内存之前,您只能提出这么多问题(限制由您的计划设置)。
DeepSeek 通过使用它所谓的 Content Caching on Disk 来解决这个问题。这项技术可以检测重复的输入,使 DeepSeek 可以检索早期的答案,而不是将新的答案放在一起。这节省了大量浪费的计算,因此,DeepSeek 的成本更低,并且允许用户创建更长的链。
在与 AI 建模师 Emile Gervais 的交谈中,DeepSeek 对缓存和不缓存的内容也非常透明;你可以查一下。这样,您就可以看到在输入提示时什么效果最好,这就引出了我的最后一点。
提示优化
更好的缓存和思维链改进的结果是,创建更好的提示变得更加容易。Gervais 说,DeepSeek 的工作原理透明性使其更容易弄清楚如何构建您给 AI 的命令。
例如,在编写提示时,你可以将随着你建立链而不会改变的数据放在前面,确保 DeepSeek 在缓存中使用和重用该信息。更多的可变数据应该放在提示的中间或末尾,这应该可以提供更清晰的答案。
虽然这不是一夜之间就能弄清楚的事情,而且它可能不是对普通人来说太有用的信息,但它确实表明 DeepSeek 与 GPT 是不同的动物,而且它不仅仅是一个更便宜的“山版”。OpenAI 开始的事情,可能最终由一家几个月前没有人听说过的中国公司完成。