OpenAI推出预测输出功能，显著减少大语言模型延迟

浏览：213次阅读

共计 762 个字符，预计需要花费 2 分钟才能阅读完成。

文章目录[隐藏]

预测输出的工作原理
实际应用案例
使用限制
如何使用预测输出

延迟是大多数与大语言模型（LLM）相关用例中的一个重要问题。对于代码建议和修改长文档等场景，延迟确实会影响整体用户体验。想象一下，用户想要重写一个两页文档的最后一段。如果重写的文档能立即出现会更好，因为更改只涉及一个段落。然而，当前的 LLM API 需要重新生成整个文档，导致用户面临显著的延迟。

为了解决这个问题，OpenAI 推出了一项名为 预测输出（Predicted Outputs） 的新开发者功能。该功能适用于大多数输出内容已知的情况，可以显著减少延迟，提高用户体验。

预测输出的工作原理

预测输出使用推测解码技术，跳过已知内容，从而加快生成速度。开发者可以通过传递现有内容作为预测，显著减少延迟。这样，模型可以更快地重新生成整个内容，尤其是当只需要修改部分内容时。

实际应用案例

OpenAI 与一些外部合作伙伴测试了这一功能，结果非常积极。例如，根据微软 GitHub 团队的内部分析，Copilot 工作区负载中的预测输出导致了 5.8 倍的加速。这表明预测输出在实际应用中具有显著的效果。

使用限制

尽管预测输出功能带来了显著的好处，但开发者需要注意以下限制：

模型支持：目前，预测输出仅支持 GPT-4o 和 GPT-4o-mini 系列模型。最新的 o1 模型不支持。
API 参数限制：
- n值大于 1
- logprobs
- presence_penalty大于 0
- frequency_penalty大于 0
- 音频选项
- 非文本模式
- max_completion_tokens
- 工具 - 不支持函数调用
费用：在提供预测时，任何不属于 API 最终完成的标记都将按完成标记费率收费。

如何使用预测输出

要使用预测输出，开发者可以按照以下步骤操作：

准备现有内容：将已知内容作为预测传递给 API。
调用 API：使用支持预测输出的模型和 API 参数调用 OpenAI API。
处理结果：接收并处理生成的内容。

相关文章

相关文章

相关文章

正文完

关注公众号获取最新教程

post-qrcode

OpenAI 大语言模型预测输出

发表至： OpenAI

2024-11-06

0

版权声明：本站原创文章，由 AI小诸葛于2024-11-06发表，共计762字。

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

AI基准测试组织因隐瞒来自OpenAI的资助而受到批评

你的私人AI老师「Mr. Ranedeer」：为拥有不同需求和兴趣的用户提供个性化的学习课程

使用GPT-4开发的Chrome浏览器插件ChatGPT Notifier，当 ChatGPT 完成回答时用音效通知你

OpenAI 与苹果合作：将 ChatGPT 集成到 iPhone 核心功能

Meta AR眼镜项目前负责人加入OpenAI领导机器人和消费硬件部门

微软继续扩展Copilot功能，Word新UI引人注目