草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟
量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。
量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。