批处理

面向百万级请求的批处理执行路径,优先级清晰、交付方式可编排。

BatchIn 的批处理能力适合文档流水线、离线增强和长时间运行的推理任务,在吞吐和价格之间提供可见的权衡。

单批上限

10,000 个任务

Fill 层级

最低 spare-capacity 成本

结果保留

72 小时

回调

支持 Webhook

能看懂的价格与调度关系

优先级不是隐藏在调度器背后的暗箱参数。任务入队前,你就知道速度和价格的取舍。

  • High 优先级适合对时效要求最高的任务。
  • Low 优先级适合有折扣空间的后台吞吐任务。
  • Fill 优先级适合不追求时效、只追求最低成本的积压任务。

适合直接接入流水线

批处理与在线 API 保持同一套平台语义,不需要再为离线任务搭建第二套接入系统。

  • 支持 mixed-model JSONL,把不同记录路由到不同模型。
  • 支持 Webhook 回调与结果下载,方便下游工作器消费。
  • 审计和用量日志与在线 API 共享同一套记录模型。