AI 中转站评测框架GatewayBench上线，官网 Check4U.ai 同步开放

May 29, 2026

Academy

shareToTwitter shareToLinkedin shareToTelegram shareToCopy

AI 中转站解决了模型访问问题，但也制造了新的信任问题。 AI 中转站评测框架GatewayBench 现已通过官网 Check4U.ai 开放评测入口，试图将模型真实性、计费透明度、缓存隔离和真实成本转化为可验证指标。GatewayBench 同时面向 API 中转站、聚合网关和模型服务商开放公开评测榜单，希望用可复查的审计数据，让诚实交付获得更多市场信任。

大模型 API 正在进入全球生产环境，被接入客服、代码生成、Agent 工作流、风控系统和科研实验。但在这场智能化浪潮背后，一个长期存在的问题正在变得更加突出：全球开发者并不拥有同等的模型访问条件。

在一些地区，团队可以相对顺畅地绑定信用卡、调用官方接口、使用最新模型；而在另一些地区，开发者仍然会受到地缘限制、支付门槛、账号风控和企业合规流程影响。业务和科研需求不会因此消失，于是第三方 AI 中转市场，也就是 Shadow API，逐渐成为一种现实中的工程替代方案。

对许多团队来说， AI 中转站具有十足的吸引力，它让开发者能够以更低的接入门槛使用 GPT、Claude 等主流模型，体验上接近官方 API，也在一定程度上填补了官方渠道无法覆盖的空白。

但问题在于，这个市场的后端极不透明。

服务商通常会强调原版模型、低价、高速、支持缓存等卖点，但用户很难验证后端究竟发生了什么：模型是否被替换或降级，token 是不是被准确计费，缓存折扣又是否被真实返还，跨账号数据是否严格隔离，失败请求是否仍然被扣费。

这种黑箱风险已经超出普通采购范畴。2026 年 3 月，德国 CISPA 亥姆霍兹信息安全中心的一篇审计论文显示，全球至少有 187 篇学术论文使用过AI 中转API（ Shadow API），其中 62% 已被 ACL、CVPR、ICLR 等顶级会议接收。如果实验中的底层模型被替换、量化或降级，研究结果的可复现性和可信度都会受到影响。

AI 中转站API 解决了访问问题，却制造了新的信任问题。

GatewayBench：把网关黑箱转化为可验证指标

在这一背景下，GatewayBench 作为一套面向 AI 中转站的审计评测框架正式上线，并通过 Check4U.ai 开放评测入口。它的目标是为这一市场提供更客观、可复查的评测标准。

和普通跑分工具不同，GatewayBench 更像是一个面向大模型网关的审计框架。传统横向评测通常比较速度、价格、模型覆盖率和可用性，并默认网关返回的数据真实可信。但在AI 中转站API场景下，这个前提并不稳固：一个平台可以看起来又快又便宜，但请求进入网关之后，模型是否被降级、token 是否被准确计费、缓存是否被正确处理，用户未必看得见。

因此，GatewayBench 新增了一个传统评测中很少被量化的维度：技术诚信，这个指标关注的并非接口表面上的速度和便宜，而是网关交付过程本身是否可信，即当开发者把请求交给中转网关后，最终获得的服务，是否仍然符合平台最初承诺的模型能力、成本结构和隔离边界。

三层评估框架：可信度、性能与经济性

对应到框架设计中，GatewayBench 将综合评估拆成三个维度：L1 可信度、L2 性能、L3 经济性。

L1 可信度关注模型真实性、计费透明度和缓存可信度；

L2 性能关注延迟、Goodput 和长上下文场景下的稳定交付能力；

L3 经济性关注名义单价之外的真实出账成本。

综合分采用如下权重：

综合分 = 0.40 × L1 可信度 + 0.40 × L3 经济性 + 0.20 × L2 性能

这个权重设计意味着，在 AI中转站API场景下，可信度和真实成本优先于速度。一个网关必须先证明模型真实、账单透明、成本可解释，才有资格进入性能竞争。

L1 可信度：把黑箱变成可验证信号

大模型中转网关最大的风险，在于用户很难知道后端到底发生了什么，模型是否被替换，thinking tokens 是否被虚报，缓存折扣是否真实返还，过去往往只能通过感觉模型变笨了或账单看起来异常来判断。

GatewayBench 的 L1 维度，试图把这些模糊怀疑变成可验证的审计问题，将可信度拆成三部分：模型真实性、计费透明度和缓存可信度。对应的审计方法也不再依赖厂商自报日志，而是引入统计检验、密码学结构和延迟指纹，从外部反推网关是否真的交付了承诺的模型、成本和隔离边界。

1. 模型真实性：识别模型替换与降级

在灰色中转市场里，最难发现的套利方式之一，是模型的动态替换。网关可以根据成本、负载、用户类型或请求特征，在不同后端模型之间动态切换。更复杂的情况是，网关可能在明显的测试请求或重点客户请求中调用官方模型，在普通流量、长尾请求或高成本任务中切换到量化模型、蒸馏模型，或成本更低的替代模型。这样一来，单次抽样很难发现问题，用户看到的也只是一个看起来正常的响应。

如果只看最终输出，很难识别这类问题。但大模型底层是一个概率分布系统。给定同一个 prompt，原版模型会生成一套相对稳定的候选 token 排序。低配模型即使能给出相似答案，其长尾 token 的概率顺位也会出现持续偏移。

为此，GatewayBench 引入了 RUT（Rank-based Uniformity Test，基于排序的均匀性检验）方法，用于验证黑箱 LLM API 的行为是否与参考模型一致。它并不直接比较中转站最终生成的文本语义，而是通过连续抽样，把网关生成的 token 放回参考模型的概率排序中做一致性检验。如果网关发生模型替换、量化降级或有害微调，输出文本可能仍然看起来接近，但 token 在参考模型概率分布中的位置会出现系统性偏移。这种偏移，就是模型被调包或降级的统计痕迹。

在持续监控层面，GatewayBench 还可以结合 Logprob Tracking。这类方法不需要每次生成完整回答，而是在固定 prompt 下只请求一个输出 token，并追踪该 token 的 log probability 是否出现稳定偏移。若同一 endpoint 在不同时段出现明显 logprob 漂移，就可能意味着后端模型发生了更新、微调、量化调整或路由切换。

这类偏差很难通过话术掩盖。RUT 主要是判断目标 endpoint 的行为是否接近参考模型，而Logprob Tracking 则用更低成本持续观察同一 endpoint 是否发生漂移。二者结合，可将「模型是否被调包」从主观体感问题，转化为可以统计检验和持续监控的问题。对企业用户来说，验证的指标是厂商交付的模型，是否和合同、接口文档、价格表里承诺的是同一个模型。

2. 计费透明度：审计隐藏的 thinking tokens

推理模型（Reasoning）让大模型计费变得更难核验。由于 thinking tokens 默认不可见，平台既可以基于这部分 token 计费，也可以在用户无法核对的地方虚报数量。这意味着，推理模型把一部分真实成本转移到了黑箱内部，而账单透明度也因此变成可信度审计的一部分。

GatewayBench 将计费透明度单独列出，正是为了处理这个问题。它的基本假设是：最终答案的复杂度，与其背后的推理成本存在一定相关性。一个严密、复杂、步骤完整的答案，通常不可能以极低的思考成本生成；反过来，一个简单答案也不应被计入异常高的 hidden token 消耗。

基于这一点，GatewayBench 引入 PALACE 与 CoIn 审计机制。PALACE 的思路，是在评测端训练一个反向推理器：它不需要看到网关隐藏的完整思考日志，只需要观察用户 prompt 和最终 answer，就能估算出一个合理的 thinking token 区间。当账单中申报的思考 token 明显偏离这个区间，就会触发计费异常判断。

CoIn 则提供另一层约束。通过把 token 级别的向量指纹组织成可验证的密码学结构，例如 Merkle Tree，使计费记录更难被事后篡改。

这样，GatewayBench 可以试图验证一个问题，即这笔账是否与模型实际生成过程相匹配，是否存在隐藏 token 的异常申报。

这类审计的意义在于，推理模型时代的计费不再只发生在用户可见的文本里。真正的成本可能藏在看不见的 thinking tokens 中。GatewayBench 要解决的，是如何让不可见的推理成本重新变得可质疑、可验证、可追责。

3. 缓存欺诈：验证折扣返还与账号隔离

Prompt cache 是 AI Gateway 降低成本、提升速度的重要机制，命中缓存的请求通常能获得 2 折左右的骨折价。但它也制造了新的灰色地带：中转商可能拿到上游缓存折扣，却继续向用户按全价收费；也可能为了提高命中率，把不同用户的 prompt 放进共享缓存池，用隐私隔离换成本优势。

因此，缓存问题不再只是单纯的性能或价格问题，而是同时指向账单可信度和数据隔离边界。一个 Gateway 可以用缓存省钱当然是好事，但必须证明这笔节省真实返还给用户，并且没有通过跨账号共享上下文来套利。

GatewayBench 的方法，是用延迟指纹来验证缓存账单。账单里的 cached_tokens 可以伪造，但缓存命中带来的低延迟很难伪装。如果账单显示命中缓存，TTFT 却仍然明显偏高，就说明所谓缓存折扣可能只是账面数字，实际计算并没有省下来。

此外，GatewayBench 还会做跨账号隔离探测：先用账号 A 发送一段极罕见长文本建立缓存，再用账号 B 发送同样内容。如果 B 出现异常低延迟（首字延迟 TTFT 掉进 50 毫秒以内），就说明两个账号可能共享了缓存上下文。这个测试直接击中了缓存优化背后的隐私风险。

缓存是一把双刃剑。它可以让系统更快、更便宜，也可能让账单更不透明、隔离边界更模糊。GatewayBench 把缓存纳入可信度审计，本质上是在要求网关证明一件事：你省下来的成本，不能来自用户看不见的账单造假和数据混用。

大模型可信度的核心在于生成的过程，即GatewayBench 关注的是这个答案是不是由承诺的模型、以承诺的成本、在承诺的隔离条件下生成的，这才是真正的供应链可信。

L2：性能不等于峰值，而是按时交付

只有通过 L1 可信度审计的网关，才有资格进入性能与性价比的比较。

在大模型基础设施生态中，性能一直是中转站和聚合 API 厂商最愿意强调的指标。「全网最快」、「单并发 150 tokens/s」这类表述并不少见。但 GatewayBench 在设计指标体系时，对性能保持了相当克制的权重分配：L2 性能只占综合评分的 20%。

原因很简单。速度当然重要，它决定了系统是否具备基本可用性，也能淘汰掉频繁卡顿、长尾失控的服务。但速度不应该超过可信度和经济性。一个网关即使跑得很快，只要存在模型替换、账单注水或缓存不透明，就无法成为可信的企业级基础设施。

因此，GatewayBench 不追逐单点峰值，而是把性能拆成更贴近生产环境的问题：延迟决定用户等多久，Goodput 衡量在延迟红线内还能交付多少有效产能，长上下文测试则观察系统在重负载下如何退化。

这套设计背后的前提是：性能是门槛，但绝非终点。企业真正购买的是在可信前提下稳定、按时、可预期的交付能力。

1. 延迟与 Goodput：满足 SLO 的吞吐才是有效产能

在商业级 AI 系统里，不谈延迟的吞吐没有太大意义。聊天场景中，迟到意味着用户流失；Agent 场景中，迟到意味着任务链中断；自动化交易或风控场景中，迟到甚至可能错过关键的决策窗口。大模型服务的核心能力，考验的并非单位时间内能吐出多少 token，而是在业务可接受的时间内，稳定交付多少结果。

GatewayBench 的方法是，先用延迟指标定义可用，再用Goodput计算可用状态下还能交付多少，这比单纯看 tokens/s 更接近企业采购时真正关心的问题。

在大模型系统里，延迟早已无法用一个单一数字概括，而是被解构为四维坐标：

TTFT（首字延迟）：衡量第一个 Token 出现的耗时，决定用户交互的第一体感。
TPOT / ITL（字间延迟）：衡量 token 之间的间隔，判断流式输出是否顺滑。
TTFA（首个有效答案延迟）：衡量推理模型中用户看到第一条有效答案的时间，避免 hidden thinking tokens 扭曲体感。
E2E Latency（端到端总时间）：衡量整个请求从开始到结束的总耗时，适合非流式和批处理场景。

这种拆解的必要性在于，承认慢在生产环境里有不同的形态。一个系统可能首字很快，但后续输出卡顿；也可能空载时表现不错，一到并发压力下 P95、P99 长尾全面失控。平均值很难暴露这些问题，分层延迟指标才能定位真正的体验缺陷。

在此基础上，GatewayBench 引入 SLO （服务等级目标）作为业务红线。企业可以规定，例如 P95 TTFA 必须小于 1.5 秒，P95 E2E 必须小于 8 秒，流式输出不能出现明显抖动。Goodput 就建立在这条红线之上：只有在满足 SLO 的前提下交付的吞吐，才算有效产能。

这也是 Goodput 的关键含义。并发上升时，网关即使仍在输出 token，只要排队导致首字变慢、流式卡顿或端到端延迟越线，这部分产出在商业上就不再有效。因此，这个指标测的并非系统空载时的峰值速度，而是在真实压力下还能按时交付多少。对企业来说，买的也正是这种能力。

2. 长上下文：从退化曲线看真实调度能力

短文本响应快，并不能证明一个网关具备企业级能力。很多服务在处理日常聊天时表现很好，但一旦进入 RAG、长文档分析或复杂 Agent 场景，输入长度从 1k 上升到 10k、100k，系统压力表现会完全不同。

原因在于，长上下文消耗的并非普通的请求资源。它会显著增加 Attention 计算和 KV Cache 显存占用，也会影响排队策略、并发隔离和资源调度。也就是说，输入长度一旦进入 100k 级别，网关面对的就不再是更长的文本，而是完全不同的资源压力。

GatewayBench 设置 1k、10k、100k 三档输入长度，目的并不是要求长文本和短文本一样快，而是观察系统系统变慢的方式是否稳定、可解释、可预期。一个健康的系统，会随上下文增长稳定退化，企业可以据此规划容量和成本；反之，不健康的系统则可能在某个长度后突然断崖，P95/P99 长尾失控，甚至日志没有报错，实际业务已经不可用。

这条退化曲线还会暴露两类灰色策略。一类是软限流：面对高资源请求，网关并不直接拒绝服务，而是把它们放进更慢的队列，虽然表面可用，但实际体验被削弱。另一类则是隐性溢价：长上下文用户通常迁移成本更高，也更依赖上下文完整性，因此网关可能对大请求采用更贵的计费、更差的资源池，或不透明的动态调度。通过对比 1k、10k、100k 下的延迟、吞吐和成本变化，GatewayBench 可以观察性能退化与价格变化是否匹配。

因此，长上下文测试测的并非最大 token 容量，而是重负载下的调度诚实度。短文本峰值可以被优化出来，但100k 场景下的退化曲线，才更接近企业真正会遇到的生产压力。

L3 经济性：从标价到真实出账成本

在大模型商业落地的诸多变量中，价格往往是企业最敏感的一项。但 GatewayBench 的判断是：价格虽然最容易被公开标示，也最容易在细节中被重新包装。

因此，GatewayBench 将经济性（L3）赋予 40% 的高权重，与可信度（L1）并列为核心维度。其目标并不是比较价格表上的名义单价，而是帮助企业还原 True Cost per 1M Tokens：把输入、输出、缓存、失败请求、汇率、支付通道和退款条款都纳入之后，企业最终真正支付的成本。

这也意味着，价格透明度本身就是可信度的一部分。一个网关如果无法清晰拆分定价结构，往往说明它仍有依赖信息不对称获利的空间。价格越模糊，技术降级、服务缩水和账单包装的灰度空间就越大。透明定价并非单纯的财务问题，而是大模型供应链能否被信任的问题。

3.1 明码定价：拆箱「大包价」

中转站行业一个常见做法，是宣传统一混合价，或用固定输入输出比例计算综合价格。这样方便横向比较，但也容易掩盖真实成本。企业调用大模型时，并不存在稳定的标准比例：RAG 和长上下文 Agent 往往是巨量输入、少量输出；代码生成和内容创作则可能是少量输入、海量输出。

混合报价的问题正在这里。它把输入价、输出价、缓存命中价和缓存写入价压缩成一个数字，看起来简洁，却让企业难以判断成本到底发生在哪里。厂商也可以通过调整不同价格项，让综合价格看起来更有竞争力，同时把成本转移到特定业务场景中。例如压低输出价来优化榜单表现，却抬高输入价，最终让 RAG 用户承担更高账单。

GatewayBench 因此要求四类价格独立上报：输入价、输出价、缓存命中价和缓存写入价。对于 Anthropic 这类按照缓存生命周期区分价格的厂商，还需要进一步拆分不同 TTL 下的写入成本。

这么设计的意义，是让企业回到自己的业务负载里算账。一个做长文档检索的团队，真正关心的并非综合价格是否好看，而是输入和缓存成本会不会吞掉预算；一个做代码生成的团队，则更需要关注输出价格。四轨分报把价格从营销数字，重新拉回到可核算的采购变量。

2. 相对官方价：低价不等于诚实

传统评测往往默认价格越低越好。但在大模型网关市场里，绝对低价并不总是好信号。GatewayBench 因此引入相对价格比：平台价格 / 官方厂商价格。低于官方价可以视为折扣；高于官方基准 5% 以上且没有公开解释，则会被扣分。

这背后的设计逻辑是，价格应当与技术角色匹配。一个平台如果只是简单转发请求，就很难为额外加价提供理由；但如果它承担了路由、容灾、统一计费、智能降级和多模型调度等能力，适度溢价就可以被视为合理的工程成本。

因此，GatewayBench摒弃了用同一条价格线衡量所有网关，而是根据供应链角色设定不同的容忍区间。聚合路由商提供跨模型调度、多通道容灾和统一账单，收取约 5.5% 的路由费，可以被解释为服务增值。纯透传网关或自部署代理如果没有提供额外能力，合理预期则接近零加价。

这避免了两个极端。过高的价格，如果缺少技术解释，可能只是供应链摩擦；过低的价格，如果明显低于官方成本，也可能是风险信号。网关可能通过模型降级、隐藏扣费、限流或账单不透明来弥补亏损。

因此，相对官方价的意义并不只是比便宜，而是判断价格是否诚实。通过这个指标，GatewayBench 要衡量的，是平台收取的每一部分溢价，能否对应真实的工程价值。

3. 隐性成本：失败扣费、余额约束与支付摩擦

经济性评估中，最容易被忽略的部分，往往不在价格表上。许多网关会用极低的名义单价吸引开发者，但企业一旦接入生产环境，真实成本可能来自一系列更隐蔽的财务摩擦。

第一类是失败请求计费。高并发场景下，部分网关可能出现超时、断流或 5xx 错误。用户没有获得有效输出，但请求仍被计入账单。对企业来说，这会把服务不稳定性转化为额外成本：系统越不稳定，实际单位成本越高。

第二类是账户余额约束。低单价往往伴随较高的充值门槛、不支持提现或退款，甚至存在最低消费、余额过期等条款。名义价格看起来便宜，但资金一旦进入账户，就可能失去灵活性。对采购方来说，这会降低预算可控性，也增加更换供应商的成本。

第三类是外汇与支付成本。对于跨境或多币种结算的企业，网页上的美元标价不一定等于最终支付成本。汇率差、通道手续费和不透明的支付加成，都会把实际单价抬高。如果这些成本没有被纳入评测，价格比较就会失真。

对企业采购而言，大模型基础设施选型关心的往往不是绝对低价，而是成本的可预测性。GatewayBench 的 L3 经济性评测，本质上更接近一套 Forensic Accounting 式的财务审计：通过四轨定价拆开价格结构，通过角色基准定义合理利润，通过隐性成本识别条款陷阱。最终衡量的是每百万 tokens 真正落到企业账单上的实际出账成本。这套框架试图把账单里的模糊空间提前暴露出来，让 AI 的商业成本重新变得可拆解、可解释、可预估。

结语：让诚实交付成为市场优势

AI 中转站API 不会因为灰色属性而自动消失。只要模型访问仍然存在地区、支付和风控差异，大模型中转站API 市场就会继续存在。关键问题不是否定它的存在，而是让它从黑箱竞争走向透明竞争。

这也是 GatewayBench 的前提假设：承认这种现实需求，同时引入一套标准化的审计框架，让不可见的网关行为变得可验证，让开发者知道自己到底调用了什么、付了多少钱、承担了哪些风险。

但一次接入前评测还不够。要让市场真正变好，关键是把每一次调用留下的记录沉淀为信用。GatewayBench 希望在评测之外，进一步推动大模型网关市场形成一套可持续的履约机制：模型调用、计费记录、缓存命中、延迟表现和异常处理，都可以成为可复查的市场信号。

长期稳定、透明、诚实交付的 Gateway，理应获得更多开发者信任，也应该获得更好的市场分发；频繁出现模型漂移、性能异常或计费争议的服务商，则需要面对更高的信任成本。这不是为了惩罚某一类服务商，而是为了让市场回到更健康的竞争逻辑：真正交付好服务的网关，不应该被只会低价营销的平台掩盖；开发者也不应该在看不见后端的情况下，用业务稳定性和数据安全为黑箱买单。

GatewayBench 审计评测框架已正式上线，并通过官网 Check4U.ai 开放评测入口。 API 中转站、聚合网关和模型服务商均可参与 GatewayBench 公开评测，成为榜单中的公开评测对象。对服务商来说，这是一次用可复查数据证明交付质量的机会；对开发者来说，也意味着在选择第三方网关时，可以获得比宣传语和价格表更可靠的参考。

一个更好的大模型网关市场，不应该只靠宣传语建立信任，而应该靠持续交付沉淀信用。GatewayBench 希望成为这套信用基础设施的一部分，让诚实服务获得更多流量，让透明竞争利好最终用户，也让整个行业向更可验证、更可问责的方向演进。

查看更多

支付服务提供商（PSP）必备稳定币支付入门指南：如何无须重构系统集成数字美元

December 11, 2025

Cobo vs. Fireblocks：为您的企业选择合适的数字资产托管服务商

June 17, 2025