检测 方法
独立第三方评测 · 每 6 小时 1 轮 · 7 维度交叉验证 · 30 天滚动评级
METHODOLOGY OVERVIEW · 方法学概要
API RANK 致力于建立可验证、抗对抗、可持续的 AI API 中转站评测体系。我们的核心目标是识别"模型掺水"——中转站宣称提供 Claude / GPT / Gemini 等高价模型 API,按官方价格收费,但底层却替换为便宜模型(GPT-3.5 / GPT-4o-mini / Qwen / DeepSeek 等)。
本页公开评测全流程:检测节奏、每轮 6 步流程、7 个评测维度的权重表、三档评级阈值。具体题目内容保密,但方法学完全可验证。
本页公开评测全流程:检测节奏、每轮 6 步流程、7 个评测维度的权重表、三档评级阈值。具体题目内容保密,但方法学完全可验证。
DETECTION CADENCE · 检测节奏
6 h
每轮间隔
4 ×
每天轮数
120
每家每月采样
30+
出口节点池
每家中转站每天接受 4 轮检测,每轮间隔 6 小时,具体触发时点在窗口内随机化(避免被预测)。每轮使用独立的随机出口节点与独立的题库抽样。
单次结果不出评级——一家中转站累积满 5 轮采样后方进入正式评级序列。
单次结果不出评级——一家中转站累积满 5 轮采样后方进入正式评级序列。
PER-CYCLE WORKFLOW · 每轮 6 步流程
- 1 多维度题库交叉抽样 | 从各维度独立题库中按设计权重抽取本轮题组;单题对同一目标设 14 天冷却期。
- 2 协议层合规性压测 | 在多种边界条件下对目标接入进行协议合规性多点验证。
- 3 计费层指纹反推 | 通过精心设计的输入构造,从计费侧底层数据反推后端模型家族归属。
- 4 能力上限验证 | 对后端施加资源密集型任务,验证其与声称模型规格的对应关系。
- 5 多层特征聚合 | 采集响应链路各层的统计与结构化特征,按维度归并入特征向量。
- 6 评分管线触发 | 脱敏后入库,按维度权重加权计算本轮得分,并更新 30 天滚动评级。
SCORING DIMENSIONS · 7 个评测维度与权重
| # | 维度 | 检测内容 | 权重 |
|---|---|---|---|
| 01 | 计费层指纹 Billing-Layer Fingerprint |
从计费侧底层数据反推后端模型家族归属 | 22 % |
| 02 | 协议层合规 Protocol-Layer Compliance |
多种边界条件下的协议合规性多点验证 | 18 % |
| 03 | 能力上限 Capability Ceiling |
资源密集型任务下的物理能力上限压测 | 18 % |
| 04 | 版本归属 Version Attribution |
基于时间敏感任务的实际模型版本识别 | 12 % |
| 05 | 输出指纹 Output Fingerprint |
基于统计语言模型的输出来源识别 | 12 % |
| 06 | 响应链路特征 Response-Chain Features |
响应链路各层的结构化特征聚合分析 | 10 % |
| 07 | 定价偏离 Pricing Deviation |
相对官方底价的统计偏离度先验(不调用 API) | −8 % |
| SUM · 加权总分上限 | 100 | ||
总分公式:
时序加权:
final_score = clamp( Σ(weight × dim_score / 100) − price_penalty , 0 , 100 )时序加权:
weighted = Σ(daily × 0.95^age_days) / Σ(0.95^age_days)
— 30 天滑窗指数衰减,最近的检测权重更高。
VERDICT TIERS · 三档评级
VERIFIED
🟢 认证
≥ 80 分
长期稳定真实接入官方模型,多维度交叉验证通过。
INCONCLUSIVE
🟡 存疑
50 – 79 分
间歇性掺水、版本降级或部分时段非真模型,需谨慎使用。
WARNING
🔴 警示
< 50 分
大概率非声称模型 / 严重版本降级,不建议使用。
一票否决规则:
• 协议层验证完全失败 → 强制评级「警示」,无视其他维度得分。
• 能力上限连续多次失效且其他维度同步偏低 → 评级「警示」。
• 定价偏离度超过阈值 → 评级上限「存疑」,不进入「认证」。
• 协议层验证完全失败 → 强制评级「警示」,无视其他维度得分。
• 能力上限连续多次失效且其他维度同步偏低 → 评级「警示」。
• 定价偏离度超过阈值 → 评级上限「存疑」,不进入「认证」。
INDEPENDENT POSITION · 独立立场
API RANK 由独立团队运营。所有评级仅基于客观检测数据与公开方法学,与任何商业合作无关;任何形式的商业合作均不会影响检测过程、评级结果与方法学迭代。商业合作内容(若有)将明确标注,与评级展示物理隔离。
DISPUTE & CORRECTION · 申诉与纠错
中转站方对评级有异议,可通过邮件提出独立复测请求,我们将在 24 小时内用相同方法学重新采样。
用户实际使用中发现表现与评级显著不符的,欢迎反馈——所有反馈将作为优先信号纳入下一轮检测。
用户实际使用中发现表现与评级显著不符的,欢迎反馈——所有反馈将作为优先信号纳入下一轮检测。
DISCLAIMER · 法律与免责
本站发布的所有评级基于 API RANK 在随机时间、随机 IP 下的多维度采样推断,仅反映检测时点的观察。检测方法公开可验证。评级是一项独立第三方测评结论,不构成对中转站经营行为的任何法律认定。如对评级有异议,请通过申诉通道联系我们。