评测方法

来源：互联网发布：彗星网络测速器编辑：程序博客网时间：2024/06/10 00:27

评测目标：

 全面调查典型云服务产品的质量水平，推进产业链参与者建立云质量理念；

 为广大计划使用公用云服务的企业、机构和个人提供中立、客观、权威的云质量数据参考；

 推动云服务商提升云服务质量，避免单纯价格战，关注质量和增值服务；

评测管理机制：

 全程受控：评测从计划、实施到结果汇总都受到相关学者的指导与监督；评测全过程每个步骤均在小范围验证和评审后才进行下个环节；

 防止利益冲突：方案设计、脚本编写、评测实施和结果整理均由无潜在利益冲突的人员完成，并彼此监督验证；

 测试要素一致：所有被测试云服务产品都尽力对齐配置，在同样测试环境、采用同样工具、由同一人员完成；

 匿名评测：为客观公正，所有被评测产品都是匿名购买，没有和云服务商任何人员进行任何有关评测的沟通；

 软件自动化评测提供量化数据：为客观公正，所有评测均为客观指标，均由评测软件自动测试，结果关键原始数据使用MD5技术进行防篡改处理，没有加入任何人为主观评价信息；

被测云产品选择：

 云服务商选择：

在中国市场有一定知名度，云主机服务对中国大陆用户开放使用；

有一定代表性，如外资企业、民营企业、国有企业；互联网企业、电信企业、设备制造企业；目标市场针对各个行业和应用类型等；

云服务商名单不代表该厂商具备某种市场份额或者质量保证；

 云产品选择：

基本要求：云产品可以通过网络远程申请开通和管理，计费至少以月计价（按季度或者年度计费的不满足我们对云服务的定义）；

本期选择云主机产品：第一期评测仅针对使用最广泛的云主机（Virtual Machine），后续会扩大到云存储、CDN、弹性计算，以及PaaS、SaaS；

选取3种典型配置：考虑到广大中小企业对云主机的普遍需求和可对比性，选择最常用的3种配置：1vCPU 2G内存、2vCPU 4G内存、4vCPU 8G内存；部分无法严格对齐配置的产品，对未对齐配置部分质量测量结果做了对齐处理或说明。具体说明见评测结果部分描述；

评测抽样局限性：评测结果最多仅代表被测试产品实例样本的质量情况，可能不能代表该厂商同型号的所有实例；

部分被选中厂商和产品由于在测试中因故无法取得全部测试数据，因此无法提供公开数据和排名；

评测指标（KPI）：

 指标来源：被评测的所有KPI都从研究团队提供的云质量框架和KPI库获得，这些是观云网云质量研究中心基于全球公开发表的研究论文、业界公认方法与标准、自身研究成果等综合而成；

 本期测试指标：本期测试针对云主机服务展开，本次测试围绕云主机的通用基础处理能力，包括：

vCPU运算处理能力（整数运算和浮点数运算）

内存处理能力（数据的读、写速度）

硬盘处理能力（随机数据读写速度）

网络传输能力（流出与流入流量的TCP吞吐量）

在线可用性（主机可远程访问时间的比例）

 纳入价格因素：本次测试将相应产品的公开价格也纳入比较。该价格从云服务厂商网站公开信息获取，以月单价为基准，不考虑其临时的价格促销优惠；价格信息在测试期间可能有变动，以云主机开通时的价格为准；

 未来将对云主机的其他质量性能指标进行持续评测；

评测工具：

 软件自动化评测：所有指标的评测都是基于测试软件（Benchmark）实现的，没有人为主观打分评价信息。Benchmark是通过特定算法执行处理高强度任务来逼近系统极限能力，从而测量出系统最佳质量数据的业界常用方法；

 以公认测评软件为核心：本次评测使用的测试软件包是由多个国际行业公认的测评工具、方法或协议，结合观云网云质量研究中心开发的部分程序与脚本等组成的；

 测试尽可能全面：例如针对vCPU的极限测试，测试包包括34种专业用途的测试项目，如程序编译、文件压缩、基因测序、量子计算、XML处理、力学计算、天气预报、语音识别等，能够全面反映CPU的运算能力，而且运算任务满负荷运行需要几天时间才能完成；

 已尽力优化评测配置参数：所有工具在评测时都针对每个云主机产品公开披露、或者通过程序访问接口API获得的信息进行了尽力优化，以保证能够到测试到被测试产品的最佳质量水平；

 评测结果综合多个方法或工具：每个测试指标结果都是多个测试方法或者软件形成的综合值，而不会产生由于某种特定的测试方法或者软件实现导致的显著偏差；

 测试任务隔离实施：每个指标都由单独测试软件评测，测试计划保证了其他相关组件的性能不会对被测试组件的性能表现产生显著影响。例如：对vCPU运算能力的测试，虽然测试时会不可避免的需要内存和硬盘的配合，但是测试软件的配置和算法等将对内存和硬盘的要求降低到最低，即使后者性能降低一个数量级都可能无法产生实际影响；

 考虑用户体验要素：测试数据是以中国大陆普通用户访问被测云主机的视角进行测试的，测试可能由于非云服务商的原因导致测试数据有偏差（例如：由于中国大陆网络性能测试点使用的运营商网络质量变化，导致国外云主机访问的网络速度和可用性测量受到影响，但这肯定是任何中国大陆用户必然遇到的情形和使用体验）。观云网认为从用户视角体现了在中国大陆使用这些产品的最终体验；

评测过程中我们使用了以下第三方软件、工具和方法：

 SPEC旗下测评软件

 FIO

 IPERF/NETPERF

 PING/TCPPING

 SYSBENCH

 其他观云网开发的工具

评测时间：

 起止时间：本次评测时间跨度为2014年7月-8月；

 每个被测试产品的同一个质量指标测试起止时间不能做到严格一致，主要原因是不同产品对同一个质量指标的处理能力差异较大，无法在同样时间完成相应测试计划（例如对vCPU的评测，单次测试，不同的云主机可能需要运行1天到数天不等；多次测试时时间更无法对齐）；

评测部署实施：

 测试运行平台：测试软件包运行平台为Linux Ubuntu LTS 12.04，个别服务商由于无法提供该版本模板Image，采用了14.0；

 评测软件部署：对vCPU、内存、硬盘的质量测试程序包部署在被测试云主机上；

 远程测试部署：网络传输能力和在线可用性通过远程部署测试程序进行。分别选择华北（北京）、华东等多个典型地点，每个地点都提供BGP或者多线接入能力（即每个地点同时接入电信、移动、联通的光纤，只要不是3家运营商的网络全部中断的极端情况，对外连接就不会中断，保证不会因为网络中断造成误判），每个地点购买的带宽显著高于被测试云主机的采购带宽；进一步的，在线可用性指标的测试结果取多地测试的结果的最佳值；

 评测覆盖各个时段：对于不同时间质量表现可能不同的指标，如网络传输能力评测，进行了全天候各个时间段的测试，并与其他指标的测试隔离，互相不影响；

 异常数据重新测试：对于测试过程中出现的畸高、畸低的数据，均专门进行了重新测试、确认，保证测试误差降低到最小；

 评测数据管理：所有测试的原始数据文件和运行记录均留档；关键运行环境信息截图留档；

质量排名算法：

 评测指标数据采集：每个指标均采集了满足评测要求的样本数（评测过程采集到的原始数据超过200万个），对每个指标的所有数据取算术平均值作为排名数据；每个指标的变动情况（均方差）将另行说明；

 单项指标归一化处理：为了保证排名结果的有效性，对每个测试结果（除可用性外）进行了单指标的归一化处理，防止不同指标数据加权处理出现混乱。归一化处理算法为：

云主机A 指标X的归一化得分=(云主机A 指标X的绝对值)/(max(所有云主机指标X的绝对值）)×100

 “云主机质量总得分”算法*：

云主机A质量得分=（CPU处理处理能力得分×50%+内存处理能力得分×12.5%+硬盘处理能力得分×12.5%+网络传输能力得分×25%）×在线可用性%

 “云主机性价比指数”算法：

云主机A性价比指数=(云主机A质量总得分/月价格)/(max(所有云主机指质量总得分/月价格）)×100

*该权重比例是根据通用应用需求设计的；不同的应用场景可能对不同指标分配的权重不同，读者可参考单项指标得分，按照自己的需求改变权重，计算性能总得分。各分项指标见分项数据表

0 0