网络医院的故事

来源:互联网 发布:网络教育初中可以吗 编辑:程序博客网 时间:2024/06/02 14:31

 

[故事之一]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%;

[症状]周末,某著名系统集成商今日“报案”,他们为一家银行集成的新大楼在进行网络验收时达不到合同要求的40%余量指标,经多方检查仍原因不明。整个系统采用超五类线布线,系统的其它问题都已全部解决,只剩下服务器验收这一项,报告说明全部不合格。下周三就是工程验收最后期限,如果不能在周二以前解决问题,将影响用户的实际使用。集成商的声誉也将受到不利影响。

集成商负责系统集成总包,布线工程由另一家信誉良好的专业布线工程商承担,布线系统全部经过超五类线现场认证测试。集成商负责网络的验收测试系统平台的开通测试。网络验收测试中的一项测试内容是通道性能测试,对包括服务器在内的关键设备进行联通性和通道能力测试。合同要求服务器留出40%的可用余量,测试方法是对服务器加上60%背景流量,然后进行联通速度测试,Ping测试在整个网段内小于2ms为优,下载20M字节的文件小于10秒为优。实际测试时Ping测试值为5ms60%流量背景时下载速度为80秒。主观感觉服务器访问速度缓慢,原因不明。若将背景流量降为15%,测试结果则能达到要求的参数值。要求网络医院帮助查找原因。

[诊断过程]服务器通道测试速度慢的原因有很多,象网络设置错误,网卡驱动程序版本不匹配,网卡协议邦定不良或有冲突,网络设备如网关、桥、交换机、路由器等设置错误或不良,链路故障或次生垃圾过多,干扰信号进入系统,系统平台设置有误,开发的应用系统程序设计优化度差,平台和终端设备不协调/匹配,服务器和网络的协议不匹配等等等等,我们需要确定具体的故障原因。一般来说,定位故障可以先从联通性和协议匹配性入手比较简单和快速。

从工程人员哪里了解到,平台已经安装了三遍,网络设置和网卡驱动程序也调整过多次,鉴于网络Ping测试可以通过,因此他们倾向于故障存在于服务器与网络协议的匹配性不良。我们将网络测试仪接入网络,重复上述测试内容,证明其先前的测试数据基本属实。问题是几乎所有的服务器都出现类似的问题,所以我们必须查找与此相关的公共参数。首先,将服务器从网络上摘下,抽查14台服务中的任意4台,将网络测试仪串入链路进行“专家级”测试,检测服务器与网络的连接关系和性能。先对其网卡接口用网络测试仪的NIC测试功能进行测试,全部显示正常,然后观察网络的工作参数和工作协议,全部正常。这表明网络和服务器的网络设置、协议设置、物理工作参数、协议匹配性等是基本合格的。但因此时的网络流量是比较低(1%),许多网络性能方面的问题都是在流量比较高的条件下才暴露出来。所以,采用如下方法选中任意一条服务器链路进行测试:用“网络测试仪”在离服务器最近的交换机端口上对被监测的服务器模拟发送流量,用网络故障一点通或网络万用表监测通道数据。当模拟链路流量曾家至3%时,被选中的链路碰撞指标开始超过5%健康底线,当流量曾至40%,碰撞率达到98%,流量60%时,碰撞率99.8%。很显然,网络的链路性能存在较大问题,对另外4条链路进行同样的测试,结果类似。在交换机紧邻的接口直接对网络故障一点通做上述类似测试,显示正常。这说明链路存在严重问题的可能性极大。与网络设备设置关系不大。

询问工程人员,声称布线系统经过了严格的超五类线测试,布线工程商并信誓旦旦地保证链路不会有问题。查看布线系统认证测试报告,BasicLink超五类线认证测试全部通过。服务器是由服务器供应商指定的分销商负责安装调试的,他们当时也在场,自称安装过上百台服务器,也从来没有出现过类似问题。

各方似乎都有道理,但链路存在问题是很显然的,所以我们决定对链路重新进行现场认证测试。测试刚才抽查过的链路,结果是全部都不合格,电缆测试仪提示“打线错误”。且电缆测试仪的HDTDX分析功能启动后定位出近端串扰在整个链路的远端约23米长的线段内超差。为分清责任,改对BasicLink测试,水平电缆测试全部通过,这说明布线工程商的施工参数确实是合格的,问题很可能出在服务器安装服务商身上。试着更换服务器链路跳线,故障现象立即消失。随即对全部服务器跳线进行更换,之后对网络重新进行验证测试,参数全部通过。

[诊断评点]故障是由服务器连接跳线打线错误造成的,我们知道,打线标准中规定了568A568B两种格式,这两种格式原理上是完全等效的,区别仅在线序不同而已。常见的打线错误是被称作“串绕”的一种,特点是将线序按1-23-45-67-8的自然顺序排列。这样将会造成近端串扰严重超标,一般来说会令服务器无法与网络实现100Mbps的网络连接。本案中由于跳线的线序错误按理应该导致服务器不能上网,但实际的情况确是服务器能上网,只不过碰撞率严重超标而已。由此看来其中必有蹊跷。我们专门对服务器安装商提供的电缆进行测试,近端串扰超差,重新打线后再测试,通过,近端串扰参数的富余量很高。遂怀疑服务器跳线是用六类线制作的,查看电缆标记,确实是朗讯的六类线产品。改用六类线标准专门设计一条六类线BasicLink基本链路进行三接点(串入被测跳线)验证测试,不通过。电缆测试仪故障信息屏幕提示接头不合格,为六类以下器件。

重新进行通道性能测试,加载60Ping测试小于1ms20M字节文件拷贝8秒以内全部服务器链路都能完成。

[诊断建议]服务器安装商误用朗讯的六类线来制作超五类线跳线,使得原本根本不能上网的服务器能够勉强上网,并同时造成其它参数健康指标不合格。一般来讲,采用六类线制作的跳线其性能会优于五类线。所以建议用户可以保留六类线制作的超五类链路跳线,只需将打线顺序改正即可。

[后记]下周二集成商来电告知,他们最终没有保留原服务器跳线,而是全部更换合格的超五类跳线。集成商由于没有自备电缆测试仪才造成如此被动,为此他们于今天专门配备了一整套布线系统认证测试工具和网络验收测试工具,希望能从此无忧少忧,并且希望能更好地进行网络的性能测试和维护,帮助快速方便地进行网络的验收测试。

 

 

[故事之二]六类线工艺要求高,一次验收合格率仅80

[症状]某著名布线工程商及系统集成商,采用六类线为某市新建的电信大厦布线,点数虽然不多,只有共1,800点,很快就完工,但在验收测试时遇到一些小麻烦:合格率一次性测试通过值只有80%,其余的20%近360条链路不合格。布线商采用的都是某电缆生产商的正规产品,包括全套的电缆和连接模块,其质量在施工前进行过验收,抽查过其中三卷产品,均合格。承担施工的队伍也是有近四年工程经验的下属布线工程公司,曾经有10万条链路的成功施工经验。此次工程项目为第一个六类线试点工程,对公司的布线施工队伍也是一次考验,结果却不尽人意。如果360条链路全部返工,计算下来也是一笔不小的损失。因此公司决定先对剩余的六类线再行进行抽查,以确定是否是产品的问题;然后再安排如何更换或修复这些不合格链路。

抽测结果如下,抽测的10卷产品,每卷产品截下90米,按90米六类线“Basic Link”基本链路连接后进行现场认证测试,结果有7卷产品不合格。由于该工程商同时也是厂商的产品代理尚,厂商的销售代表也无法解释测试结果。接着再进行了第二次抽查,结果10卷产品的90米模拟链路仍有6卷不合格,遂请“网络医院”帮助确认原因。

[诊断过程]到达现场后计划部分测试不合格的链路,共抽测了20条,结果全部不合格。打开电缆测试仪DSP4000中保存的参数,查看主要不合格的参数有回波损耗“RL”,“PSACR”综合衰减串绕比等,比例占80%,其次是“PSELFEXT”综合等效远端串扰、“PSNEXT”综合近端串扰等。对工程商原来抽测过的链路进行复检,结果与上述结果基本一致。

仅靠生产商提供的产品证明和合格证书似乎已不足以证明其产品是否满足工程施工现场认证测试的要求。为了确认是否是厂家电缆产品和接插件、连接模块等本身的问题,我们建议布线工程商将他们代理的另外一家电缆生产商供应的产品拿来与本项工程采用的电缆进行对比。对比方法如下:同样制作10条链路,测试条件与上述抽查时的测试条件相同,然后统计测试结果,与前面的测试结果进行对比,以便验证是否是产品本身的问题。

一小时后,工程商依此建议制作了两组共20条用另外两家电缆生产商提供的电缆产品“加工”成的90米基本链路,每家10条链路。我们分别对这些链路进行测试,结果如下:

链路合格率为A产品80%,B产品70%;且各有20%合格的参数比较靠近测试标准的边缘,一般只有0.5~1.3左右的参数富余量。

由此看来,各电缆生产商提供的产品都有相近的合格率,这岂不等于说各电缆生产商提供的产品都有问题?根据逻辑分析只能有以下几种可能:一是产品质量确实有问题,但有问题的比例为何如此一致呢?似乎可能性不大;二是测试仪器或测试环境有问题,比如仪器误差偏差或损坏,测试环境有大量电磁干扰源或干扰信号,但施工现场和试验测试地相距达400米,电磁环境相异甚多,且周围没有其它使用特殊电磁设备的邻居和大型用电设备、强功率辐射源等,这条原因似乎也不象;三是施工方法、施工工具和测试的方法有问题,但工程商承担施工人员的都是有至少一年施工经历的员工,且为试验链路打线的人员已经为该公司工作了两年半,技术上应该没有问题。打线工具经过目测检验没有问题,并且工程施工中的打线工具不是刚才试验链路制作时的同一个工具。

我们暂时假定产品没有问题,采用另一台自身携带的DSP4000电缆测试仪和工程商自备的同一型号的电缆测试仪进行对比测试,各测试结果一致性相当好,说明测试仪没有问题。为了定位故障位置,使用DSP4000电缆测试仪中的“HDTDX”高精度时域串扰分析功能和“HDTDR”高精度时域反射分析功能进行故障图谱分析,结果发现不合格参数的“突出位置”都在接插件和连接模块的位置,这说明要么接插件和连接模块有质量问题,要么就是施工工艺存在问题。接下来将不合格链路中的接插件和连接模块重新更换一遍以后进行测试,结果三家产品各自10条链路中有一家全部合格,两家只有一条不合格。将不合格的链路再“回炉”一次,进行第三次测试,结果全部通过测试。再对20%参数靠近边沿的链路认真“回炉”进行测试,结果全部合格。

这说明,接插件和连接模块的施工工艺可能是链路认证测试不合格的重要原因。

下一步,为了验证是否是电磁干扰等可能原因,回到工程现场,选取20条原来测试不合格的链路也如法炮制,重新“回炉”,将接插件和连接模块重新“认认真真”制作一遍,结果一次重新测试就全部通过!!

[
诊断评点]综合布线的施工工艺看似简单实则要求不低。在三类线的施工过程中,大量的布线商采用临时性的施工人员,经过两小时培训后就上岗工作,工程验收合格率仍比较高。在五类线和超五类的施工过程中,工艺问题开始被工程商重视,但一般不足以形成如此大面积高达20%的链路不合格的严重后果。而在六类线的施工过程中,施工工艺问题被推到了非常重要的位置,在打线和安装时稍有不慎就会使整条链路认证测试不合格,这是工程商始料不及的。其实,诊断具体的故障位置方法很简单,使用电缆测试仪的高精度时域串扰分析技术“HDTDX”和高精度时域反射分析技术“HDTDR”两项故障诊断功能就可以非常方便地显示出故障的实际位置。施工人员可以据此立即采取修复措施,而不会等到认证测试和验收时“去丢人现眼”“出洋相”了。

六类电缆频带由100MHz增加到250MHz,对特性阻抗机器连续性的要求提高了很多,另外对近端串扰、等效远端串扰、衰减串绕比等参数的要求随着频率增加的平方数成正比。上述参数的Power Sum (功率和)参数也被提高到非常严格的程度,表现在施工工艺中比较突出问题就是接插件

和连接模块的制作工艺对整条链路的影响变得非常突出。所以严格的施工工艺要求需要引起布线工程商的高度重视,只有这样才能避免造成影响工期的大面积返工和资源的浪费。否则,一次性验收测试一般会停留在80%左右。

[
诊断建议]将不合格的360条链路重新严格制作一遍,并对参数靠近边沿2dB以内的的360条链路也采取同样改进措施,以确保工程品质。另外,施工队伍的严格培训和强调施工工艺的严格性也必须认真对待之。

[
后记]一周后,工程商告知,经过“回炉”后,1800个链路全部验收合格。除了重新处理不合格的360条链路外,对边沿值的360条链路也进行了重新制作,参数测试富余量全部都在2dB以上,他们准备把这项工程作为该公司的样板工程。

原创粉丝点击