主题:【原创】Cisco Catalyst 2912机的一个潜在问题 -- 萨苏
要靠上帝帮忙的时候太多了
Customer is having a memory leak with :
IOS (tm) C3500XL Software (C3500XL-C3H2S-M), Version 12.0(5.4)WC(1)
*Dead* process is holding more and more memory :
14.11.01 1015:
RBAS700E>show processes memory
Total: 3494636, Used: 2492060, Free: 1002576
PID TTY Allocated Freed Holding Getbufs Retbufs Process
0 0 13825604 6944096 1522384 4353044 3874432 *Dead*
尤其是这么大规模网络的网管。
据说有人每天起床第一件事就是登到死磕去看有没有新的版本升级。
类似的问题也困扰我们,估计是相同的技术原因。送花感谢。
以前干的也是类似的ネットワークサポートエンジニア,不过是比较辛苦的“售前售后/安装施工全包”的那种了。
现在总算金盆洗手,改做3GPP的ISP技术支持了。
不过家里的Lab还有将近20台Cisco的设备,正发愁怎么处理掉呢。
企业网数据通信产品的利润很低,华为为了争夺CISCO的市场份额,在欧洲等地经常半买半送设备。
有一次FLEXTRONICS(伟创立)西班牙分公司弄了一批华为的便宜货,其中路由器就是华为三年前的主打产品NE50。
大概1年半以前,NE50宕机了,西班牙那里的IT人员解决不了,又找不到华为的技术支持,最后皮球踢到了Montreal的IT总部。总部有个CCIE,因为做思科设备习惯了,一开始也是寻求技术支持,全球转了一大圈儿,怎么也找不到support,后来自己看说明书,用备份配置重新导入一台备份的NE50,好歹算是解决了问题。那个CCIE对华为是咬牙切齿,心里把西班牙那些IT同事骂了个够。
华为的设备价格实在是有够便宜,而且各项技术指标看上去是如此之好,能不动心吗?其实华为的产品稳定性确实不如思科,按道理说,产品有些缺陷,应该加强售后服务吧?不过由于华为的东西在北美、欧洲地区卖得太便宜了,维护部门很难有钱去为客户提供更多的技术支持。像Flextronics这些大企业,对设备的稳定性要求很高,特别是用在生产环境中的路由器、交换机,一旦出现问题,需要设备供应商能够尽快解决,设备的采购价格确实有诱惑力,可是更多地还是要考虑设备上线后,对企业运营的保障。
不过华为还是比较重视海外电信运营商的设备维护,毕竟电信级设备与企业网设备在价格上根本不在同一个数量级别。
ROMMONITOR的事情,很多年过去了,这BUG应该FIX了吧?
在国内时候还以为是买到了水货,在加拿大又碰到, 立刻把对CISCO的信心毁了一大半:)
先花一个。
老萨讲的这个事故是个个案,可从故障查找上反映了工程上的一个通用规则:影响越大,越广的问题,通常也是越简单的问题。这个不单是在IT上,在其他的工程问题上也是如此。这是当年刚做紧急事故(Emergency Responding Team)时,一个老家伙讲的。这么多年做过来,虽然处理的事故不多,可这个大原则是基本上不错的。结果是那些一动就是几个部门的大毛病,常常是手到擒来。反而是那些小毛病搞的我们非常狼狈。一整就是好几天。搞的那些操作的人怨声载道的,一说就是我们这些人没有大头儿在时候就不好玩活儿。可那儿知道大毛病是那儿都有的马,抓起来当然容易。可这些小毛病常常是斑马,稀有动物,那有那么好抓。这里面的苦也只有做的人才知道。
以前只知道萨是老挨踢的,没想到也是网工,哈哈。
2912系列,那得多老了?反正我是没见过,呵呵。
不过CISCO的东西还是比较结实耐用的,出问题的几率比国产货H3C的东东少很多(当然了,现在H3C是外企了)。我前次一个网络集成项目,从路由器到防火墙到交换机,我把全部VRP(相当于CISCO的IOS)升了一遍,有的甚至升了两三遍,为啥?因为H3C的东西实在是不地道,出场的vrp居然还有测试版的,就算是正式版,也是bug一大堆,一会vrrp抢占,一会路由器自动重启,烦得我不行了。唉,这年头,确实便宜无好货啊。
感觉搞工程的原则性的东西都差不多.我是搞底层软件的,常跟客户问如何复现(duplicate)问题, 是每次都出现还是概率性问题,最怕的就是概率性问题.概率性的问题找原因很难.