中国互联网巨头阿里巴巴,遇到了“小”麻烦。18时左右,杭州、北京、上海、武汉等地用户反映支付宝无法正常使用,消息迅速传遍网络。而支付宝公司对故障的回应,更是引爆网络:杭州萧山某地光纤被挖断,导致故障。
网友们的“吐槽”,充满了网络的特点:“事实证明,在这个世界里,再牛的互联网公司,都干不过蓝翔技校的挖掘机……”“什么互联网+,什么4.0,什么大数据,都顶不住传统行业一铲子”……
【财新网】(记者 李小晓 张宇哲)5月27日下午,支付宝全国范围瘫痪达2.5小时,这件事引发了人们对相关灾备系统的大讨论。业内人士普遍认为,系统故障对数据机构而言实属正常,但这次支付宝故障时间偏长,一定程度反映出第三方支付机构在灾备工作的不善。
支付宝是全球最大的第三方支付机构,2013年实名用户即超过3亿人。阿里巴巴招股书透露,2014财年(截至3月31日),支付宝的总支付金额达到38720亿元,日均支付量已超过百亿,占到中国的第三方支付市场份额70%以上。
瘫痪2.5小时
从5月27日下午5点左右,支付宝出现全国范围的系统瘫痪。淘宝购物、第三方网站付款、支付宝钱包各项功能全部无法使用。用户还纷纷表示客服电话打不通。记者在北京打开支付宝钱包app,弹出提示“网络繁忙,请稍后再试”。
支付宝钱包官微下午6点表示,“由于杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商蜀黍正在抢修,支付宝攻城狮正在紧急将用户请求引流至其他机房,受影响的用户正在逐步恢复。”
记者询问了广东、西安、上海、四川等全国多地的多名支付宝用户,全部表示无法使用。从记者掌握的情况而言,支付宝故障比其官方描述的“少部分用户无法使用”更严重。
晚上7:30,支付宝钱包再次发布官微表示,之前由于杭州萧山某地光纤被挖断导致部分支付宝用户无法正常使用,目前已经恢复正常服务,欢迎继续使用,如果出现交易信息不同步的情况,会逐步恢复。
从5点到7:30,整个瘫痪过程长达2.5小时,所幸用户资金全都安全。事后有业内人士表示,这种技术障碍是不会危及用户资金安全的,相当于大楼突然断水断电,不等于水电被挪用、消失了。
接近监管部门的有关人士表示,国家有关部门对商业银行规定:中断服务时间超过30分钟,必须报告。中断时间不超过120分钟,为一般安全事件。中断时间不超过240分钟,为重大安全事件。中断时间超过240分钟,为特大安全事件。“以上规定不论原因,支付宝今天中断超过120分钟,为重大安全事件。” 有关人士表示,虽然未明确第三方支付机构的相关规定,但对大型支付机构,如支付宝、财富通和银联商务,应视同商业银行管理。
据财新记者了解,在支付宝瘫痪期间,监管机构也相当紧张,密切关注事项发展。
敲响灾备警钟
事发之后,业内人士也有表示理解的。有观点认为,美联储支付系统、股票交易所交易系统、国有商业银行的支付系统也都曾有宕机现象。只要数据不乱、尽快恢复,应没大问题。
国际支付机构人士表示,只要是大型数据机构,或多或少都中过招、宕过机。支付宝的科技系统是很先进的,不能因为这件事就说支付宝系统不稳定。
但业内人士也表示,这件事对整个行业而言,是灾备工作的警钟。“运营维护无小事。”一家商业银行银行网络银行部门人士向财新记者表示,“支付宝这次糗了”。
接近监管机关的人士表示,电缆属于物理基础,即使是阿里云也要靠物理基础,基础出故障,只能说对安全重视程度不够。安全管理的应有之义就是应急处置,各机构应深知安全生产事件(包括自然灾害、“别人”挖断光纤等外部因素)的突发性、严重性,在提及技术体系的先进性时应小心谨慎,谨防出现黑天鹅事件。这次支付宝电缆事故后引流时间这么长,说明安全管理值得加倍重视。
那么,支付机构的灾备系统通常有哪些?国际支付机构人士表示主要有三个方式,即异地容灾、活备份、多运营商网络通道。
其中,“异地容灾”是指服务器集群分散放置在多个中心机房、多个城市、甚至多个大洲。
“活备份”也称“热备份”,就是实时备份、实时切换启用备份的服务器集群。热备份主要是相对于温备份和冷备份,温备份通常不是实时切换至备份服务器。冷备份通常需要人工干预。备份可用于多个不同的层面,从底层的运营商网络通信、安全防护、数据中心内部的网络通信、安全防护、服务器集群、存储到应用层等等各个方面均会有不同程度的备份。
“备份越分布式、越充分、越实时则容灾能力越强,但其采购及运营管理成本也是以数量级上升的。不容易,同业估计都真心不会看笑话、说风凉话。”国际支付机构人士表示。
“多运营商网络通道”是指通过多家运营商数据网络连接。某大行电子银行部人士对财新记者表示,数据传输通常分为两块,一块是机房连接到公用网络再连接到客户的,一块是内部通讯的。目前外界无法判断支付宝的电缆断掉是哪一段。通常而言,这两种数据传输都有线路备份,即通过多家数据运营商连接,无论其中一段中断,可以立刻切换到其他运营商的线路上,所以通常不会因为一条线路断掉而影响对外服务。
除此以外,银行为防止系统瘫痪,还会采取“多数据中心”的灾备模式。以工行为例,工行有两处数据中心,上海是主中心,北京是备份中心,一两分钟就可以从上海切换到北京,所以不会长时间对外暂停服务;中国银联在京沪两地有三个数据中心,随时自动切换。银联对切换速度要求是2分钟;国际卡组织Visa在全球有四个数据中心,切换速度可以快达零秒。加拿大华人网 http://www.sinonet.org/