2016.10.11日下午16:40左右平台故障说明及改进措施方案
2016.10.11日下午16:40左右,公司工作人员发现平台访问缓慢,有打不开页面迹象,随后完全不能访问。
技术人员排查后,发现所有服务器资源均无法正常访问,确定阿里云(目前中国最大最先进的云服务器供应商)片区服务器故障,(所有同区备用服务器均受影响)
技术人员第一时间紧急反馈阿里云售后,第一时间企业QQ群发通知了大部份客户(没加的技术或业务负责,请及时加我们企业qq4006668280)
随后收到阿里云关于故障的邮件、短信等正式确认。最终持续3-5小时各线路服务器陆续恢复。
对于此次突发事件,给大家造成不便,再次深表歉意!希望各客户多多谅解。
同时改进措施方案,未来公司技术已在规划设计更科学合理的跨区域多服务器多域名或IP,以及数据库热备份等方案。
以防止此类事件再次发生时,最短时间内恢复平台应用,更好的服务客户应用。
以下截图各种情况实录,及阿里云大面积受影响用户真实记录。
https://bbs.aliyun.com/thread/207.html?spm=5176.bbsl207.0.0.iF2LW3