阿里云香港机房故障(阿里云香港服务器不稳定)

云机房故障正在维修中什么意思

坏了。

云机房的相关功能出现了故障,维修人员正在检修。

暂时无法使用和进入,必须要等到维修完成后才能正常使用。

阿里云DNS,SLB高可用原理以及故障预案

DNS:

本身可用性比较高,会有一个本地机房的local dns,如果这个local dns挂掉,会走其他机房的dns

dns不可用预案:

(1) 绑定hosts

(2) 开启NSCD,相当于本地dns缓存,可以防止一些抖动情况,且可以防止对dns的压力过大

SLB:

slb本身具备高可用机制,每个slb都会有主有备(且是在其他可用区),如果主挂掉,备会接替主,同时我们slb会是一个集群,至少3台,挂了其中一台(立马下掉),其他可以承受整体流量

slb不可用预案:

对slb有一系列的监控,如果有问题能立马感知,同时我们有slb一键扩容功能(在开发)

阿里云服务器进去全黑是怎么回事?

如果说进入云服务器管理控制台是这样的话,你只需要移动一下鼠标,或者按任意键盘按键激活显示就可以的,或者是你可以重启一下云服务器(云服务器出现故障也会这样),方法是在控制台-云服务器ECS-找到你那台需要重启的ECS-更多-重启 即可,这时会弹出提示框提示你是否重启,建议你选择强制重启。

还有就是LIUNX系统(例如UBUNTU也是需要用命令行操作的,你看到全黑有字符的话那就是命令行)

阿里云是不是挂了,我的网站挂了

如果部署在阿里云的服务器,无法访问了。不一定是阿里云的设施挂掉了。

1 首先你要看你的云监控和安骑士里是不是有异常的通知。然后根据通知的内容做排查

2 登陆服务器查看下系统资源是否用尽,如果不能本地远程,那就直接从阿里云的控制台登进去(有的时候是被攻击了,导致资源跑满了)

3 阿里云有个阿里的防火墙,叫安全组,你可也看看安全组的规则,是不是放行了指定的端口

4 在服务器看一下服务是否正常启动了。端口监听没监听。(建议第一步就从telnet端口,看是不是链路的问题)

如果没有重要的数据并且中毒较深····还是用快照恢复把。(快照这个功能,收费很低,强烈建议做定时快照策略,但是也要定期删除之前没用的。)

如果实在排查不出问题,那就提交工单,让他们从后台排查一下,或者给你做指导。

记一次解决阿里云服务器偶尔连接不上的问题(由tcp_tw_recycle参数引发的)

阿里云服务器偶尔连接不上的问题出现在我做了一些TCP优化之后,出现了公司内网偶尔会出现连接不上服务器的问题,但是切换其他的网络就可以正常连接。

1,登陆服务器查看资源使用top,vmstat等命令查看了一番发现服务器各项指标都没有异常。于是将问题转向了网络层。

2,本地使用ping服务器外网ip正常返回,无丢包,延迟也正常。

3,登录服务器查看tcp相关数据。

发现在卡顿时有大量tcp syn包被丢弃,数值一直在增长。

在查阅资料并结合实际情况后,发现该服务器同时启用了 tcp_timestamps和tcp_tw_recycle参数。

后想起,之前同事为改善time_wait连接数过多问题曾改过该内核参数。

解决办法是,关闭tcp_tw_recycle:

再观察,发现服务已正常,偶尔连接不上的现象消失。

我们先来man一下这两个参数(man tcp):

cp_timestamp 是 RFC1323 定义的优化选项,主要用于 TCP 连接中 RTT(Round Trip Time) 的计算,开启 tcp_timestamp 有利于系统计算更加准确的 RTT,也就有利于 TCP 性能的提升。(默认开启)

关于tcp_timestamps详情请见:

开启tcp_tw_recycle会启用tcp time_wait的快速回收,这个参数不建议在NAT环境中启用,它会引起相关问题。

tcp_tw_recycle是依赖tcp_timestamps参数的,在一般网络环境中,可能不会有问题,但是在NAT环境中,问题就来了。比如我遇到的这个情况,办公室的外网地址只有一个,所有人访问后台都会通过路由器做SNAT将内网地址映射为公网IP,由于服务端和客户端都启用了tcp_timestamps,因此TCP头部中增加时间戳信息,而在服务器看来,同一客户端的时间戳必然是线性增长的,但是,由于我的客户端网络环境是NAT,因此每台主机的时间戳都是有差异的,在启用tcp_tw_recycle后,一旦有客户端断开连接,服务器可能就会丢弃那些时间戳较小的客户端的SYN包,这也就导致了网站访问极不稳定。

主机A SIP:P1 (时间戳T0) --- Server 主机A断开后

主机B SIP:P1 (时间戳T2) T2 T0 --- Server 丢弃

经过此次故障,告诫我们在处理线上问题时,不能盲目修改参数,一定要经过测试,确认无误后,再应用于生产环境。同时,也要加深对相关内核参数的认识和理解。

本文解决灵感来自于

阿里云如何回应出现故障?

6月28日凌晨,阿里云对27日出现的大规模问题在官方微博上作出官方回应。回应称,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

对于复盘故障原因,回应称,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。

6月27日下午,网友在微博反馈阿里云控制台访问出现故障,后台无法登陆。阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能也出现访问异常现象,部分用户反馈称手机端和PC端均无法访问。随后阿里云在官网发布公告称,部分管控功能出现访问异常,受影响业务正逐渐恢复正常。

未经允许不得转载:便宜VPS网 » 阿里云香港机房故障(阿里云香港服务器不稳定)