阿里云香港机房故障(阿里云香港服务器不稳定)

云机房故障正在维修中什么意思

坏了。

云机房的相关功能出现了故障，维修人员正在检修。

暂时无法使用和进入，必须要等到维修完成后才能正常使用。

阿里云香港机房故障(阿里云香港服务器不稳定)

阿里云DNS，SLB高可用原理以及故障预案

DNS：

本身可用性比较高，会有一个本地机房的local dns，如果这个local dns挂掉，会走其他机房的dns

dns不可用预案：

(1) 绑定hosts

(2) 开启NSCD，相当于本地dns缓存，可以防止一些抖动情况,且可以防止对dns的压力过大

SLB：

slb本身具备高可用机制，每个slb都会有主有备(且是在其他可用区)，如果主挂掉，备会接替主，同时我们slb会是一个集群，至少3台，挂了其中一台(立马下掉)，其他可以承受整体流量

slb不可用预案：

对slb有一系列的监控，如果有问题能立马感知，同时我们有slb一键扩容功能(在开发)

阿里云服务器进去全黑是怎么回事?

如果说进入云服务器管理控制台是这样的话，你只需要移动一下鼠标，或者按任意键盘按键激活显示就可以的，或者是你可以重启一下云服务器（云服务器出现故障也会这样），方法是在控制台-云服务器ECS-找到你那台需要重启的ECS-更多-重启即可，这时会弹出提示框提示你是否重启，建议你选择强制重启。

还有就是LIUNX系统（例如UBUNTU也是需要用命令行操作的，你看到全黑有字符的话那就是命令行）

阿里云是不是挂了，我的网站挂了

如果部署在阿里云的服务器，无法访问了。不一定是阿里云的设施挂掉了。

1 首先你要看你的云监控和安骑士里是不是有异常的通知。然后根据通知的内容做排查

2 登陆服务器查看下系统资源是否用尽，如果不能本地远程，那就直接从阿里云的控制台登进去（有的时候是被攻击了，导致资源跑满了）

3 阿里云有个阿里的防火墙，叫安全组，你可也看看安全组的规则，是不是放行了指定的端口

4 在服务器看一下服务是否正常启动了。端口监听没监听。（建议第一步就从telnet端口，看是不是链路的问题）

如果没有重要的数据并且中毒较深····还是用快照恢复把。（快照这个功能，收费很低，强烈建议做定时快照策略，但是也要定期删除之前没用的。）

如果实在排查不出问题，那就提交工单，让他们从后台排查一下，或者给你做指导。

记一次解决阿里云服务器偶尔连接不上的问题（由tcp_tw_recycle参数引发的）

阿里云服务器偶尔连接不上的问题出现在我做了一些TCP优化之后，出现了公司内网偶尔会出现连接不上服务器的问题，但是切换其他的网络就可以正常连接。

1，登陆服务器查看资源使用top，vmstat等命令查看了一番发现服务器各项指标都没有异常。于是将问题转向了网络层。

2，本地使用ping服务器外网ip正常返回，无丢包，延迟也正常。

3，登录服务器查看tcp相关数据。

发现在卡顿时有大量tcp syn包被丢弃，数值一直在增长。

在查阅资料并结合实际情况后，发现该服务器同时启用了 tcp_timestamps和tcp_tw_recycle参数。

后想起，之前同事为改善time_wait连接数过多问题曾改过该内核参数。

解决办法是，关闭tcp_tw_recycle：

再观察，发现服务已正常，偶尔连接不上的现象消失。

我们先来man一下这两个参数(man tcp)：

cp_timestamp 是 RFC1323 定义的优化选项，主要用于 TCP 连接中 RTT(Round Trip Time) 的计算，开启 tcp_timestamp 有利于系统计算更加准确的 RTT，也就有利于 TCP 性能的提升。（默认开启）

关于tcp_timestamps详情请见：

开启tcp_tw_recycle会启用tcp time_wait的快速回收，这个参数不建议在NAT环境中启用，它会引起相关问题。

tcp_tw_recycle是依赖tcp_timestamps参数的，在一般网络环境中，可能不会有问题，但是在NAT环境中，问题就来了。比如我遇到的这个情况，办公室的外网地址只有一个，所有人访问后台都会通过路由器做SNAT将内网地址映射为公网IP，由于服务端和客户端都启用了tcp_timestamps，因此TCP头部中增加时间戳信息，而在服务器看来，同一客户端的时间戳必然是线性增长的，但是，由于我的客户端网络环境是NAT，因此每台主机的时间戳都是有差异的，在启用tcp_tw_recycle后，一旦有客户端断开连接，服务器可能就会丢弃那些时间戳较小的客户端的SYN包，这也就导致了网站访问极不稳定。

主机A SIP:P1 (时间戳T0) --- Server 主机A断开后

主机B SIP:P1 (时间戳T2) T2 T0 --- Server 丢弃

经过此次故障，告诫我们在处理线上问题时，不能盲目修改参数，一定要经过测试，确认无误后，再应用于生产环境。同时，也要加深对相关内核参数的认识和理解。

本文解决灵感来自于

阿里云如何回应出现故障？

6月28日凌晨，阿里云对27日出现的大规模问题在官方微博上作出官方回应。回应称，我们在运维上的一个操作失误，导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

对于复盘故障原因，回应称，工程师团队在上线一个自动化运维新功能中，执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题，上线到自动化运维系统后，触发了一个未知代码bug。错误代码禁用了部分内部IP，导致部分产品访问链路不通。后续人工介入后，工程师团队快速定位问题进行了恢复。

6月27日下午，网友在微博反馈阿里云控制台访问出现故障，后台无法登陆。阿里云官网的部分管控功能，及MQ、NAS、OSS等产品的部分功能也出现访问异常现象，部分用户反馈称手机端和PC端均无法访问。随后阿里云在官网发布公告称，部分管控功能出现访问异常，受影响业务正逐渐恢复正常。

阿里云香港机房故障(阿里云香港服务器不稳定)

云机房故障正在维修中什么意思

阿里云DNS，SLB高可用原理以及故障预案

阿里云服务器进去全黑是怎么回事?

阿里云是不是挂了，我的网站挂了

记一次解决阿里云服务器偶尔连接不上的问题（由tcp_tw_recycle参数引发的）

阿里云如何回应出现故障？

相关推荐

随机文章

推荐文章

热门标签

最新文章