有客户求助:服务器搬迁后,一台无法登录,另一台三个灯一起闪,无法开机。
30多公里,驱车前往,到达后发现,无法登录的那台,也自动关机了,两个灯一起闪,按下电源键,没多久就自动断电重启,如此循环,看型号是惠普DL360 Gen9。
另外一台重新插拔电源线,开机几秒后三个灯一起闪,无响应、无显示,看型号是惠普DL20 Gen9。
全是灰尘,没什么好看的,拖回公司维修。
惠普DL360 Gen9,是金蝶ERP服务器,先重点关注一下,插上显示器,通电开机,注意盯着屏幕,看到几个风扇报错,然后就断电重启了,仔细看了下,5个风扇没一个转的,拔下电源线,拆下风扇。
清理后,手动可转,插回去开机,却报错依旧,手电打了一上,果然还是不转。
只能换了风扇,再查看有没有其他的问题了。
惠普DL20 Gen9上面贴的标签是文件服务器,想来也挺重要的,再看这台吧,插上电源线,先不开机,插上网线,WEB登录iLO,报的是CPU错误,对此,我深表怀疑。
拆下CPU,是E3-1220 V5 CPU,从备件柜里面翻了一阵,找到一块E3-1230V3,显然不配,又从几台测试服务器找,可惜都是E5系列的。
不插CPU通电,再次登录iLO,还报同样的错误,根据经验,应该是主板问题。
与客户沟通确认后,订货:主板一块,风扇5个;得知北京可以发货,暗自庆幸。
货到,先给DL360 Gen9换风扇,顺利开机,但是还有风扇报错,仔细看了,只有一个风扇不转,但是有两个报错。
难道发过来的风扇有一个坏的?交换位置后发现,并不是风扇坏,而且接口坏。
主板上有多余的接口,调整风扇护罩,改插到其他接口,风扇转了,但是报错依旧,好在系统正常启动了,确认5个风扇都正常运转,盖上机箱盖,vmware顺利启动。
询问客户后,得到回复:Vmware root密码未知。呃……好吧,机器先开着,就当测试了。
DL20 Gen9换主板,过程很顺利,CPU果然没问题,并且没有做任何设置,顺利启动,也是vmware,同样不知道root密码,这……
就这么呼啦啦地开着两台服务器,直到下班,小心翼翼地关机,放上拖车,再把换下来的主板和风扇带上,准备一起还给客户。
第二天早上,8点25分就到客户机房,驾轻就熟地上架、通电、开机,自信满满地洗手,准备让客户测试一下就撤。
结果财务回复,金蝶无法登录。
没有root的密码,我只能看到一个vmware的界面,除了IP地址,没什么有价值的信息。
打开我的笔记本电脑,网线直接插在服务器网卡上,ping 192.168.0.12 -t,不通,切换网卡接口,直到ping通,浏览器打开vmware登录界面正常,网线插回交换机。
财务回复,金蝶还是无法登录。
去财务办公室,发现财务电脑的网段是10.0.0.x,机房就一个傻瓜交换机,显然不可能有VLAN,但是得排除还有二级路由存在。
于是,在财务电脑上tracert -d 192.168.0.12,看了两三跳,明显不对,所以肯定是网段问题无疑。
回到机房,看到一台网件路由器,上面接着联通光猫,下面连接傻瓜交换机,准备登录进去修改网段,问了一圈,没人知道密码。
多次输入错误后,自动弹出重置密码的界面,但是需要输入两个问题的答案,连密码都没人知道,怎么可能有人知道问题答案呢。
正在准备重置路由器的时候,前方发来好消息,密码找到了,顺利登录,修改网段,重启路由器,片刻后,通知财务,禁用本地连接,然后启用,金蝶顺利登录。
让客户登录DL20 Gen9上面的vmware,无法登录,也ping不通,持续ping,跑到机房切换网口,就两个网口,切换一次就行,但是还ping不通,插上显示器一看,糟糕:STATE.TGZ错误,引导失败。
真倒霉啊,心中万马奔腾,这下有得搞了。
硬盘拆下,还好是SATA接口,找台式机挂上,优盘PE启动,把state.tgz复制到优盘,7zip解压,虽然报文件末端错误,但还是解压了。
解压出来是state.tar,再次解压,再次报错,得到一个local.tgz文件,再次解压,还是报错,得到一个local.tar文件,再解压,还是报末端错误,提到一个etc文件夹,里面有三个子文件夹:security、ssh、vmware。
删除有报错的压缩文件,按照目录结构逐级压缩回去,并且用原来的文件名,最后得到一个新的state.tgz文件,拷回到硬盘,关电脑,装回服务器,开机,紧张地等了几分钟,可惜故障依旧。
我有心理准备,也没打算一次成功,这次按照解压过程来压缩文件,没有带目录结构,只是把文件层层套壳压缩成需要的文件名称,拷回服务器,还是失败。
第三次拆下硬盘,还是优盘PE启动,chkdsk,我也知道不合适,其实应该在Linux系统下用磁盘扫描修复的命令,比如说fsck,但是我已经做好重装vmware的打算了, 也就不在乎了。
因为这个分区只有256M,所以很快检测完毕,得到一个chk0000文件,7zip解压,一样的多次报错,再压缩成state.tgz,再一次装回到服务器,已经不抱希望了,所以失败也在意料之中。
已经中午12点了,客户也要休息,只能把服务器再次带回公司。
一边啃面包,一边继续工作,直接尝试重装修复。
Vmware 6.0,能检测到已存在vmfs,重装要覆盖,没有保留的选项,果断放弃。
Vmware 6.7,检测不到任何原有信息,直接安装会覆盖硬盘,再次放弃。
Vmware 8.0,检测到已存在的vmfs,选择升级,并且保留原有数据。
装完后,web登录提示密码错误,奇怪,刚刚设置的密码,怎么可能会忘记?输入三遍都说我错, 没道理啊。
服务器键盘输入root账户的密码,没问题啊,修改一下密码吧。
然后笔记本电脑上,WEB也能登录了,真奇怪。
登录之后,本地存储是不认的,所以虚拟机当然不可能识别到,需要先到“存储器”菜单,打开“浏览数据存储器”,然后找到虚拟机所在目录,找到虚拟机名称.vmx,就能重新注册,然而,当我点击“浏览数据存储器”,浏览器就崩溃了,换别的浏览器也是一样。
到vmware官网,下载esxui-signed-12086396.vib,winscp上传到服务器,执行以下命令安装:
Esxcli software vib install -v /vmfs/volumes/esxui-signed-12086396.vib
安装完成后,刷新浏览器,界面的样子,又回到6.0的老样子了,幸运的是点击“浏览数据存储器”不再报错了,不幸的是,里面什么也没有,当然也没办法注册原来的虚拟机了。
Ssh连接到服务器,执行以下命令,挂载vmfs
vmkfstools -V
esxcli storage core adapter rescan -a
esxcfg-volume -l
复制显示的VMFS UUID,继续执行以下命令
esxcfg-volume -m 5806fca3-3428f4c0-2596-9418823523b0
ls /vmfs/volumes
回到WEB界面,打开“浏览数据存储器”,成功地重新注册虚拟机,并且开机成功,Window server 2012启动成功。
可是问题又来了,服务器关机重启后,vmfs又掉了,重新挂载后,再次注册虚拟机,这显然不靠谱,难道每次都来一遍么?
查询后,尝试以下方法,关机重启不再有影响,vmfs会自动挂载,虚拟机是已注册状态,并且能够自启。
ssh 登录 esxi主机
esxcfg-advcfg -s 1 /LVM/EnableResignature
vmkfstools -V
esxcfg-advcfg -s 0 /LVM/EnableResignature
find /vmfs/volumes/ -name esxconsole.vmdk
经多次关机重启,没发现再有问题,此时已经是21:30,下班回家。
第二天早上,再把服务器送给客户,破解windows server 2012的密码后才知道,这根本不是文件服务器,而一台邮件服务器,用的是winwebmail,可惜的是,客户又没人知道管理员密码,真是尴尬,客户说,找人问问再说,实在不行,还是需要我们的服务。
两台服务器,忙活了三天,收获碎银几两。