欢迎投稿

今日深度:

记一次因网卡心跳故障引发RAC节点重启故障分析

记一次因网卡心跳故障引发RAC节点重启故障分析,rac节点


数据库与CRS版本:10.2.0.4

down机过程分析

序号

节点

时间

动作

日志源

1

Jul 4 22:48:15

XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out

bnx2: fw sync timeout, reset code = 1020015

OS

2

Jul 4 22:48:29

--

Jul 4 22:49

CRS-1612:node XXdb1 (1) at 50% heartbeat fatal, eviction in 29.118 seconds

]CRS-1610:node XXdb1 (1) at 90% heartbeat fatal, eviction in 5.128 seconds

CRS

3

Jul 4 22:54:14

XXdb2 syslogd 1.4.1: restart

OS

4

Jul 4 22:54:14

XXdb2 ifup: Device eth1 has different MAC address than expected, ignoring.

XXdb2 network: Bringing up interface eth1:  failed

OS

5

Jul  5 01:22:27 -- Jul  5 01:58:49

XXdb2 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.5659

OS

6

Jul 5 01:59:30

XXdb2 shutdown: shutting down for system reboot

OS

7

Jul 5 03:00:08

CRS-1605:CSSD voting file is online: /dev/raw/raw18. Details in /home/oracle/product/10.2.0/crs/log/XXdb2/cssd/ocssd.log

CRS

8

Jul 4 23:00:00

CRS-1612:node XXdb2 (2) at 50% heartbeat fatal, eviction in 29.144 seconds

CRS

9

Jul  4 23:04:55

XXdb1 syslogd 1.4.1: restart

OS

从上面日志来看,整个故障过程如下:

(1) 第二节点操作系统发现eth1(心跳网卡)网络超时,随后第二节点数据库连接第一节点超时,超时4次之后,第二节点数据库强制重启操作系统

(2) 第二节点重启后, eth1起不来,导致CRS等待资源启动中,而也无法启动,CRS日志中的/tmp/crsctl.5659中记录是在等待内部心跳网卡的启动

(3) 第二节点被重启后,第一节点连接第二节点心跳超时,第一节点强制重启操作系统

(4) 问题的源头源于第二节点的心跳网络出现故障所致,并且第二节点因为eth1网卡的运行mac地址与实际mac地址不相符而导致重启服务器后eth1网卡启不来


本文作者:踩点,从事”系统架构、操作系统、存储设备、数据库、中间件、应用程序“六个层面系统性的性能优化工作

欢迎加入 系统性能优化专业群 ,共同探讨性能优化技术。群号:258187244



实验室linux(suse)大概每隔一小时自动reboot一次问怎检查出异常信息并取消自动重启

查看各种日志,包括系统日志,应用日志,数据库日志,系统自动重启的原因比较多样,可能是硬件问题(如,主板出问题或磁阵连接问题等)、系统订制任务、应用程序故障或bug(如,应用大量占用内存溢出等)、数据库故障(如,rac心跳网络连接失败导致rac自动调用重启等。)。这个只能一步一步排查。
 

电脑要开二次,才可以启动第一次开机等待十多分钟,不可以显示,再热启动才可以开机要就跳掉关机

你好,你这是典型的硬件故障,但是不用担心,不是大故障,这种故障是CPU启动电压不足引起,原因有两种可能:
1、主板上CPU供电电容损坏,电容电量不足引起启动电压不够,电脑不能正常启动。经过很长时间才能启动是因为电容损坏后需要更久的充电时间达到正常启动电压。重启正常是因为电容在首次启动后受热,再次充电时容易充满,基本达到压动电压。但是只要冷启动就需要类似加热的过程。
2、电源损坏,电源的输出电压不足,也就是说如上所述的故障出现电源上,而不是主板上。原因说明同上理,不再赘述。
总之,这种故障是CPU启动电压不足引起,不是大故障,不用担心。
处理方法:更换损坏的电容,一般有多个。
如果你没有相对丰富的电脑拆装经验和基本的电理知识,建议你带去维修点更换,这个费用不高,一二十块钱就可以搞定(电容一个才一两毛钱,这个钱其实就是手工费,不要让蒙了)。
如果你有较丰富的电脑拆装机经验,且懂基本的电理知识,你自已可以如下所述动手搞定:
1、判断故障所在。通过更换相同或相似的电脑电源,试试电脑是否正常启动,如果是,那故障的是你的电源,你可以选择买新的电源或自已维修电源。如果否,那就看按下面的2来做
2、查看电脑主板上CPU周围的所有电容(如果你要问我什么是电容,那就赶紧往维修点抱电脑,不要再往下看了,呵呵),你会看到有一些电容是鼓起来的,甚至鼓暴了的,这些都是需要更换的电容,你把这些电容的型号记下来,去电子市场买到相同的,自已换上。焊接时一定要让烙铁足够热,要一次熔化,不能放太久,尤其是装新电容时不能过久受热,否则就会损坏电容。
如果是电源的故障,那跟上面的差不多,你自已打开电源更换一下就行,电源上可能有另一种电容,就是看上去象石头一样的那种,你要看仔细。
处理方法如上,请你自已权衡。
最后建议:
1、如果自已动手,那成本就是几块钱,但有一定风险,因为我们毕竟不是专业人士。
2、还是建议你抱到维修点去修一下,保险一点,也花不了多少钱。

希我的回答能解决你的问题。
 

www.htsjk.Com true http://www.htsjk.com/shujukunews/2091.html NewsArticle 记一次因网卡心跳故障引发RAC节点重启故障分析,rac节点 数据库与CRS 版本: 10.2.0.4 down 机过程 分析 序号 节点 时间 动作 日志源 1 二 Jul422:48:15 XXdb2kernel:NETDEVWATCHDOG:eth1:transmittimedout b...
相关文章
    暂无相关文章
评论暂时关闭