love wife love life —Roger的Oracle/MySQL/PostgreSQL数据恢复博客

Phone:18180207355 提供专业Oracle/MySQL/PostgreSQL数据恢复、性能优化、迁移升级、紧急救援等服务

rac节点频繁重启的案例

本站文章除注明转载外,均为本站原创: 转载自love wife love life —Roger的Oracle/MySQL/PostgreSQL数据恢复博客

本文链接地址: rac节点频繁重启的案例

这是一个网友的信息,其RAC频繁重启,从9月份以来几乎每间隔2天就要重启,我们先来看看日志。

节点1的alert log:

我们接着来看下节点1的crs的alert log信息:

从节点1的crs alert log来看,23号,25号以及28号都出现了节点驱逐的情况。单从上面的信息来看,似乎跟网络有关系。

节点1的ocssd.log 如下:

可以看到28号,oracle的clssnmPollingThread函数调用出现异常。oracle本质上是通过调用该函数来判断集群节点的心跳是否正常。
从上面的信息来看,似乎提示的是节点2没有网络心跳。

下面的重点是分析节点2的日志了,首先来看下节点2的alert log:

数据库实例的alert log我们基本上看不到什么有价值的信息,下面我们来看下最为关键的节点2的ocssd.log 日志:

我们过滤掉节点2的ocssd中的关键信息,可以发现如下的内容:

25号:

28号:

单纯的从25号和28号的数据来看,这2次故障其实是不同的。我们上面的关键信息我们可以发现,25号的原cssd异常是调用clssnmvKillBlockThread出现问题,而
28号是clssnmRcfgMgrThread。

显然,这2个函数是完全不同的类型,第一个函数的针对votedisk的操作,而第2个函数是网络相关的函数.

最后问这哥们最近做过什么变动,据说是换了交换机之后就出现这个现象了。

跟大家分享这个小的案例!

One Response to “rac节点频繁重启的案例”

  1. kevin Says:

    Roger大神就是牛,请问这个case,大神如何解决的呢?调整网络?还是其他高招?

Leave a Reply

You must be logged in to post a comment.