<br><font size=2 face="sans-serif">Hello,</font>
<br>
<br><font size=2 face="sans-serif">I refer to you hoping you may help me
with my problem... We have got an issur here and opened a SR at Metalink
but until now, we got no useful information in solving our problem. SR-Number
is 6855815.994...</font>
<br>
<br><font size=2 face="sans-serif">We wanted to protect 9i Single-Instance
Databases with 10g Clusterware following the third-party-tool approach.
There are no RAC-databases involved. But we want to achieve high availability
as the databases are business critical systems. We want to make the systems
able to </font>
<form action=https://metalink.oracle.com/metalink/plsql/wwv_flow.accept method=post><font size=2 face="sans-serif">relocate
to another machine in case of failure to keep downtimes low... To achieve
this we want to use OCFS2 for the filesystem. Relocate is done by script
with help of CRS.</font>
<br>
<br><font size=2 face="sans-serif">So we took two systems (byaz05 and byaz10)
and installed the following software: 10g CRS (10.2.0.3) and Oracle Software
9.2.0.8 and OCFS2 1.2.8</font>
<br>
<br><font size=2 face="sans-serif">We found the following Metalinknotes
and adjusted the heartbeat and timeouts for OCFS2: </font><font size=3>Metalink
Note 395878.1: Heartbeat/Voting/Quorum Related Timeout Configuration for
Linux, OCFS2, RAC Stack to avoid unnessary node fencing, panic and reboot<br>
Metalink Note 391771.1: OCFS2 - FREQUENTLY ASKED QUESTIONS (hier insbesondere
der Abschnitt zu Fencing und Quorum)<br>
Metalink Note 434255.1: Common reasons for OCFS2 Kernel Panic or Reboot
Issues<br>
Metalink Note 457423.1: OCFS2 Fencing, Network, and Disk Heartbeat Timeout
Configuration</font>
<br>
<br><font size=3>We did no changes to the CRS/CSS default settings until
now.</font>
<br>
<br><font size=2 face="sans-serif">During HA-testing we watched unexpected
behaviour of the system. We deactivated the bond for private interconnect
and expected only one node to go down. But we faced both nodes going down.
As it seems to me one node was rebooted from OCFS2 and the other one from
CRS/CSS.</font>
<br>
<br><font size=3 face="Times New Roman">Timestamp &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;</font>
<br><font size=3 face="Times New Roman">--------------------------------------------------------------------------------------------------------------</font>
<br><font size=3 color=blue face="Times New Roman">10:21:06 &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;bond1 disabled
(eth1) &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp;</font>
<br><font size=3 face="Times New Roman"><b>/var/log/messages byaz05</b></font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:06 byaz05 kernel:
bonding: bond1: link status definitely down for interface eth1, disabling
it</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:06 byaz05 kernel:
bonding: bond1: making interface eth5 the new active one.</font>
<br>
<br><font size=3 color=blue face="Times New Roman">10:21:09 &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;bond1 disabled
(eth5) &nbsp; &nbsp; &nbsp; &nbsp;</font>
<br><font size=3 face="Times New Roman"><b>/var/log/messages byaz05</b></font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:09 byaz05 kernel:
bonding: bond1: link status definitely down for interface eth5, disabling
it</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:09 byaz05 kernel:
bonding: bond1: now running without any active interface !</font>
<br>
<br><font size=3 face="Times New Roman">10</font><font size=3 color=blue face="Times New Roman">:21:23
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;o2net
&#8211; no longer connected &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
&nbsp; &nbsp;</font>
<br><font size=3 face="Times New Roman"><b>/var/log/messages byaz05</b></font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:23 byaz05 kernel:
o2net: no longer connected to node byaz10.bayer-ag.com (num 1) at 10.190.59.6:7777</font>
<br><font size=3 face="Times New Roman"><b>/var/log/messages byaz10</b></font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:23 byaz10 kernel:
o2net: no longer connected to node byaz05.bayer-ag.com (num 0) at 10.190.59.5:7777</font>
<br>
<br><font size=3 color=blue face="Times New Roman">10:21:27 &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;CSSD failure 134</font>
<br><font size=3 color=blue face="Times New Roman">10:21:29 &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Reboot initiated
by CRS</font>
<br><font size=3 face="Times New Roman"><b>/var/log/messages byaz05</b></font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:27 byaz05 logger:
Oracle clsomon failed with fatal status 12.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:27 byaz05 logger:
Oracle CSSD failure 134.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:27 byaz05 su(pam_unix)[25839]:
session closed for user oracle</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:27 byaz05 logger:
Oracle CRS failure. &nbsp;Rebooting for cluster integrity.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:27 byaz05 kernel:
md: stopping all md devices.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:27 byaz05 kernel:
md: md0 switched to read-only mode.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:29 byaz05 logger:
Oracle CRS failure. &nbsp;Rebooting for cluster integrity.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:29 byaz05 kernel:
e1000: eth2: e1000_watchdog_task: NIC Link is Up 1000 Mbps Full Duplex</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:29 byaz05 logger:
Oracle init script ceding reboot to sibling 27383.</font>
<br>
<br><font size=3 color=blue face="Times New Roman">10:21:58 &nbsp; &nbsp;
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Reboot initiated
by OCFS2(?)</font>
<br><font size=3 face="Times New Roman"><b>/var/log/messages byaz10</b></font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:58 byaz10 su(pam_unix)[4595]:
session opened for user oracle by (uid=0)</font>
<br><font size=3 face="Times New Roman">Apr 25 10:21:58 byaz10 su(pam_unix)[4595]:
session closed for user oracle</font>
<br><font size=3 face="Times New Roman">Apr 25 10:25:58 byaz10 syslogd
1.4.1: restart.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:25:58 byaz10 syslog:
syslogd startup succeeded</font>
<br><font size=3 face="Times New Roman">Apr 25 10:25:58 byaz10 kernel:
klogd 1.4.1, log source = /proc/kmsg started.</font>
<br><font size=3 face="Times New Roman">Apr 25 10:25:58 byaz10 kernel:
Bootdata ok (command line is ro root=/dev/vgroot/_)</font>
<br>
<br>
<br><font size=2 face="sans-serif">We supposed all the time this is a timing
problem. But we don't know which settings raise the problem and which steps
to do to to correct them. Otherwise we'll have to work over the complete
concept for the business critical systems. </font>
<br><font size=2 face="sans-serif">Can anyone help me?</font>
<br>
<br><font size=2 face="sans-serif">Regards,</font>
<br><font size=2 face="sans-serif">Alexandra</font>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td width=100%><font size=2><br>
</font>
<table width=100%>
<tr>
<td width=100%><font size=2><br>
</font>
<table width=100%>
<tr valign=top>
<td colspan=3 bgcolor=white><font size=2><br>
</font>
<table width=100%>
<tr valign=top>
<td width=100%></table>
<br></table>
<br></table>
<br></table>
<br>
<br></form>
<br><font size=2 face="sans-serif"><br>
Freundliche Grüße / Best Regards<br>
<br>
Alexandra Strauss<br>
_________________________________________<br>
<br>
Fa. Opitz Consulting<br>
Fa. Opitz Consulting<br>
Phone: <br>
Fax: <br>
E-mail: <br>
Web: http://www.BayerBBS.com<br>
<br>
Geschäftsführung: Vorsitzender Andreas Resch &nbsp; | &nbsp; Arbeitsdirektor
Norbert Fieseler<br>
Vorsitzender des Aufsichtsrats: Klaus Kühn<br>
Sitz der Gesellschaft: Leverkusen &nbsp; | &nbsp; Amtsgericht Köln, HRB
49895<br>
</font>