<br><font size=2 face="sans-serif">Hi Sunil,</font>
<br>
<br><font size=2 face="sans-serif">sorry for the delay but I was ill the
last 10 days.</font>
<br>
<br><font size=2 face="sans-serif">a. We do not use a crossover cable between
the two nodes. The two systems are seated in two SANs in different building
with redundant switches and HBA's inbetween.</font>
<br>
<br><font size=2 face="sans-serif">b.ocfs2-node numbers: [oracle@byaz05
etc]$ cat /etc/ocfs2/cluster.conf</font>
<br><font size=2 face="sans-serif">node:</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; ip_port
= 7777</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; ip_address
= 10.190.59.5</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; number =
0</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; name = byaz05.bayer-ag.com</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; cluster
= ocfs2</font>
<br>
<br><font size=2 face="sans-serif">node:</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; ip_port
= 7777</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; ip_address
= 10.190.59.6</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; number =
1</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; name = byaz10.bayer-ag.com</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; cluster
= ocfs2</font>
<br>
<br><font size=2 face="sans-serif">cluster:</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; node_count
= 2</font>
<br><font size=2 face="sans-serif">&nbsp; &nbsp; &nbsp; &nbsp; name = ocfs2</font>
<br>
<br><font size=2 face="sans-serif">Clusterconfiguration css/crs:</font>
<br><font size=2 face="sans-serif">/u01/app/oracle/product/crs/log/byaz05/crsd</font>
<br><font size=2 color=red face="Arial">2008-04-25 09:29:01.855: [ &nbsp;OCRMAS][1210108256]th_master:12:
I AM THE NEW OCR MASTER at incar 1. Node Number 2</font>
<br><font size=2 color=red face="Arial">2008-04-25 09:29:01.862: [ &nbsp;OCRRAW][1210108256]proprioo:
for disk 0 (/dev/raw/raw101), id match (1), my id set (1723799148,1710759834)
total id sets (1), 1st set (1723799148,1710759834), 2nd set (0,0) my votes
(1), total votes (2)</font>
<br><font size=2 color=red face="Arial">2008-04-25 09:29:01.862: [ &nbsp;OCRRAW][1210108256]proprioo:
for disk 1 (/dev/raw/raw201), id match (1), my id set (1723799148,1710759834)
total id sets (1), 1st set (1723799148,1710759834), 2nd set (0,0) my votes
(1), total votes (2)</font>
<br>
<br><font size=2 face="sans-serif">/u01/app/oracle/product/crs/log/byaz10/crsd</font>
<br><font size=2 color=red face="Arial">2008-04-25 10:21:28.781: [ &nbsp;OCRMAS][1210108256]th_master:13:
I AM THE NEW OCR MASTER at incar 4. Node Number 1</font>
<br><font size=2 color=red face="Arial">2008-04-25 10:21:28.781: [ &nbsp;OCRMSG][1505941856]prom_rpc:1:
NULL con. Probably got disconnected due to a remote server failure.</font>
<br><font size=2 color=red face="Arial">2008-04-25 10:21:29.324: [ &nbsp;OCRRAW][1210108256]proprioo:
for disk 0 (/dev/raw/raw101), id match (1), my id set (1723799148,1710759834)
total id sets (1), 1st set (1723799148,1710759834), 2nd set (0,0) my votes
(1), total votes (2)</font>
<br><font size=2 color=red face="Arial">2008-04-25 10:21:29.324: [ &nbsp;OCRRAW][1210108256]proprioo:
for disk 1 (/dev/raw/raw201), id match (1), my id set (1723799148,1710759834)
total id sets (1), 1st set (1723799148,1710759834), 2nd set (0,0) my votes
(1), total votes (2)</font>
<br><font size=2 color=red face="Arial">2008-04-25 10:21:29.351: [ &nbsp;OCRMAS][1210108256]th_master:
Deleted ver keys from cache (master)</font>
<br>
<br><font size=2 face="sans-serif">So the two nodes have the following
nodenumbers:</font>
<br>
<br><img src=cid:_1_068F9CEC068F9A740055F337C125745F>
<br>
<br><font size=2 face="sans-serif">Fencing the node with the higher node
number ocfs2 would have fenced byaz10 and crs/css would have fenced byaz05.
This is exactly the behaviour we watched. But how to solve this? Oracle
says it's certified to use ocfs2 with RAC. Then the used software combination
is nearly the same as we use it. How can the combination of the two systems
(ocfs2/css) fencing different nodes avoided then?</font>
<br>
<br>
<br><font size=2 face="sans-serif">Greets,</font>
<br><font size=2 face="sans-serif">Alex</font>
<br>
<br>
<br><tt><font size=3>&gt;In such a situation, ocfs2 fences the higher node
number. afaik,<br>
&gt;css does the same. What are the css node numbers for the two nodes?<br>
<br>
</font></tt><a href="http://oss.oracle.com/mailman/listinfo/ocfs2-users"><tt><font size=3 color=blue><u>&gt;alexandra.strauss
at bayerbbs.com</u></font></tt></a><tt><font size=3> wrote:<br>
&gt;&gt;<i><br>
</i>&gt;&gt;<i> Hello,<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> I refer to you hoping you may help me with my problem...
We have got <br>
</i>&gt;&gt;<i> an issur here and opened a SR at Metalink but until now,
we got no <br>
</i>&gt;&gt;<i> useful information in solving our problem. SR-Number is
6855815.994...<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> We wanted to protect 9i Single-Instance Databases with
10g Clusterware <br>
</i>&gt;&gt;<i> following the third-party-tool approach. There are no RAC-databases
<br>
</i>&gt;&gt;<i> involved. But we want to achieve high availability as the
databases <br>
</i>&gt;&gt;<i> are business critical systems. We want to make the systems
able to<br>
</i>&gt;&gt;<i> relocate to another machine in case of failure to keep
downtimes <br>
</i>&gt;&gt;<i> low... To achieve this we want to use OCFS2 for the filesystem.
<br>
</i>&gt;&gt;<i> Relocate is done by script with help of CRS.<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> So we took two systems (byaz05 and byaz10) and installed
the following <br>
</i>&gt;&gt;<i> software: 10g CRS (10.2.0.3) and Oracle Software 9.2.0.8
and OCFS2 1.2.8<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> We found the following Metalinknotes and adjusted the heartbeat
and <br>
</i>&gt;&gt;<i> timeouts for OCFS2: Metalink Note 395878.1: Heartbeat/Voting/Quorum
<br>
</i>&gt;&gt;<i> Related Timeout Configuration for Linux, OCFS2, RAC Stack
to avoid <br>
</i>&gt;&gt;<i> unnessary node fencing, panic and reboot<br>
</i>&gt;&gt;<i> Metalink Note 391771.1: OCFS2 - FREQUENTLY ASKED QUESTIONS
(hier <br>
</i>&gt;&gt;<i> insbesondere der Abschnitt zu Fencing und Quorum)<br>
</i>&gt;&gt;<i> Metalink Note 434255.1: Common reasons for OCFS2 Kernel
Panic or <br>
</i>&gt;&gt;<i> Reboot Issues<br>
</i>&gt;&gt;<i> Metalink Note 457423.1: OCFS2 Fencing, Network, and Disk
Heartbeat <br>
</i>&gt;&gt;<i> Timeout Configuration<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> We did no changes to the CRS/CSS default settings until
now.<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> During HA-testing we watched unexpected behaviour of the
system. We <br>
</i>&gt;&gt;<i> deactivated the bond for private interconnect and expected
only one <br>
</i>&gt;&gt;<i> node to go down. But we faced both nodes going down. As
it seems to me <br>
</i>&gt;&gt;<i> one node was rebooted from OCFS2 and the other one from
CRS/CSS.<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> Timestamp<br>
</i>&gt;&gt;<i> --------------------------------------------------------------------------------------------------------------
<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> 10:21:06 bond1 disabled (eth1)<br>
</i>&gt;&gt;<i> */var/log/messages byaz05*<br>
</i>&gt;&gt;<i> Apr 25 10:21:06 byaz05 kernel: bonding: bond1: link status
definitely <br>
</i>&gt;&gt;<i> down for interface eth1, disabling it<br>
</i>&gt;&gt;<i> Apr 25 10:21:06 byaz05 kernel: bonding: bond1: making interface
eth5 <br>
</i>&gt;&gt;<i> the new active one.<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> 10:21:09 bond1 disabled (eth5)<br>
</i>&gt;&gt;<i> */var/log/messages byaz05*<br>
</i>&gt;&gt;<i> Apr 25 10:21:09 byaz05 kernel: bonding: bond1: link status
definitely <br>
</i>&gt;&gt;<i> down for interface eth5, disabling it<br>
</i>&gt;&gt;<i> Apr 25 10:21:09 byaz05 kernel: bonding: bond1: now running
without any <br>
</i>&gt;&gt;<i> active interface !<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> 10:21:23 o2net &#8211; no longer connected<br>
</i>&gt;&gt;<i> */var/log/messages byaz05*<br>
</i>&gt;&gt;<i> Apr 25 10:21:23 byaz05 kernel: o2net: no longer connected
to node <br>
</i>&gt;&gt;<i> byaz10.bayer-ag.com (num 1) at 10.190.59.6:7777<br>
</i>&gt;&gt;<i> */var/log/messages byaz10*<br>
</i>&gt;&gt;<i> Apr 25 10:21:23 byaz10 kernel: o2net: no longer connected
to node <br>
</i>&gt;&gt;<i> byaz05.bayer-ag.com (num 0) at 10.190.59.5:7777<br>
</i>&gt;&gt;<i><br>
</i>&gt;&gt;<i> 10:21:27 CSSD failure 134<br>
</i>&gt;&gt;<i> 10:21:29 Reboot initiated by CRS<br>
</i>&gt;&gt;<i> */var/log/messages byaz05*<br>
</i>&gt;&gt;<i> Apr 25 10:21:27 byaz05 logger: Oracle clsomon failed with
fatal status <br>
</i>&gt;&gt;<i> 12.<br>
</i>&gt;&gt;<i> Apr 25 10:21:27 byaz05 logger: Oracle CSSD failure 134.<br>
</i>&gt;&gt;<i> Apr 25 10:21:27 byaz05 su(pam_unix)[25839]: session closed
for user <br>
</i>&gt;&gt;<i> oracle<br>
</i>&gt;&gt;<i> Apr 25 10:21:27 byaz05 logger: Oracle CRS failure. Rebooting
for <br>
</i>&gt;&gt;<i> cluster integrity.<br>
</i>&gt;&gt;<i> Apr 25 10:21:27 byaz05 kernel: md: stopping all md devices.<br>
</i>&gt;&gt;<i> Apr 25 10:21:27 byaz05 kernel: md: md0 switched to read-only
mode.<br>
</i>&gt;&gt;<i> Apr 25 10:21:29 byaz05 logger: Oracle CRS failure. Rebooting
for <br>
</i>&gt;&gt;<i> cluster integrity.<br>
</i>&gt;&gt;<i> Apr 25 10:21:29 byaz05 kernel: e1000: eth2: e1000_watchdog_task:
NIC <br>
</i>&gt;&gt;<i> Link is Up 1000 Mbps Full Duplex<br>
</i>&gt;&gt;<i> Apr 25 10:21:29 byaz05 logger: Oracle init script ceding
reboot to <br>
</i>&gt;&gt;<i> sibling 27383.<br>
</i>&gt;<i>&gt;<br>
</i>&gt;<i>&gt; 10:21:58 Reboot initiated by OCFS2(?)<br>
</i>&gt;<i>&gt; */var/log/messages byaz10*<br>
</i>&gt;<i>&gt; Apr 25 10:21:58 byaz10 su(pam_unix)[4595]: session opened
for user <br>
</i>&gt;<i>&gt; oracle by (uid=0)<br>
</i>&gt;<i>&gt; Apr 25 10:21:58 byaz10 su(pam_unix)[4595]: session closed
for user oracle<br>
</i>&gt;<i>&gt; Apr 25 10:25:58 byaz10 syslogd 1.4.1: restart.<br>
</i>&gt;<i>&gt; Apr 25 10:25:58 byaz10 syslog: syslogd startup succeeded<br>
</i>&gt;<i>&gt; Apr 25 10:25:58 byaz10 kernel: klogd 1.4.1, log source
= /proc/kmsg <br>
</i>&gt;<i>&gt; started.<br>
</i>&gt;<i>&gt; Apr 25 10:25:58 byaz10 kernel: Bootdata ok (command line
is ro <br>
</i>&gt;<i>&gt; root=/dev/vgroot/_)<br>
</i>&gt;<i>&gt;<br>
</i>&gt;<i>&gt;<br>
</i>&gt;<i>&gt; We supposed all the time this is a timing problem. But
we don't know <br>
</i>&gt;&gt;<i> which settings raise the problem and which steps to do
to to correct <br>
</i>&gt;<i>&gt; them. Otherwise we'll have to work over the complete concept
for the <br>
</i>&gt;&gt;<i> business critical systems.<br>
</i>&gt;&gt;<i> Can anyone help me?<br>
</i>&gt;&gt;<i><br>
</i><br>
&gt;&gt;<i> Regards,<br>
</i>&gt;&gt;<i> Alexandra<br>
</i></font></tt>