<br><font size=2 face="sans-serif">Thanks, this seemed to clear the problem
up, setting O2CB_HEARTBEAT_THRESHOLD to 31. &nbsp;Though I still get the
SCSI/multipath errors, the 1st node does not fence itself.</font>
<br>
<br>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: SCSI
error : &lt;1 0 0 12&gt; return code = 0x20000</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: end_request:
I/O error, dev sdab, sector 1920</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: device-mapper:
dm-multipath: Failing path 65:176.</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: SCSI
error : &lt;1 0 0 14&gt; return code = 0x20000</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: end_request:
I/O error, dev sdad, sector 1920</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: device-mapper:
dm-multipath: Failing path 65:208.</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: SCSI
error : &lt;1 0 0 13&gt; return code = 0x20000</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: end_request:
I/O error, dev sdac, sector 1920</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: device-mapper:
dm-multipath: Failing path 65:192.</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: SCSI
error : &lt;1 0 0 13&gt; return code = 0x20000</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 kernel: end_request:
I/O error, dev sdac, sector 192785</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 multipathd:
65:176: mark as failed</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 multipathd:
mpath1: remaining active paths: 1</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 multipathd:
65:208: mark as failed</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 multipathd:
mpath3: remaining active paths: 1</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 multipathd:
65:192: mark as failed</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:34 bbflgrid11 multipathd:
mpath2: remaining active paths: 1</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
65:176: readsector0 checker reports path is up</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
65:176: reinstated</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
mpath1: remaining active paths: 2</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
65:192: readsector0 checker reports path is up</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
65:192: reinstated</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
mpath2: remaining active paths: 2</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
65:208: readsector0 checker reports path is up</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
65:208: reinstated</font>
<br><font size=2 face="sans-serif">Sep 22 18:19:44 bbflgrid11 multipathd:
mpath3: remaining active paths: 2</font>
<br><font size=2 face="sans-serif"><br>
<br>
Shawn E. Ruff<br>
Senior Oracle DBA<br>
Fiberlink Communications<br>
Office: (215) 664-1737<br>
Mobile: (215) 237-9285<br>
Fax: (215) 664-1737<br>
<br>
The information transmitted is intended only for the person or entity to
which it is addressed and may contain confidential and/or privileged material.
&nbsp;Any review, retransmission, dissemination or other use of, or taking
of any action in reliance upon, this information by persons or entities
other than the intended recipient is prohibited. &nbsp; If you received
this in error, please contact the sender and delete the material from any
computer.<br>
<br>
</font>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td width=40%><font size=1 face="sans-serif"><b>Sunil Mushran &lt;Sunil.Mushran@oracle.com&gt;</b>
</font>
<br><font size=1 face="sans-serif">Sent by: ocfs2-users-bounces@oss.oracle.com</font>
<p><font size=1 face="sans-serif">09/21/2006 08:04 PM</font>
<td width=59%>
<table width=100%>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">To</font></div>
<td><font size=1 face="sans-serif">SRuff@fiberlink.com</font>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">cc</font></div>
<td><font size=1 face="sans-serif">ocfs2-users@oss.oracle.com</font>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">Subject</font></div>
<td><font size=1 face="sans-serif">Re: [Ocfs2-users] ocfs2 fencing on reboot
of 2nd node</font></table>
<br>
<table>
<tr valign=top>
<td>
<td></table>
<br></table>
<br>
<br>
<br><font size=2><tt>What is your O2CB_HEARTBEAT_THRESHOLD set to?<br>
<br>
For more, refer:<br>
http://oss.oracle.com/projects/ocfs2/dist/documentation/ocfs2_faq.html#HEARTBEAT<br>
<br>
SRuff@fiberlink.com wrote:<br>
&gt;<br>
&gt; I'm performing some testing with ocfs2 on 2 nodes with Red Hat AS4
<br>
&gt; Update 4 (x86_64) and (mulitpath included in the 2.6 kernel) and am
<br>
&gt; runing into some issues when cleanly rebooting the 2nd node, while
the <br>
&gt; 1st node is still up.<br>
&gt;<br>
&gt; So if I do the following on the 2nd node, the 1st node does not fence
<br>
&gt; itself:<br>
&gt;<br>
&gt; /etc/init.d/ocfs2 stop<br>
&gt; /etc/init.d/o2cb stop<br>
&gt; wait more than 60 seconds<br>
&gt; init 6<br>
&gt;<br>
&gt; I get the following on the 1st node, but everything is fine:<br>
&gt;<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: SCSI error : &lt;0 0 0 12&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: end_request: I/O error, dev sdm,
<br>
&gt; sector 1.<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 8:192.<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: SCSI error : &lt;0 0 0 14&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: end_request: I/O error, dev sdo,
<br>
&gt; sector 193297<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 8:224.<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: SCSI error : &lt;0 0 0 13&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: end_request: I/O error, dev sdn,
<br>
&gt; sector 192785<br>
&gt; Sep 21 21:44:49 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 8:208.<br>
&gt; Sep 21 21:44:49 bbflgrid11 multipathd: 8:192: mark as failed<br>
&gt; Sep 21 21:44:49 bbflgrid11 multipathd: mpath1: remaining active paths:
1<br>
&gt; Sep 21 21:44:49 bbflgrid11 multipathd: 8:224: mark as failed<br>
&gt; Sep 21 21:44:49 bbflgrid11 multipathd: mpath3: remaining active paths:
1<br>
&gt; Sep 21 21:44:49 bbflgrid11 multipathd: 8:208: mark as failed<br>
&gt; Sep 21 21:44:49 bbflgrid11 multipathd: mpath2: remaining active paths:
1<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: 8:192: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: 8:192: reinstated<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: mpath1: remaining active paths:
2<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: 8:208: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: 8:208: reinstated<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: mpath2: remaining active paths:
2<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: 8:224: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: 8:224: reinstated<br>
&gt; Sep 21 21:44:58 bbflgrid11 multipathd: mpath3: remaining active paths:
2<br>
&gt; Sep 21 21:46:06 bbflgrid11 kernel: SCSI error : &lt;1 0 0 11&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:46:06 bbflgrid11 kernel: end_request: I/O error, dev sdaa,
<br>
&gt; sector 1920<br>
&gt; Sep 21 21:46:06 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 65:160.<br>
&gt; Sep 21 21:46:06 bbflgrid11 multipathd: 65:160: mark as failed<br>
&gt; Sep 21 21:46:06 bbflgrid11 multipathd: mpath0: remaining active paths:
1<br>
&gt; Sep 21 21:46:06 bbflgrid11 multipathd: 65:160: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:46:06 bbflgrid11 multipathd: 65:160: reinstated<br>
&gt; Sep 21 21:46:06 bbflgrid11 multipathd: mpath0: remaining active paths:
2<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Now if I do the following on the 2nd node, the 1st node fences itself
<br>
&gt; (same as above, except dont wait 60 seconds after o2cb stop)<br>
&gt;<br>
&gt; /etc/init.d/ocfs2 stop<br>
&gt; /etc/init.d/o2cb stop<br>
&gt; init 6<br>
&gt;<br>
&gt; Node 1 logs the following and fences itself, I have to power cycle
the <br>
&gt; server to get it back, it doesn't reboot or shutdown just hangs<br>
&gt;<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: SCSI error : &lt;0 0 0 13&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: end_request: I/O error, dev sdn,
<br>
&gt; sector 192785<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 8:208.<br>
&gt; Sep 21 21:28:00 bbflgrid11 multipathd: 8:208: mark as failed<br>
&gt; Sep 21 21:28:00 bbflgrid11 multipathd: mpath2: remaining active paths:
1<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: SCSI error : &lt;1 0 0 12&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: end_request: I/O error, dev sdab,
<br>
&gt; sector 192784<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: end_request: I/O error, dev sdab,
<br>
&gt; sector 192786<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 65:176.<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: SCSI error : &lt;1 0 0 13&gt; return
code <br>
&gt; = 0x20000<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: end_request: I/O error, dev sdac,
<br>
&gt; sector 192785<br>
&gt; Sep 21 21:28:00 bbflgrid11 kernel: device-mapper: dm-multipath: <br>
&gt; Failing path 65:192.<br>
&gt; Sep 21 21:28:00 bbflgrid11 multipathd: 65:176: mark as failed<br>
&gt; Sep 21 21:28:00 bbflgrid11 multipathd: mpath1: remaining active paths:
1<br>
&gt; Sep 21 21:28:01 bbflgrid11 multipathd: 65:192: mark as failed<br>
&gt; Sep 21 21:28:01 bbflgrid11 multipathd: mpath2: remaining active paths:
0<br>
&gt; Sep 21 21:28:01 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:01 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:01 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:01 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:01 bbflgrid11 multipathd: 65:176: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:28:01 bbflgrid11 multipathd: 65:176: reinstated<br>
&gt; Sep 21 21:28:01 bbflgrid11 multipathd: mpath1: remaining active paths:
2<br>
&gt; Sep 21 21:28:03 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:03 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:03 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:03 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:05 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:05 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:05 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:05 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:07 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:07 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:07 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:07 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:09 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:09 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:09 bbflgrid11 kernel: (4912,1):o2hb_bio_end_io:331 ERROR:
<br>
&gt; IO Error -5<br>
&gt; Sep 21 21:28:09 bbflgrid11 kernel: (4912,1):o2hb_do_disk_heartbeat:973
<br>
&gt; ERROR: status = -5<br>
&gt; Sep 21 21:28:09 bbflgrid11 multipathd: 8:208: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:28:09 bbflgrid11 multipathd: 8:208: reinstated<br>
&gt; Sep 21 21:28:09 bbflgrid11 multipathd: mpath2: remaining active paths:
1<br>
&gt; Sep 21 21:28:10 bbflgrid11 multipathd: 65:192: readsector0 checker
<br>
&gt; reports path is up<br>
&gt; Sep 21 21:28:10 bbflgrid11 multipathd: 65:192: reinstated<br>
&gt; Sep 21 21:28:10 bbflgrid11 multipathd: mpath2: remaining active paths:
2<br>
&gt;<br>
&gt;<br>
&gt; ...<br>
&gt; Index 14: took 0 ms to do submit_bio for read<br>
&gt; Index 15: took 0 ms to do waiting for read completion<br>
&gt; (11,1):o2hb_stop_all_regions:1908 ERROR: stopping heartbeat on all
<br>
&gt; active regions<br>
&gt; Kernel panic - not syncing: &nbsp;ocfs2 is very sorry to be fencing
this <br>
&gt; system by panicing<br>
&gt;<br>
&gt;<br>
&gt; Seems like if I wait for the node 1 to heartbeat to node 2, with o2c
<br>
&gt; down, before rebooting it's fine, but if I reboot before node 1 has
<br>
&gt; had a chance to hearbeat to node 2, with o2cb down, it's panics.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Shawn E. Ruff<br>
&gt; Senior Oracle DBA<br>
&gt; Fiberlink Communications<br>
&gt;<br>
&gt; The information transmitted is intended only for the person or entity
<br>
&gt; to which it is addressed and may contain confidential and/or <br>
&gt; privileged material. &nbsp;Any review, retransmission, dissemination
or <br>
&gt; other use of, or taking of any action in reliance upon, this <br>
&gt; information by persons or entities other than the intended recipient
<br>
&gt; is prohibited. &nbsp; If you received this in error, please contact
the <br>
&gt; sender and delete the material from any computer.<br>
&gt;<br>
&gt; ------------------------------------------------------------------------<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; Ocfs2-users mailing list<br>
&gt; Ocfs2-users@oss.oracle.com<br>
&gt; http://oss.oracle.com/mailman/listinfo/ocfs2-users<br>
&gt; &nbsp; <br>
<br>
_______________________________________________<br>
Ocfs2-users mailing list<br>
Ocfs2-users@oss.oracle.com<br>
http://oss.oracle.com/mailman/listinfo/ocfs2-users<br>
</tt></font>
<br>