<div dir="ltr"><p>Hi Ocfs2 user<br>We got some relevant log messages (via a serial console) and via a putty session logged on a root.<br>I suspect we need to set up a private network between the ocfs2 cluster members, is this right? Anything else we might need to do?<br>
&nbsp;<br>regards, I appreciate your help</p>
<p>Derek<br>########################################################<br>CURRENT O2CB CONFIG<br>&nbsp;[root@sysname fs]# /etc/init.d/o2cb configure<br>Configuring the O2CB driver.<br>This will configure the on-boot properties of the O2CB driver.<br>
The following questions will determine whether the driver is loaded on<br>boot.&nbsp; The current values will be shown in brackets (&#39;[]&#39;).&nbsp; Hitting<br>&lt;ENTER&gt; without typing an answer will keep that current value.&nbsp; Ctrl-C<br>
will abort.<br>Load O2CB driver on boot (y/n) [y]:<br>Cluster to start on boot (Enter &quot;none&quot; to clear) [ocfs2]:<br>Specify heartbeat dead threshold (&gt;=7) [61]:<br>Specify network idle timeout in ms (&gt;=5000) [60000]: 120000<br>
Specify network keepalive delay in ms (&gt;=1000) [2000]:<br>Specify network reconnect delay in ms (&gt;=2000) [2000]:<br>Writing O2CB configuration: OK<br>O2CB cluster ocfs2 already online<br>[root@sysname fs]#<br>##################<br>
TRACE OF ROOT PUTTY LOGIN</p>
<p>[root@sysname ~]#<br>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:03 2008 ...<br>sysname kernel: Heartbeat thread (11) printing last 24 blocking operations (cur = 8):</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:03 2008 ...<br>sysname kernel: Heartbeat thread stuck at waiting for read completion, stuffing current time into that blocker (index 8)</p>

<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:03 2008 ...<br>sysname kernel: Index 9: took 0 ms to do bio alloc read</p>
<p>.<br>.<br>.</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:04 2008 ...<br>sysname kernel: Index 3: took 5240 ms to do waiting for write completion</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:04 2008 ...<br>sysname kernel: Index 4: took 0 ms to do allocating bios for read</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:04 2008 ...<br>sysname kernel: Index 5: took 0 ms to do bio alloc read</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:04 2008 ...<br>sysname kernel: Index 6: took 0 ms to do bio add page read</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:04 2008 ...<br>sysname kernel: Index 7: took 0 ms to do submit_bio for read</p>
<p>Message from <a href="mailto:syslogd@sysname">syslogd@sysname</a> at Fri Aug 22 23:12:04 2008 ...<br>sysname kernel: Index 8: took 120303 ms to do waiting for read completion<br>&nbsp;<br>#############<br>TRACE OF SERIAL CONSOLE:<br>
(11,1):o2hb_write_timeout:269 ERROR: Heartbeat write timeout to device emcpowerb1 after 120000 milliseconds<br>Heartbeat thread (11) printing last 24 blocking operations (cur = 8):<br>Heartbeat thread stuck at waiting for read completion, stuffing current time into that blocker (index 8)<br>
Index 9: took 0 ms to do bio alloc read<br>Index 10: took 0 ms to do bio add page read<br>Index 11: took 0 ms to do submit_bio for read<br>Index 12: took 3025 ms to do waiting for read completion<br>Index 13: took 0 ms to do bio alloc write<br>
Index 14: took 0 ms to do bio add page write<br>Index 15: took 0 ms to do submit_bio for write<br>Index 16: took 0 ms to do checking slots<br>Index 17: took 7221 ms to do waiting for write completion<br>Index 18: took 0 ms to do allocating bios for read<br>
Index 19: took 0 ms to do bio alloc read<br>Index 20: took 0 ms to do bio add page read<br>Index 21: took 0 ms to do submit_bio for read<br>Index 22: took 3892 ms to do waiting for read completion<br>Index 23: took 0 ms to do bio alloc write<br>
Index 0: took 0 ms to do bio add page write<br>Index 1: took 0 ms to do submit_bio for write<br>Index 2: took 0 ms to do checking slots<br>Index 3: took 5240 ms to do waiting for write completion<br>Index 4: took 0 ms to do allocating bios for read<br>
Index 5: took 0 ms to do bio alloc read<br>Index 6: took 0 ms to do bio add page read<br>Index 7: took 0 ms to do submit_bio for read<br>Index 8: took 120303 ms to do waiting for read completion<br>*** ocfs2 is very sorry to be fencing this system by restarting ***<br>
Bootdata ok (command line is ro root=/dev/VolGroup_ID_12182/LogVol1 console=ttyS0,9600n8)<br>&nbsp;<br>&nbsp;<br>################################################################################<br>-----Original Message-----<br>From: <a href="mailto:ocfs2-users-bounces@oss.oracle.com">ocfs2-users-bounces@oss.oracle.com</a> [mailto:<a href="mailto:ocfs2-users-bounces@oss.oracle.com">ocfs2-users-bounces@oss.oracle.com</a>] On Behalf Of Sunil Mushran<br>
Sent: Tuesday, 19 August 2008 3:56 AM<br>To: _Derek Hazell (Internet)<br>Cc: <a href="mailto:ocfs2-users@oss.oracle.com">ocfs2-users@oss.oracle.com</a><br>Subject: Re: [Ocfs2-users] ocfs2 issue? : unexplained reboots of RHEL 4 server (kernel:2.6.9-42.0.2.ELs)<br>
&nbsp;</p>
<p>Configure a netdump or netconsole server. It will catch the relevant </p>
<p>messages.</p>
<p>################################################################################<br></p></div>