<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=us-ascii">
<META content="MSHTML 6.00.2900.3395" name=GENERATOR></HEAD>
<BODY>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008>Greetings,</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>I have 3 Oracle 
RAC&nbsp;clusters running on OCFS2 attached to an HP EVA8000 SAN with 
dm-multipath as my multipath provider.&nbsp; On Saturday, one of the EVA8000 
controllers (active/active) rebooted.&nbsp; Out of my 3 different 
clusters,&nbsp;at least one node each cluster rebooted with the following 
messages:</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>Sep 20 01:19:38 
ausracdb02 kernel:&nbsp; rport-0:0-5: blocked FC remote port time out: saving 
binding<BR>Sep 20 01:19:38 ausracdb02 kernel: lpfc 0000:0e:00.0: 0:0203 Devloss 
timeout on WWPN 50:0:1f:e1:50:b:32:88 NPort xb0c00 Data: x2000008 x7 x7<BR>Sep 
20 01:19:38 ausracdb02 kernel: sd 0:0:3:9: SCSI error: return code = 
0x00010000<BR>Sep 20 01:19:38 ausracdb02 kernel: end_request: I/O error, dev 
sds, sector 58618847<BR>Sep 20 01:19:38 ausracdb02 kernel: device-mapper: 
multipath: Failing path 65:32.<BR>Sep 20 01:19:38 ausracdb02 kernel: sd 0:0:3:9: 
SCSI error: return code = 0x00010000<BR>Sep 20 01:19:38 ausracdb02 kernel: 
end_request: I/O error, dev sds, sector 58618847<BR>Sep 20 01:19:38 ausracdb02 
kernel: sd 0:0:3:9: SCSI error: return code = 0x00010000<BR>Sep 20 01:19:38 
ausracdb02 kernel: end_request: I/O error, dev sds, sector 58618847<BR>Sep 20 
01:19:38 ausracdb02 kernel: sd 0:0:3:9: SCSI error: return code = 
0x00020008<BR>Sep 20 01:19:38 ausracdb02 kernel: end_request: I/O error, dev 
sds, sector 22227855<BR>Sep 20 01:19:38 ausracdb02 kernel: sd 0:0:3:9: SCSI 
error: return code = 0x00020008<BR>Sep 20 01:19:38 ausracdb02 kernel: 
end_request: I/O error, dev sds, sector 1735<BR>Sep 20 01:19:38 ausracdb02 
kernel: sd 0:0:3:9: SCSI error: return code = 0x00020008<BR>Sep 20 01:19:38 
ausracdb02 kernel: end_request: I/O error, dev sds, sector 58618943<BR>Sep 20 
01:19:38 ausracdb02 kernel: sd 0:0:3:9: SCSI error: return code = 
0x00020008<BR>Sep 20 01:19:38 ausracdb02 kernel: end_request: I/O error, dev 
sds, sector 58619935<BR>Sep 20 01:19:38 ausracdb02 kernel:&nbsp; rport-1:0-2: 
blocked FC remote port time out: saving binding<BR>Sep 20 01:19:38 ausracdb02 
multipathd: sdaw: tur checker reports path is down<BR>Sep 20 01:19:38 ausracdb02 
multipathd: checker failed path 67:0 in map limsp<BR>Sep 20 01:19:38 ausracdb02 
kernel: lpfc 0000:0e:00.1: 1:0203 Devloss timeout on WWPN 50:0:1f:e1:50:b:32:89 
NPort x150d00 Data: x2000008 x7 x6<BR>Sep 20 01:19:38 ausracdb02 kernel: sd 
1:0:0:2: SCSI error: return code = 0x00010000<BR>Sep 20 01:19:38 ausracdb02 
kernel: end_request: I/O error, dev sdap, sector 
32776295<BR>&lt;snip&gt;</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>Sep 20 01:21:03 
ausracdb02 kernel: (27,1):o2hb_write_timeout:269 ERROR: Heartbeat write timeout 
to device dm-11 after 120000 milliseconds<BR>Sep 20 01:21:03 ausracdb02 kernel: 
Heartbeat thread (27) printing last 24 blocking operations (cur = 19):<BR>Sep 20 
01:21:03 ausracdb02 kernel: Heartbeat thread stuck at waiting for read 
completion, stuffing current time into that blocker (index 19)<BR>Sep 20 
01:21:03 ausracdb02 kernel: Index 20: took 0 ms to do submit_bio for read<BR>Sep 
20 01:21:03 ausracdb02 kernel: Index 21: took 0 ms to do waiting for read 
completion<BR>Sep 20 01:21:03 ausracdb02 kernel: Index 22: took 0 ms to do bio 
alloc write<BR>Sep 20 01:21:03 ausracdb02 kernel: Index 23: took 0 ms to do bio 
add page write<BR></SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008></SPAN></FONT><FONT 
face=Arial size=2><SPAN class=812463315-22092008></SPAN></FONT><FONT face=Arial 
size=2><SPAN class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>It appears that the 
heartbeat thread just barely timed out, as the controller was in the process of 
coming back up.&nbsp; My questions are:</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>1) Why did only some 
nodes in each cluster reboot?</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>2) Why was there a 
timeout when the multipathing should have kept the filesystems 
up?</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>3) Is there a way to 
increase the heartbeat timeout above 120000 milliseconds?</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>My 
config:</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>Kernel: 
2.6.18-53.el5 x86_64 on RHEL 5.1</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>OCFS2: 
ocfs2-2.6.18-53.el5-1.2.8-2.el5</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008>O2CB:</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>[root@ausracdb02 ~]# 
/etc/init.d/o2cb status<BR>Module "configfs": Loaded<BR>Filesystem "configfs": 
Mounted<BR>Module "ocfs2_nodemanager": Loaded<BR>Module "ocfs2_dlm": 
Loaded<BR>Module "ocfs2_dlmfs": Loaded<BR>Filesystem "ocfs2_dlmfs": 
Mounted<BR>Checking O2CB cluster racdb: Online<BR>&nbsp; Heartbeat dead 
threshold: 61<BR>&nbsp; Network idle timeout: 60000<BR>&nbsp; Network keepalive 
delay: 2000<BR>&nbsp; Network reconnect delay: 2000<BR>Checking O2CB heartbeat: 
Active<BR></SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN class=812463315-22092008>Cluster1&nbsp;has 
two nodes, Cluster2&nbsp;has two nodes, and Cluster3&nbsp;has four nodes.&nbsp; 
Cluster1 and Cluster2 had one node reboot while Cluster3 had two nodes 
reboot.</SPAN></FONT></DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008></SPAN></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2><SPAN 
class=812463315-22092008>TIA,<BR><BR>Daniel</DIV></SPAN></FONT><br><br><table bgcolor=white style="color:black"><tr><td><br><br>
______________________________________________________________________<br>
This&nbsp;email&nbsp;transmission&nbsp;and&nbsp;any&nbsp;documents,&nbsp;files&nbsp;or&nbsp;previous&nbsp;email<br>
messages&nbsp;attached&nbsp;to&nbsp;it&nbsp;may&nbsp;contain&nbsp;information&nbsp;that&nbsp;is&nbsp;confidential&nbsp;or<br>
legally&nbsp;privileged.&nbsp;If&nbsp;you&nbsp;are&nbsp;not&nbsp;the&nbsp;intended&nbsp;recipient&nbsp;or&nbsp;a&nbsp;person<br>
responsible&nbsp;for&nbsp;delivering&nbsp;this&nbsp;transmission&nbsp;to&nbsp;the&nbsp;intended&nbsp;recipient,<br>
you&nbsp;are&nbsp;hereby&nbsp;notified&nbsp;that&nbsp;you&nbsp;must&nbsp;not&nbsp;read&nbsp;this&nbsp;transmission&nbsp;and<br>
that&nbsp;any&nbsp;disclosure,&nbsp;copying,&nbsp;printing,&nbsp;distribution&nbsp;or&nbsp;use&nbsp;of&nbsp;this<br>
transmission&nbsp;is&nbsp;strictly&nbsp;prohibited.&nbsp;If&nbsp;you&nbsp;have&nbsp;received&nbsp;this&nbsp;transmission<br>
in&nbsp;error,&nbsp;please&nbsp;immediately&nbsp;notify&nbsp;the&nbsp;sender&nbsp;by&nbsp;telephone&nbsp;or&nbsp;return&nbsp;email<br>
and&nbsp;delete&nbsp;the&nbsp;original&nbsp;transmission&nbsp;and&nbsp;its&nbsp;attachments&nbsp;without&nbsp;reading<br>
or&nbsp;saving&nbsp;in&nbsp;any&nbsp;manner.<br>
</td></tr></table></BODY></HTML>