<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7233.28">
<TITLE>Heartbeat threshold, misscount &amp; hangcheck co-ordination</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/rtf format -->

<P><FONT SIZE=2 FACE="Arial">Hi,</FONT>
</P>

<P><FONT SIZE=2 FACE="Arial">Having configured 2-node RAC on OCFS2 I'm trying to establish the best figure for the heartbeat threshold. I've seen a few threads on this, but they don't address the other timeout values in the system.When configuring OCFS 1, I didn't notice a heartbeat threshold: either I missed it completely or it is a new function.</FONT></P>

<P><FONT SIZE=2 FACE="Arial">With the heartbeat default at 7 (2 second ticks) that puts a self-fencing situation at (threshold -1) *2&nbsp; = 12 seconds. </FONT></P>

<P><FONT SIZE=2 FACE="Arial">However CRS has a misscount parameter default of 60 (crsctl get css misscount), which is the time that a node will take before evicting another node from the cluster when it fails to respond across the interconnect.</FONT></P>

<P><FONT SIZE=2 FACE="Arial">Additionally, the hangcheck-timer module must be co-ordinated with this misscount parameter to ensure that if a hung node revives itself after being evicted from the cluster, it reboots to avoid corrupting the database during an attempt to resume previous transactions.</FONT></P>

<P><FONT SIZE=2 FACE="Arial">It strikes me that the heartbeat threshold should probably also be co-ordinated with these other 2 parameters: ie, if a node self-fences then the rest of the cluster should be evicting it at the same time, not waiting a further 45 seconds.</FONT></P>

<P><FONT SIZE=2 FACE="Arial">While all the Oracle documentation for 9i RAC and CM on OCFS (1) did not recommend a lower value than 60 seconds for misscount, I found that a bit high in terms of cluster timeouts for a TAF scenario, especially as it also affects TCP timeouts (particularly in 9i RAC where there were no virtual IPs). After some conversation via a TAR, Oracle did state that a lower value was acceptable, as long as premature cluster evictions were not occurring.</FONT></P>

<P><FONT SIZE=2 FACE="Arial">So the question is, am I right in setting the heartbeat threshold to match the misscount parameter? The value I am thinking of is about 30 seconds.</FONT></P>

<P><FONT SIZE=2 FACE="Arial">Thanks,</FONT>

<BR><FONT SIZE=2 FACE="Arial">Gavin. </FONT>
</P>
<BR>

</BODY>
</HTML>