<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<META content="MSHTML 6.00.2800.1561" name=GENERATOR>
<STYLE></STYLE>
</HEAD>
<BODY bgColor=#ffffff>
<DIV><FONT face=Arial size=2>Luis.</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>Things can be worst because we can run 3 
clusterware at the same time on the same Linux:</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>- CRS (oracle RAC)</FONT></DIV>
<DIV><FONT face=Arial size=2>- O2CB</FONT></DIV>
<DIV><FONT face=Arial size=2>- Heartbeat2</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>Problem is that each system makes independent 
decisions and independent selection of the masters and slaves, and decide _to 
fence _ or _to suicide_ independently.</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>It makes a common case, when, if we have a SAN 
service interruption or IP network interruption (for a short time), different 
components makes a different decisions and fence themself or each other (btw, in 
case of CRS, fencing is a feature of CSS and not a CRS).</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>Of these 3 clusterwares, only heartbeat (or 
heartbeat2) is reliable. Both o2cb and CRS uses a very primitive heartbeat 
without redundancy and with bad initial parameters, and&nbsp;both makes a wrong 
decisions easily.</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>Fortunately, SuSe10&nbsp; have integrated O2CB + 
heartbeat2 version (I am not sure how stable is it, but stability is a matter of 
time only) and Oracle CRS (CSS) is conservative enough to prevent many 
unnecessary reboots. But you are right - all this mess don't increase overall 
reliability.</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>OCFv2 is a great thing with a great potential (not 
revealed yet), esp. counting on heartbeat2 integration and datavolume options 
(and because it is well tested with Oracle). But it really require some 
improvements to became a production-grade thing. Some improvemments are cheap 
and safe (such as multiple interfaces for heartbeat - I always guess what is the 
problem to implement such simple and standard thing), other are already in 
progress (heartbeat2 integration), and some require careful design and testing 
(improved and smart fencing policy).</FONT></DIV>
<DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
<DIV><FONT face=Arial size=2>PS. I really watched such thing as independent self 
-fencing. We have a RAC cluster in the lab, running on iSCSI with the same 
switch for SAN and interconnect (generally I use cross cable for interconnect 
but I used switch connection in this case). Once apon a time we had UPS glitch 
and switch rebooted. </FONT></DIV>
<DIV><FONT face=Arial size=2>All nodes in cluster rebooted - one becasue 'OCFS 
fence himself' and other because 'CSS fence himself' (through no one non-cluster 
system even noticed this reboot). heartbeat cluster was not affected as well 
(because of redundant heartbeat - eth0, eth1 , /dev/ttyS0). So multiple 
self-fencing is a real problem.</FONT></DIV>
<BLOCKQUOTE 
style="PADDING-RIGHT: 0px; PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: #000000 2px solid; MARGIN-RIGHT: 0px">
  <DIV style="FONT: 10pt arial">----- Original Message ----- </DIV>
  <DIV 
  style="BACKGROUND: #e4e4e4; FONT: 10pt arial; font-color: black"><B>From:</B> 
  <A title=lfreitas34@yahoo.com href="mailto:lfreitas34@yahoo.com">Luis 
  Freitas</A> </DIV>
  <DIV style="FONT: 10pt arial"><B>To:</B> <A title=Sunil.Mushran@oracle.com 
  href="mailto:Sunil.Mushran@oracle.com">Sunil Mushran</A> </DIV>
  <DIV style="FONT: 10pt arial"><B>Cc:</B> <A title=ocfs2-users@oss.oracle.com 
  href="mailto:ocfs2-users@oss.oracle.com">ocfs2-users@oss.oracle.com</A> </DIV>
  <DIV style="FONT: 10pt arial"><B>Sent:</B> Monday, April 09, 2007 4:54 
PM</DIV>
  <DIV style="FONT: 10pt arial"><B>Subject:</B> Re: [Ocfs2-users] Catatonic 
  nodes under SLES10</DIV>
  <DIV><BR></DIV>
  <DIV>Sunil,</DIV>
  <DIV>&nbsp;</DIV>
  <DIV>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;First I want to make clear that I do think 
  that Oracle Cluster File System provides a great value for Oracle Linux 
  customers and I do know that one has to pay top dollar for equivalent 
  functionality on other platforms, for example&nbsp;Veritas Storage Foundation, 
  and others offered by IBM and HP.</DIV>
  <DIV>&nbsp;</DIV>
  <DIV>&nbsp;&nbsp;&nbsp; But, the Linux platform is the only one where there 
  are two independent clusterwares running (O2CB and CRS). On all the other 
  platforms, as far as&nbsp;I know, when there is a second clusterware on the 
  machine, CRS acts as a client to it.&nbsp;Use of a uncertified clusterware 
  stack independently and concurrently with CRS is not&nbsp;even allowed on 
  other platforms.</DIV>
  <DIV>&nbsp;</DIV>
  <DIV>&nbsp;&nbsp;&nbsp;&nbsp; This is kind of funny because both o2cb and crs 
  are&nbsp;Oracle products. </DIV>
  <DIV><BR>Regards,</DIV>
  <DIV>Luis Freitas</DIV>
  <DIV><BR><B><I>Sunil Mushran &lt;Sunil.Mushran@oracle.com&gt;</I></B> 
  wrote:</DIV>
  <BLOCKQUOTE class=replbq 
  style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: #1010ff 2px solid">Fencing 
    is not a fs operation but a cluster operation. The fs is only a 
    <BR>client<BR>of the cluster stack.<BR><BR>Alexei_Roudnev wrote:<BR>&gt; It 
    all depends of the usage scenario.<BR>&gt;<BR>&gt; Tipical usage is, for 
    example:<BR>&gt;<BR>&gt; (1) Shared application home. Writes happens once / 
    week during maintanance,<BR>&gt; otehr time files are opened for reading 
    only. Few logfiles<BR>&gt; can be redirected if required.<BR>&gt;<BR>&gt; 
    So, when server see a problems, it HAD NOT any pending IO for a 3 days - 
    so<BR>&gt; what the purpose of reboot? It 100% knows that NO ANY IO<BR>&gt; 
    is pending, and other nodes have not any IO pending as well.<BR>&gt;<BR>&gt; 
    (2) Backup storage for the RAC. FS is not opened 90% of the time. At 
    night,<BR>&gt; one node opens it and creates a few files. Other node have 
    not any pending<BR>&gt; IO on this FS. Fencing passive node (which dont run 
    any backup) is not<BR>&gt; useful because it HAD NOT ANY PENDING IO for a 
    few hours.<BR>&gt;<BR>&gt; (3) WEB server. 10 nodes, 1 only makes updates. 
    The same - most nodes have<BR>&gt; not any pending IO.<BR>&gt;<BR>&gt; Of 
    course there is always a risk of FS corruption in the clusters. Any 
    layer<BR>&gt; can keep pending IO forever (I saw Linux kernel keeping it for 
    10 minutes).<BR>&gt; Problem is that in such cases software fencing can't 
    help as well because<BR>&gt; node is half-dead and can't detect it's own 
    status.<BR>&gt;<BR>&gt; So, the key point here is not in _fence for each 
    ap-chi_ but _keep system<BR>&gt; without pending writes as long as possible 
    and make clean transition between<BR>&gt; active write/active read / passive 
    states. Then you can avoid self-fencing<BR>&gt; in 90% cases (because of 
    server wil be in passive or active reads state). I<BR>&gt; mounT FS but 
    don't cd into it, or just CD but dont read - passive status. I<BR>&gt; read 
    file - active read for 1 minute, tbhnen flush buffers so that it is 
    in<BR>&gt; passive mode again. I began top write - switch system to write 
    mode. I did<BR>&gt; not write blocks for 1 minute - flush everything, wait 1 
    more minute and<BR>&gt; switch to passive 
    mode.<BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt; ----- Original Message ----- 
    <BR>&gt; From: "Sunil Mushran" <SUNIL.MUSHRAN@ORACLE.COM><BR>&gt; To: "David 
    Miller" <SYSLOG@D.SPARKS.NET><BR>&gt; Cc: 
    <OCFS2-USERS@OSS.ORACLE.COM><BR>&gt; Sent: Monday, April 09, 2007 3:18 
    PM<BR>&gt; Subject: Re: [Ocfs2-users] Catatonic nodes under 
    SLES10<BR>&gt;<BR>&gt;<BR>&gt; <BR>&gt;&gt; For io fencing to be graceful, 
    one requires better hardware. Read<BR>&gt;&gt; <BR>&gt; expensive.<BR>&gt; 
    <BR>&gt;&gt; As in, switches where one can choke off all the ios to the 
    storage from<BR>&gt;&gt; a specific<BR>&gt;&gt; 
    node.<BR>&gt;&gt;<BR>&gt;&gt; Read the following for a discussion on force 
    umounts. In short, not<BR>&gt;&gt; possible as yet.<BR>&gt;&gt; 
    http://lwn.net/Articles/192632/<BR>&gt;&gt;<BR>&gt;&gt; Readonly does not 
    work wrt to io fencing. As in, ro only stops any new<BR>&gt;&gt; 
    userspace<BR>&gt;&gt; writes but cannot stop pending writes. And writes 
    could be lodged in any<BR>&gt;&gt; io layer.<BR>&gt;&gt; A reboot is the 
    cheapest way to avoid corruption. (While a reboot is<BR>&gt;&gt; painful, it 
    is<BR>&gt;&gt; much less painful than a corrupted 
    fs.)<BR>&gt;&gt;<BR>&gt;&gt; With 1.2.5 you should be able to increase the 
    network timeouts and<BR>&gt;&gt; hopefully avoid<BR>&gt;&gt; the 
    problem.<BR>&gt;&gt;<BR>&gt;&gt; David Miller wrote:<BR>&gt;&gt; 
    <BR>&gt;&gt;&gt; Alexei_Roudnev wrote:<BR>&gt;&gt;&gt; <BR>&gt;&gt;&gt;&gt; 
    Did you checked<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; 
    /proc/sys/kernel/panic 
    /proc/sys/kernel/panic_on_oops<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; 
    system variables?<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; <BR>&gt;&gt;&gt; 
    No. Maybe I'm missing something here.<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; Are 
    you saying that a panic/freeze/reboot is the 
    expected/desirable<BR>&gt;&gt;&gt; behavior? That nothing more graceful 
    could be done, like to just<BR>&gt;&gt;&gt; dismount the ocfs2 file systems, 
    or force them to a read-only mount or<BR>&gt;&gt;&gt; something like that? 
    We have to reload the kernel?<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; 
    Thanks,<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; --- 
    David<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; <BR>&gt;&gt;&gt;&gt; ----- Original 
    Message ----- From: "David Miller" <SYSLOG@D.SPARKS.NET><BR>&gt;&gt;&gt;&gt; 
    To: <OCFS2-USERS@OSS.ORACLE.COM><BR>&gt;&gt;&gt;&gt; Sent: Monday, April 02, 
    2007 9:01 AM<BR>&gt;&gt;&gt;&gt; Subject: [Ocfs2-users] Catatonic nodes 
    under SLES10<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; <BR>&gt;&gt;&gt; 
    [snip]<BR>&gt;&gt;&gt;<BR>&gt;&gt;&gt; <BR>&gt;&gt;&gt;&gt; Both servers 
    will be connected to a dual-host external RAID system.<BR>&gt;&gt;&gt;&gt; 
    I've setup ocfs2 on a couple of test systems and everything 
    appears<BR>&gt;&gt;&gt;&gt; to work 
    fine.<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; Until, that is, one of the 
    systems loses network connectivity.<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; 
    When the systems can't talk to each other anymore, but the 
    disk<BR>&gt;&gt;&gt;&gt; heartbeat is still alive, the high numbered node 
    goes catatonic.<BR>&gt;&gt;&gt;&gt; Under SLES 9 it fenced itself off with a 
    kernel panic; under 10 it<BR>&gt;&gt;&gt;&gt; simply stops responding to 
    network or console. A power cycling is<BR>&gt;&gt;&gt;&gt; required to bring 
    it back up.<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; The desired behavior 
    would be for the higher numbered node to lose<BR>&gt;&gt;&gt;&gt; access to 
    the ocfs2 file system(s). I don't really care whether it<BR>&gt;&gt;&gt;&gt; 
    would simply timeout ala stale NFS mounts, or immediately error 
    like<BR>&gt;&gt;&gt;&gt; access to non-existent 
    files.<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt;<BR>&gt;&gt;&gt;&gt; 
    <BR>&gt;&gt;&gt; 
    _______________________________________________<BR>&gt;&gt;&gt; Ocfs2-users 
    mailing list<BR>&gt;&gt;&gt; Ocfs2-users@oss.oracle.com<BR>&gt;&gt;&gt; 
    http://oss.oracle.com/mailman/listinfo/ocfs2-users<BR>&gt;&gt;&gt; 
    <BR>&gt;&gt; _______________________________________________<BR>&gt;&gt; 
    Ocfs2-users mailing list<BR>&gt;&gt; Ocfs2-users@oss.oracle.com<BR>&gt;&gt; 
    http://oss.oracle.com/mailman/listinfo/ocfs2-users<BR>&gt;&gt;<BR>&gt;&gt; 
    <BR>&gt;<BR>&gt; 
    <BR><BR>_______________________________________________<BR>Ocfs2-users 
    mailing 
    list<BR>Ocfs2-users@oss.oracle.com<BR>http://oss.oracle.com/mailman/listinfo/ocfs2-users<BR></BLOCKQUOTE><BR>
  <P>
  <HR SIZE=1>
  <A 
  href="http://us.rd.yahoo.com/evt=49938/*http://tools.search.yahoo.com/toolbar/features/mail/">Never 
  miss an email again!<BR>Yahoo! Toolbar</A> alerts you the instant new Mail 
  arrives.<A 
  href="http://us.rd.yahoo.com/evt=49937/*http://tools.search.yahoo.com/toolbar/features/mail/"> 
  Check it out.</A>
  <P>
  <HR>

  <P></P>_______________________________________________<BR>Ocfs2-users mailing 
  list<BR>Ocfs2-users@oss.oracle.com<BR>http://oss.oracle.com/mailman/listinfo/ocfs2-users</BLOCKQUOTE></BODY></HTML>