<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <meta http-equiv="content-type" content="text/html;
      charset=ISO-8859-1">
  </head>
  <body bgcolor="#ffffff" text="#000000">
    <font size="+1">I have been working on trying to convince Mgmt at
      work that we want to go to OCFS2 away from NFS for the sharing of
      the Application Layer of our Oracle EBS (Enterprise Business
      Suite), and for just general "Backup Share", but general
      instability in my setup has dissuaded me to recommend it. <br>
      <br>
      I have a mixture of 1.4.7 (EL 5.3) and 1.6.3 (EL 5.7 + UEK) and
      something as simple as an umount has triggered random Node
      reboots, even on nodes that have Other OCFS2 mounts not shared by
      the rebooting nodes. <br>
      You see the problem I have is that I have disparate hardware and
      some of these servers are even VM's. <br>
      <br>
      Several documents state that nodes have to be somewhat equal of
      power and specs and in my case that will never be. <br>
      Unfortunately for me, I have had several other events of random
      Fencing that have been unexplained by common checks. <br>
      i.e. My Network has never been the problem yet one server may see
      another one go away when all of the other services on that node
      may be running perfectly fine. I can only surmise that the reason
      why that may have been is because of an elevated load on the
      server that starved the Heartbeat process preventing it from
      sending Network packets to other nodes. <br>
      <br>
    </font><font size="+1">My config has about 40 Nodes on it, </font><font
      size="+1">I have 4 or 5 different shared LUNs out of our SAN and
      not all servers share all Mounts. <br>
      meaning&nbsp; only 10 or 12 share one LUN, 8 or 9 share another and 2
      or 3 share a third, unfortunately the complexity is such that a
      server may intersect with some of the servers but not all. &nbsp; &nbsp; <br>
      perhaps a change in my config to create separate clusters may be
      the solution but only if a node can be part of multiple clusters:
      <br>
      <br>
      <i><small>node:<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_port = 7777<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_address = 172.20.16.151<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; number = 1<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; name = txri-oprdracdb-1.tomkinsbp.com<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cluster = ocfs2-back<br>
          <br>
          node:<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_port = 7777<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_address = 172.20.16.152<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; number = 2<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; name = txri-oprdracdb-2.tomkinsbp.com<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cluster = ocfs2-back<br>
          <br>
          node:<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_port = 7777<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_address = 10.30.12.172<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; number = 4 <br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; name = txri-util01.tomkinsbp.com<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cluster = ocfs2-util, ocfs2-back<br>
          node:<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_port = 7777<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ip_address = 10.30.12.94<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; number = 5<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; name = txri-util02.tomkinsbp.com<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cluster = ocfs2-util, ocfs2-back <br>
          <br>
          cluster:<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node_count = 2<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; name = ocfs2-back<br>
          <br>
          cluster:<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; node_count = 2<br>
          &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; name = ocfs2-util<br>
        </small></i><br>
      Is this even Legal, or can it be done some other way ? <br>
      or is this done based on the Different DOMAINS that are created
      once a mount is done .<br>
      <br>
      <br>
      How can I make the cluster more stable ? and Why does a node fence
      itself on the cluster even if it does Not have any locks on the
      shared LUN ? It seems to be that the node may be "fenceable"
      simply by having the OCFS2 services turned ON, without a mount . <br>
      is this correct ? <br>
      <br>
      Another question I have been having as well is:&nbsp; can the Fencing
      method be other than Panic or restart ? Can a third party or a
      Userland event be triggered to recover from what may be construed
      by the "Heartbeat" or "Network tests" &nbsp; as a downed node ? <br>
      <br>
      Thanks for any of the help you can give me. <br>
      <br>
      <br>
    </font>
    <div class="moz-signature">-- <br>
      <bold>Jorge Adrian Salaices</bold><br>
      Sr. Linux Engineer<br>
      <bold>Tomkins Building Products</bold><br>
      <br>
    </div>
  </body>
</html>