<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";
        color:#000066;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";
        color:#000066;}
tt
        {mso-style-priority:99;
        font-family:"Courier New";}
span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:Consolas;
        color:#000066;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page Section1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body bgcolor="#FFFFCC" lang=EN-GB link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Many thanks Marcos.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Kind regards<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Paul Fretter<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p>&nbsp;</o:p></span></p>

<div style='border:none;border-left:solid blue 1.5pt;padding:0cm 0cm 0cm 4.0pt'>

<div>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm'>

<p class=MsoNormal><b><span lang=EN-US style='font-size:10.0pt;font-family:
"Tahoma","sans-serif";color:windowtext'>From:</span></b><span lang=EN-US
style='font-size:10.0pt;font-family:"Tahoma","sans-serif";color:windowtext'>
Marcos E. Matsunaga [mailto:Marcos.Matsunaga@oracle.com] <br>
<b>Sent:</b> 09 October 2007 13:31<br>
<b>To:</b> paul fretter (TOC)<br>
<b>Cc:</b> ocfs2-users@oss.oracle.com<br>
<b>Subject:</b> Re: [Ocfs2-users] RE: Access to OCFS2 volume paused when a node
crashes<o:p></o:p></span></p>

</div>

</div>

<p class=MsoNormal><o:p>&nbsp;</o:p></p>

<p class=MsoNormal><tt><span style='font-size:10.0pt'>You may want to try to
increase the network timeout. You will have to do it on all nodes.</span></tt><span
style='font-size:10.0pt;font-family:"Courier New"'><br>
<br>
<tt>See the FAQ <a
href="http://oss.oracle.com/projects/ocfs2/dist/documentation/ocfs2_faq.html#TIMEOUT">http://oss.oracle.com/projects/ocfs2/dist/documentation/ocfs2_faq.html#TIMEOUT</a>&nbsp;
with special attention to #104 and 105.</tt><br>
<br>
<br>
<br>
</span><o:p></o:p></p>

<pre>Regards,<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>Marcos Eduardo Matsunaga<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>Oracle USA<o:p></o:p></pre><pre>Linux Engineering<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre><o:p>&nbsp;</o:p></pre>

<p class=MsoNormal><br>
<br>
paul fretter (TOC) wrote: <o:p></o:p></p>

<pre>To clarify,<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>The host &quot;node1&quot; is the OCFS node 0 in the config file.<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>The log entries are from another system in the cluster.<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>Kind regards<o:p></o:p></pre><pre>Paul<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>  <o:p></o:p></pre>

<blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'><pre>-----Original Message-----<o:p></o:p></pre><pre>From: paul fretter (TOC)<o:p></o:p></pre><pre>Sent: 09 October 2007 11:41<o:p></o:p></pre><pre>To: <a
href="mailto:ocfs2-users@oss.oracle.com">ocfs2-users@oss.oracle.com</a><o:p></o:p></pre><pre>Subject: Access to OCFS2 volume paused when a node crashes<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>There is a node (node1) on our cluster that for some reason hangs<o:p></o:p></pre><pre>    <o:p></o:p></pre></blockquote>

<pre>every<o:p></o:p></pre><pre>  <o:p></o:p></pre>

<blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'><pre>now and again, but it seems that when it happens it also pauses access<o:p></o:p></pre><pre>to the OCFS2 volume for the other nodes.<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>We are running the latest version of OCFS2 and the tools, on RHEL4<o:p></o:p></pre><pre>(x86_64) with kernel 2.6.9-42.  All nodes area connected by<o:p></o:p></pre><pre>fibrechannel to a common LUN for data sharing.<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>I guess there may be something I can do with configuring timeouts<o:p></o:p></pre><pre>etc(?), but I thought I'd check with this list first.  Here is the<o:p></o:p></pre><pre>relevant info from /va/log/messages<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>Oct  9 11:24:41 jic55124 kernel: o2net: connection to node node1 (num<o:p></o:p></pre><pre>0) at 10.1 0.10.1:7777 has been idle for 10.0 seconds, shutting it<o:p></o:p></pre><pre>down.<o:p></o:p></pre><pre>Oct  9 11:24:41 jic55124 kernel: (0,1):o2net_idle_timer:1418 here are<o:p></o:p></pre><pre>some times  that might help debug the situation: (tmr<o:p></o:p></pre><pre>    <o:p></o:p></pre></blockquote>

<pre>1191925471.993435<o:p></o:p></pre><pre>  <o:p></o:p></pre>

<blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'><pre>now 1191925481.9942 92 dr 1191925471.993425 adv<o:p></o:p></pre><pre>1191925471.993436:1191925471.993437 func (98e2d068:5 07)<o:p></o:p></pre><pre>1191924562.14841:1191924562.14844)<o:p></o:p></pre><pre>Oct  9 11:24:41 jic55124 kernel: o2net: no longer connected to node<o:p></o:p></pre><pre>node1 (num 0 ) at 10.10.10.1:7777<o:p></o:p></pre><pre>Oct  9 11:24:41 jic55124 kernel: (727,3):dlm_do_master_request:1418<o:p></o:p></pre><pre>ERROR: link to 0 went down!<o:p></o:p></pre><pre>Oct  9 11:24:41 jic55124 kernel: (727,3):dlm_get_lock_<a
href="resource:995">resource:995</a><o:p></o:p></pre><pre>ERROR: status  = -112<o:p></o:p></pre><pre>[root@jic55124 ~]# tail /var/log/messages<o:p></o:p></pre><pre>Oct  9 11:28:48 jic55124 kernel: (856,2):dlm_get_lock_<a
href="resource:995">resource:995</a><o:p></o:p></pre><pre>ERROR: status = -107<o:p></o:p></pre><pre>Oct  9 11:28:48 jic55124 kernel: (856,2):dlm_do_master_request:1418<o:p></o:p></pre><pre>ERROR: link to 0 went down!<o:p></o:p></pre><pre>Oct  9 11:28:48 jic55124 kernel: (856,2):dlm_get_lock_<a
href="resource:995">resource:995</a><o:p></o:p></pre><pre>ERROR: status = -107<o:p></o:p></pre><pre>Oct  9 11:33:42 jic55124 kernel: (865,0):dlm_get_lock_<a
href="resource:921">resource:921</a><o:p></o:p></pre><pre>6B13C23CB44C4D888150894FE4D35D4E:M000000000000000000007571339968: at<o:p></o:p></pre><pre>least one node (0) torecover before lock mastery can begin<o:p></o:p></pre><pre>Oct  9 11:33:42 jic55124 kernel: (3765,1):ocfs2_dlm_eviction_cb:119<o:p></o:p></pre><pre>device (8,80): dlm has evicted node 0<o:p></o:p></pre><pre>Oct  9 11:33:43 jic55124 kernel: (865,0):dlm_get_lock_<a
href="resource:976">resource:976</a><o:p></o:p></pre><pre>6B13C23CB44C4D888150894FE4D35D4E:M000000000000000000007571339968: at<o:p></o:p></pre><pre>least one node (0) torecover before lock mastery can begin<o:p></o:p></pre><pre>Oct  9 11:33:46 jic55124 kernel: (727,3):dlm_restart_lock_mastery:1301<o:p></o:p></pre><pre>ERROR: node down! 0<o:p></o:p></pre><pre>Oct  9 11:33:46 jic55124 kernel:<o:p></o:p></pre><pre>    <o:p></o:p></pre></blockquote>

<pre>(727,3):dlm_wait_for_lock_mastery:1118<o:p></o:p></pre><pre>  <o:p></o:p></pre>

<blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'><pre>ERROR: status = -11<o:p></o:p></pre><pre>Oct  9 11:33:48 jic55124 kernel: (865,1):ocfs2_replay_journal:1167<o:p></o:p></pre><pre>Recovering node 0 from slot 5 on device (8,80)<o:p></o:p></pre><pre>Oct  9 11:33:50 jic55124 kernel: kjournald starting.  Commit interval<o:p></o:p></pre><pre>    <o:p></o:p></pre></blockquote>

<pre>5<o:p></o:p></pre><pre>  <o:p></o:p></pre>

<blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'><pre>seconds<o:p></o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre><o:p>&nbsp;</o:p></pre><pre>Many thanks<o:p></o:p></pre><pre>Paul Fretter<o:p></o:p></pre><pre>    <o:p></o:p></pre></blockquote>

<pre><o:p>&nbsp;</o:p></pre><pre>_______________________________________________<o:p></o:p></pre><pre>Ocfs2-users mailing list<o:p></o:p></pre><pre><a
href="mailto:Ocfs2-users@oss.oracle.com">Ocfs2-users@oss.oracle.com</a><o:p></o:p></pre><pre><a
href="http://oss.oracle.com/mailman/listinfo/ocfs2-users">http://oss.oracle.com/mailman/listinfo/ocfs2-users</a><o:p></o:p></pre><pre>  <o:p></o:p></pre></div>

</div>

</body>

</html>