<div> <font face="Arial, Helvetica, sans-serif">I checked the logs now in the hanged machine, this is what was written there priror to the hang:<br>
<br>
Jul&nbsp; 7 23:35:14 ocfs2Server kernel: [159179.624911] ocfs2_dlm: Nodes in domain ("6A468A219FF141429D2BAFF54FA8D514"): 1<br>
Jul&nbsp; 7 23:35:14 ocfs2Server kernel: [159179.625090] (9464,0):ocfs2_find_slot:502 slot 1 is already allocated to this node!<br>
Jul&nbsp; 7 23:35:14 ocfs2Server kernel: [159179.630086] (9464,3):ocfs2_check_volume:2270 File system was not unmounted cleanly, recovering volume.<br>
Jul&nbsp; 7 23:35:14 ocfs2Server kernel: [159179.686060] kjournald2 starting: pid 9471, dev dm-5:25, commit interval 5 seconds<br>
Jul&nbsp; 7 23:35:14 ocfs2Server kernel: [159179.687710] ocfs2: Mounting device (253,5) on (node 1, slot 1) with ordered data mode.<br>
Jul&nbsp; 7 23:35:14 ocfs2Server kernel: [159179.688139] (9473,1):ocfs2_replay_journal:1593 Recovering node 0 from slot 0 on device (253,5)<br>
Jul&nbsp; 7 23:35:17 ocfs2Server kernel: [159182.532458] kjournald2 starting: pid 9485, dev dm-5:24, commit interval 5 seconds<br>
Jul&nbsp; 7 23:35:17 ocfs2Server kernel: [159182.591988] (9473,2):ocfs2_begin_quota_recovery:374 Beginning quota recovery in slot 0<br>
Jul&nbsp; 7 23:35:18 ocfs2Server kernel: [159183.125091] (4797,2):ocfs2_finish_quota_recovery:564 Finishing quota recovery in slot 0<br>
Jul&nbsp; 8 20:39:13 ocfs2Server syslogd 1.5.0#5: restart.<br>
<br>
I am going to install netconsole and try again.<br>
<br>
<br>
</font></div>
-----Original Message-----<br>
From: Sunil Mushran &lt;sunil.mushran@oracle.com&gt;<br>
To: sylarrrrrrr@aim.com<br>
Cc: ocfs2-users@oss.oracl
e.com<br>
Sent: Wed, Jul 8, 2009 1:25 am<br>
Subject: Re: [Ocfs2-users] umount hang + high CPU<br>
<br>






<div id="AOLMsgPart_0_2c2146f4-d5df-450a-97f8-d40e8489dc16" style="margin: 0px; font-family: Tahoma,Verdana,Arial,Sans-Serif; font-size: 12px; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);">

Well, that means the hung node exited the dlm domain successfully.&nbsp;<br>

This is not a dlm issue.&nbsp;<br>
&nbsp;<br>

Run alt-sysrq-t on the hung node. If you have netconsole setup you&nbsp;<br>

should see a log.&nbsp;<br>
&nbsp;<br>

<a href="mailto:sylarrrrrrr@aim.com">sylarrrrrrr@aim.com</a> wrote:&nbsp;<br>

&gt; Aha, ok, I don't see the oops, or anything about the hang in the logs. 
&gt; The hanged machine still reply to pings.&nbsp;<br>

&gt;&nbsp;<br>

&gt; The story now is , that I thought that I can use the :&nbsp;<br>

&gt;&nbsp;<br>

&gt;  tunefs.ocfs2  --cloned-volume /dev/mylvmsnapshot&nbsp;<br>

&gt;&nbsp;<br>

&gt; in order to mount the snapshot... (big mistake)...well I did manage to 
&gt; mount the snapshot, but as soon as&nbsp;<br>

&gt; I umounted it, the umount process hanged, and then the whole machine 
&gt; hanged, except that it responds to pings.&nbsp;<br>

&gt;&nbsp;<br>

&gt;&nbsp;<br>

&gt; Now, I have downloaded the ocfs2-1.4-userguide.pdf , and went to 
&gt; section 'f) DLM Debuging', and tried the commands&nbsp;<br>

&gt; there on the still working node, but only 'cat 
&gt; /sys/kernel/debug/o2dlm/*/dlm_state' worked and produced the following 
&gt; output:&nbsp;<br>

&gt;&nbsp;<br>

&gt; Domain: 
1ACAFCEE7ACA47C089069117560F5C91  Key: 0xb9d649ba&nbsp;<br>

&gt; Thread Pid: 5664  Node: 0  State: JOINED&nbsp;<br>

&gt; Number of Joins: 1  Joining Node: 255&nbsp;<br>

&gt; Domain Map: 0&nbsp;<br>

&gt; Live Map: 0&nbsp;<br>

&gt; Lock Resources: 51168 (180512)&nbsp;<br>

&gt; MLEs: 0 (291689)&nbsp;<br>

&gt;   Blocking: 0 (139713)&nbsp;<br>

&gt;   Mastery: 0 (151976)&nbsp;<br>

&gt;   Migration: 0 (0)&nbsp;<br>

&gt; Lists: Dirty=Empty  Purge=InUse  PendingASTs=Empty  PendingBASTs=Empty&nbsp;<br>

&gt; Purge Count: 8  Refs: 51169&nbsp;<br>

&gt; Dead Node: 255&nbsp;<br>

&gt; Recovery Pid: 5665  Master: 255  State: INACTIVE&nbsp;<br>

&gt; Recovery Map:&nbsp;<br>

&gt; Recovery Node State:&nbsp;<br>

&gt;&nbsp;<br>

&gt; the other commands:&nbsp;<br>

&gt; debugfs.ocfs2 –R “fs_locks –B” /dev/drbd0&nbsp;<br>

&gt; debugfs.ocfs2 –R “fs_locks –B” /dev/vg/lv&nbsp;<br>

&gt; debugfs.ocfs2 –R “dlm_locks M000000000000000022d63c00000000” /dev/drbd0&nbsp;<br>

&gt;&nbsp;<br>

&gt; produced the error:&nbsp;<br>

&gt; open: Device name specified was not found while opening context for 
&gt; device –R&nbsp;<br>

&gt; debugfs.ocfs2 1.4.2&nbsp;<br>

&gt; debugfs:&nbsp;<br>

&gt;&nbsp;<br>

&gt; and:&nbsp;<br>

&gt;&nbsp;<br>

&gt; ps -e -o pid,stat,comm,wchan=WIDE-WCHAN-COLUMN&nbsp;<br>

&gt;&nbsp;<br>

&gt; procuded no D state process.&nbsp;<br>

&gt;&nbsp;<br>

&gt;&nbsp;<br>

&gt; I am sorry I write it in the mailing list, but I am a noob, so I don't 
&gt; even know if it is a20bug, or a misconfiguration, or a misunderstanding.&nbsp;<br>

&gt;&nbsp;<br>

&gt; PS. Is nodiratime option supported for mounts? I used it, but I don't 
&gt; see it in the user-guide.&nbsp;<br>

&gt;&nbsp;<br>

&gt; -----Original Message-----&nbsp;<br>

&gt; From: Sunil Mushran &lt;<a href="mailto:sunil.mushran@oracle.com">sunil.mushran@oracle.com</a>&gt;&nbsp;<br>

&gt; To: <a href="mailto:sylarrrrrrr@aim.com">sylarrrrrrr@aim.com</a>&nbsp;<br>

&gt; Cc: <a href="mailto:tao.ma@oracle.com">tao.ma@oracle.com</a>; <a href="mailto:ocfs2-users@oss.oracle.com">ocfs2-users@oss.oracle.com</a>&nbsp;<br>

&gt; Sent: Tue, Jul 7, 2009 8:46 pm&nbsp;<br>

&gt; Subject: Re: [Ocfs2-users] umount hang + high CPU&nbsp;<br>

&gt;&nbsp;<br>

&gt; The fix was for the oops you saw. 
&gt;  
&gt; The hang is a different issue. We have no info on that. 
&gt;  
&gt; For that, if you would like to diagnose the problem, read up the dlm 
&gt; notes 
&gt; in the 1.4 user's guide. It explains a debugging process vis-a-vis hangs. 
&gt;  
&gt; If the issue is dlm related, then we would like to have the tcpdumps. 
&gt;  
&gt; Lastly, emails are no t an efficient vehicle for handling such issues. 
&gt; Use 
&gt; the bugzilla as it allows us to collect information in one place. 
&gt;  
&gt; Sunil 
&gt;  
&gt; <a href="mailto:sylarrrrrrr@aim.com">sylarrrrrrr@aim.com</a> &lt;<a href="mailto:sylarrrrrrr@aim.com?">mailto:sylarrrrrrr@aim.com</a>&gt; wrote: 
&gt; &gt; So this bug is not over yet :( 
&gt; &gt; 
&gt; &gt; I have checked my kernel source and indeed it have this20patch but I 
&gt; &gt; still get the hang. 
&gt; &gt; 
&gt; &gt; PS. my linux-2.6-2.6.30/fs/ocfs2/dcache.c kernel source has: 
&gt; &gt; 
&gt; &gt; 290 else 
&gt; &gt; 291 mlog_errno(ret); 
&gt; &gt; 292 
&gt; &gt; 293 /* 
&gt; &gt; 294 * In case of error, manually free the allocation and &gt; do the 
&gt; iput(). 
&gt; &gt; 295 * We need to do this because error here means no &gt; d_instantiate(), 
&gt; &gt; 296 * which means iput() will not be called during &gt; dput(dentry). 
&gt; &gt; 297 */ 
&gt; &gt; 298 if (ret &lt; 0 &amp;&amp; !alias) { 
&gt; &gt; 299 ocfs2_lock_res_free(&amp;dl-&gt;dl_lockres); 
&gt; &gt; 300 BUG_ON(dl-&gt;dl_count != 1); 
&gt; &gt; 301 spin_lock(&amp;dentry_attach_lock); 
&gt; &gt; =2 0302 dentry-&gt;d_fsdata = NULL; 
&gt; &gt; 303 spin_unlock(&amp;dentry_attach_lock); 
&gt; &gt; 304 kfree(dl); 
&gt; &gt; 305 iput(inode); 
&gt; &gt; 306 } 
&gt; &gt; 307 
&gt; &gt; 308 dput(alias); 
&gt; &gt; 309 
&gt; &gt; 310 return ret; 
&gt; &gt; 311 } 
&gt; &gt; 
&gt; &gt; 
&gt;  
&gt;&nbsp;<br>

&gt; ------------------------------------------------------------------------&nbsp;<br>

&gt; *A Good Credit Score is 700 or Above. See yours in just 2 easy steps! 
&gt; &lt;<a href="http://pr.atwola.com/promoclk/100126575x1222585089x1201462806/aol?redir=http://www.freecreditreport.com/pm/default.aspx?sc=668072%26hmpgID=62%26bcd=JulystepsfooterNO62%3E*" target="_blank">http://pr.atwola.com/promoclk/100126575x1222585089x1201462806/aol?redir=http://www.freecreditreport.com/pm/default.aspx?sc=668072%26hmpgID=62%26bcd=JulystepsfooterNO62&gt;*</a> 
&gt;&n
bsp;<br>

&gt; ------------------------------------------------------------------------&nbsp;<br>

&gt;&nbsp;<br>

&gt; _______________________________________________&nbsp;<br>

&gt; Ocfs2-users mailing list&nbsp;<br>

&gt; <a href="mailto:Ocfs2-users@oss.oracle.com">Ocfs2-users@oss.oracle.com</a>&nbsp;<br>

&gt; <a href="http://oss.oracle.com/mailman/listinfo/ocfs2-users" target="_blank">http://oss.oracle.com/mailman/listinfo/ocfs2-users</a>&nbsp;<br>


</div>
 <!-- end of AOLMsgPart_0_2c2146f4-d5df-450a-97f8-d40e8489dc16 -->

<div id='MAILCIAMA043-d3ce4a56140b363' class='aol_ad_footer'><br/><font style="color:black;font:normal 10pt arial,san-serif;"> <hr style="margin-top:10px"/><A HREF=http://pr.atwola.com/promoclk/100126575x1222466512x1201463496/aol?redir=http:%2F%2Faltfarm.mediaplex.com%2Fad%2Fck%2F12309%2D81939%2D1629%2D3>Dell Studio XPS Desktop: Save up to $400 &#45; Limited Time Offer</A></font> </div>