<div dir="ltr">If the storage connectivity is not stable, then dlm issues are to be expected.<br>In this case, the processes are all trying to take the readlock. One possible<br>scenario is that the node holding the writelock is not able to relinquish the lock<br>
because it cannot flush the updated inodes to disk. I would suggest you look<br>into load balancing and how it affects the iscsi connectivity from the hosts.<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Tue, Aug 6, 2013 at 2:51 PM, Gavin Jones <span dir="ltr">&lt;<a href="mailto:gjones@where2getit.com" target="_blank">gjones@where2getit.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hello Goldwyn,<br>
<br>
Thanks for taking a look at this.  So, then, it does seem to be DLM<br>
related.  We were running fine for a few weeks and then it came up<br>
again this morning and has been going on throughout the day.<br>
<br>
Regarding the DLM debugging, I allowed debugging for DLM_GLUE,<br>
DLM_THREAD, DLM_MASTER and DLM_RECOVERY.  However, I don&#39;t see any DLM<br>
logging output in dmesg or syslog --is there perhaps another way to<br>
get at the actual DLM log?  I&#39;ve searched around a bit but didn&#39;t find<br>
anything that made it clear.<br>
<br>
As for OCFS2 and iSCSI communications, they use the same physical<br>
network interface but different VLANs on that interface.  The<br>
&quot;connectionX:0&quot; errors, then, seem to indicate an issue with the ISCSI<br>
connection.  The system logs and monitoring software don&#39;t show any<br>
warnings or errors about the interface going down, so the only thing I<br>
can think of is the connection load balancing on the SAN, though<br>
that&#39;s merely a hunch.  Maybe I should mail the list and see if anyone<br>
has a similar setup.<br>
<br>
If you could please point me in the right direction to make use of the<br>
DLM debugging via debugs.ocfs2, I would appreciate it.<br>
<br>
Thanks again,<br>
<div class="im HOEnZb"><br>
Gavin W. Jones<br>
Where 2 Get It, Inc.<br>
<br>
</div><div class="HOEnZb"><div class="h5">On Tue, Aug 6, 2013 at 4:16 PM, Goldwyn Rodrigues &lt;<a href="mailto:rgoldwyn@suse.de">rgoldwyn@suse.de</a>&gt; wrote:<br>
&gt; Hi Gavin,<br>
&gt;<br>
&gt;<br>
&gt; On 08/06/2013 01:59 PM, Gavin Jones wrote:<br>
&gt;&gt;<br>
&gt;&gt; Hi Goldwyn,<br>
&gt;&gt;<br>
&gt;&gt; Apologies for the delayed reply.<br>
&gt;&gt;<br>
&gt;&gt; The hung Apache process / OCFS issue cropped up again, so I thought<br>
&gt;&gt; I&#39;d pass along the contents of /proc/&lt;pid&gt;/stack of a few affected<br>
&gt;&gt; processes:<br>
&gt;&gt;<br>
&gt;&gt; gjones@slipapp02:~&gt; sudo cat /proc/27521/stack<br>
&gt;&gt; gjones&#39;s password:<br>
&gt;&gt; [&lt;ffffffff811663b4&gt;] poll_schedule_timeout+0x44/0x60<br>
&gt;&gt; [&lt;ffffffff81166d56&gt;] do_select+0x5a6/0x670<br>
&gt;&gt; [&lt;ffffffff81166fbe&gt;] core_sys_select+0x19e/0x2d0<br>
&gt;&gt; [&lt;ffffffff811671a5&gt;] sys_select+0xb5/0x110<br>
&gt;&gt; [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [&lt;00007f394bdd5f23&gt;] 0x7f394bdd5f23<br>
&gt;&gt; [&lt;ffffffffffffffff&gt;] 0xffffffffffffffff<br>
&gt;&gt; gjones@slipapp02:~&gt; sudo cat /proc/27530/stack<br>
&gt;&gt; [&lt;ffffffff81249721&gt;] sys_semtimedop+0x5a1/0x8b0<br>
&gt;&gt; [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [&lt;00007f394bdddb77&gt;] 0x7f394bdddb77<br>
&gt;&gt; [&lt;ffffffffffffffff&gt;] 0xffffffffffffffff<br>
&gt;&gt; gjones@slipapp02:~&gt; sudo cat /proc/27462/stack<br>
&gt;&gt; [&lt;ffffffff81249721&gt;] sys_semtimedop+0x5a1/0x8b0<br>
&gt;&gt; [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [&lt;00007f394bdddb77&gt;] 0x7f394bdddb77<br>
&gt;&gt; [&lt;ffffffffffffffff&gt;] 0xffffffffffffffff<br>
&gt;&gt; gjones@slipapp02:~&gt; sudo cat /proc/27526/stack<br>
&gt;&gt; [&lt;ffffffff81249721&gt;] sys_semtimedop+0x5a1/0x8b0<br>
&gt;&gt; [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [&lt;00007f394bdddb77&gt;] 0x7f394bdddb77<br>
&gt;&gt; [&lt;ffffffffffffffff&gt;] 0xffffffffffffffff<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Additionally, in dmesg I see, for example,<br>
&gt;&gt;<br>
&gt;&gt; [774981.361149] (/usr/sbin/httpd,8266,3):ocfs2_unlink:951 ERROR: status =<br>
&gt;&gt; -2<br>
&gt;&gt; [775896.135467]<br>
&gt;&gt; (/usr/sbin/httpd,8435,3):ocfs2_check_dir_for_entry:2119 ERROR: status<br>
&gt;&gt; = -17<br>
&gt;&gt; [775896.135474] (/usr/sbin/httpd,8435,3):ocfs2_mknod:459 ERROR: status =<br>
&gt;&gt; -17<br>
&gt;&gt; [775896.135477] (/usr/sbin/httpd,8435,3):ocfs2_create:629 ERROR: status =<br>
&gt;&gt; -17<br>
&gt;&gt; [788406.624126] connection1:0: ping timeout of 5 secs expired, recv<br>
&gt;&gt; timeout 5, last rx 4491991450, last ping 4491992701, now 4491993952<br>
&gt;&gt; [788406.624138] connection1:0: detected conn error (1011)<br>
&gt;&gt; [788406.640132] connection2:0: ping timeout of 5 secs expired, recv<br>
&gt;&gt; timeout 5, last rx 4491991451, last ping 4491992702, now 4491993956<br>
&gt;&gt; [788406.640142] connection2:0: detected conn error (1011)<br>
&gt;&gt; [788406.928134] connection4:0: ping timeout of 5 secs expired, recv<br>
&gt;&gt; timeout 5, last rx 4491991524, last ping 4491992775, now 4491994028<br>
&gt;&gt; [788406.928150] connection4:0: detected conn error (1011)<br>
&gt;&gt; [788406.944147] connection5:0: ping timeout of 5 secs expired, recv<br>
&gt;&gt; timeout 5, last rx 4491991528, last ping 4491992779, now 4491994032<br>
&gt;&gt; [788406.944165] connection5:0: detected conn error (1011)<br>
&gt;&gt; [788408.640123] connection3:0: ping timeout of 5 secs expired, recv<br>
&gt;&gt; timeout 5, last rx 4491991954, last ping 4491993205, now 4491994456<br>
&gt;&gt; [788408.640134] connection3:0: detected conn error (1011)<br>
&gt;&gt; [788409.907968] connection1:0: detected conn error (1020)<br>
&gt;&gt; [788409.908280] connection2:0: detected conn error (1020)<br>
&gt;&gt; [788409.912683] connection4:0: detected conn error (1020)<br>
&gt;&gt; [788409.913152] connection5:0: detected conn error (1020)<br>
&gt;&gt; [788411.491818] connection3:0: detected conn error (1020)<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; that repeats for a bit and then I see<br>
&gt;&gt;<br>
&gt;&gt; [1952161.012214] INFO: task /usr/sbin/httpd:27491 blocked for more<br>
&gt;&gt; than 480 seconds.<br>
&gt;&gt; [1952161.012219] &quot;echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs&quot;<br>
&gt;&gt; disables this message.<br>
&gt;&gt; [1952161.012221] /usr/sbin/httpd D ffff88081fc52b40 0 27491 27449<br>
&gt;&gt; 0x00000000<br>
&gt;&gt; [1952161.012226] ffff88031a85dc50 0000000000000082 ffff880532a92640<br>
&gt;&gt; ffff88031a85dfd8<br>
&gt;&gt; [1952161.012231] ffff88031a85dfd8 ffff88031a85dfd8 ffff8807f791c300<br>
&gt;&gt; ffff880532a92640<br>
&gt;&gt; [1952161.012235] ffffffff8115f3ae ffff8802804bdd98 ffff880532a92640<br>
&gt;&gt; 00000000ffffffff<br>
&gt;&gt; [1952161.012239] Call Trace:<br>
&gt;&gt; [1952161.012251] [&lt;ffffffff81538fea&gt;] __mutex_lock_slowpath+0xca/0x140<br>
&gt;&gt; [1952161.012257] [&lt;ffffffff81538b0a&gt;] mutex_lock+0x1a/0x40<br>
&gt;&gt; [1952161.012262] [&lt;ffffffff81160e80&gt;] do_lookup+0x290/0x340<br>
&gt;&gt; [1952161.012269] [&lt;ffffffff81161c7f&gt;] path_lookupat+0x10f/0x700<br>
&gt;&gt; [1952161.012274] [&lt;ffffffff8116229c&gt;] do_path_lookup+0x2c/0xc0<br>
&gt;&gt; [1952161.012279] [&lt;ffffffff8116372d&gt;] user_path_at_empty+0x5d/0xb0<br>
&gt;&gt; [1952161.012283] [&lt;ffffffff81158d9d&gt;] vfs_fstatat+0x2d/0x70<br>
&gt;&gt; [1952161.012288] [&lt;ffffffff81158fe2&gt;] sys_newstat+0x12/0x30<br>
&gt;&gt; [1952161.012293] [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [1952161.012308] [&lt;00007f394bdcfb05&gt;] 0x7f394bdcfb04<br>
&gt;&gt; [1952161.012382] INFO: task /usr/sbin/httpd:27560 blocked for more<br>
&gt;&gt; than 480 seconds.<br>
&gt;&gt; [1952161.012384] &quot;echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs&quot;<br>
&gt;&gt; disables this message.<br>
&gt;&gt; [1952161.012385] /usr/sbin/httpd D ffff88081fd52b40 0 27560 27449<br>
&gt;&gt; 0x00000000<br>
&gt;&gt; [1952161.012389] ffff880224023c50 0000000000000086 ffff88024326e580<br>
&gt;&gt; ffff880224023fd8<br>
&gt;&gt; [1952161.012393] ffff880224023fd8 ffff880224023fd8 ffff8807f79cc800<br>
&gt;&gt; ffff88024326e580<br>
&gt;&gt; [1952161.012397] ffffffff8115f3ae ffff8802804bdd98 ffff88024326e580<br>
&gt;&gt; 00000000ffffffff<br>
&gt;&gt; [1952161.012401] Call Trace:<br>
&gt;&gt; [1952161.012406] [&lt;ffffffff81538fea&gt;] __mutex_lock_slowpath+0xca/0x140<br>
&gt;&gt; [1952161.012410] [&lt;ffffffff81538b0a&gt;] mutex_lock+0x1a/0x40<br>
&gt;&gt; [1952161.012415] [&lt;ffffffff81160e80&gt;] do_lookup+0x290/0x340<br>
&gt;&gt; [1952161.012420] [&lt;ffffffff81161c7f&gt;] path_lookupat+0x10f/0x700<br>
&gt;&gt; [1952161.012425] [&lt;ffffffff8116229c&gt;] do_path_lookup+0x2c/0xc0<br>
&gt;&gt; [1952161.012430] [&lt;ffffffff8116372d&gt;] user_path_at_empty+0x5d/0xb0<br>
&gt;&gt; [1952161.012434] [&lt;ffffffff81158d9d&gt;] vfs_fstatat+0x2d/0x70<br>
&gt;&gt; [1952161.012438] [&lt;ffffffff81158fe2&gt;] sys_newstat+0x12/0x30<br>
&gt;&gt; [1952161.012442] [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [1952161.012448] [&lt;00007f394bdcfb05&gt;] 0x7f394bdcfb04[1953601.012280]<br>
&gt;&gt; INFO: task /usr/sbin/httpd:27506 blocked for more than 480 seconds.<br>
&gt;&gt; [1953601.012282] &quot;echo 0 &gt; /proc/sys/kernel/hung_task_timeout_secs&quot;<br>
&gt;&gt; disables this message.<br>
&gt;&gt; [1953601.012284] /usr/sbin/httpd D ffff88081fd52b40 0 27506 27449<br>
&gt;&gt; 0x00000000<br>
&gt;&gt; [1953601.012287] ffff8804044cf988 0000000000000082 ffff8802e1bfc340<br>
&gt;&gt; ffff8804044cffd8<br>
&gt;&gt; [1953601.012291] ffff8804044cffd8 ffff8804044cffd8 ffff8807f79cc800<br>
&gt;&gt; ffff8802e1bfc340<br>
&gt;&gt; [1953601.012296] 0000000000012b40 ffff8804044cfb58 7fffffffffffffff<br>
&gt;&gt; ffff8802e1bfc340<br>
&gt;&gt; [1953601.012300] Call Trace:<br>
&gt;&gt; [1953601.012305] [&lt;ffffffff815387a2&gt;] schedule_timeout+0x272/0x2f0<br>
&gt;&gt; [1953601.012311] [&lt;ffffffff815396e2&gt;] wait_for_common+0xd2/0x180<br>
&gt;&gt; [1953601.012345] [&lt;ffffffffa03780a2&gt;]<br>
&gt;&gt; __ocfs2_cluster_lock.isra.34+0x1f2/0x6d0 [ocfs2]<br>
&gt;&gt; [1953601.012395] [&lt;ffffffffa0379578&gt;]<br>
&gt;&gt; ocfs2_inode_lock_full_nested+0x168/0x9d0 [ocfs2]<br>
&gt;&gt; [1953601.012436] [&lt;ffffffffa037edd2&gt;] ocfs2_permission+0x32/0xf0 [ocfs2]<br>
&gt;&gt; [1953601.012466] [&lt;ffffffff8115f503&gt;] inode_permission+0x73/0x110<br>
&gt;&gt; [1953601.012472] [&lt;ffffffff811612cd&gt;] link_path_walk+0x22d/0x850<br>
&gt;&gt; [1953601.012477] [&lt;ffffffff81161bc1&gt;] path_lookupat+0x51/0x700<br>
&gt;&gt; [1953601.012482] [&lt;ffffffff8116229c&gt;] do_path_lookup+0x2c/0xc0<br>
&gt;&gt; [1953601.012486] [&lt;ffffffff8116372d&gt;] user_path_at_empty+0x5d/0xb0<br>
&gt;&gt; [1953601.012490] [&lt;ffffffff81158d9d&gt;] vfs_fstatat+0x2d/0x70<br>
&gt;&gt; [1953601.012494] [&lt;ffffffff81158fe2&gt;] sys_newstat+0x12/0x30<br>
&gt;&gt; [1953601.012498] [&lt;ffffffff815429bd&gt;] system_call_fastpath+0x1a/0x1f<br>
&gt;&gt; [1953601.012504] [&lt;00007f394bdcfb05&gt;] 0x7f394bdcfb04<br>
&gt;&gt;<br>
&gt;<br>
&gt;<br>
&gt; This is the most interesting backtrace. The process is definitely waiting<br>
&gt; for a dlm lock while holding a mutex from fstat() call. All the others are<br>
&gt; waiting for this process to finish.<br>
&gt;<br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt; Your comment about the network got me thinking; I don&#39;t see on the<br>
&gt;&gt; hosts via any other means or monitoring that the network interface is<br>
&gt;&gt; going down.  However, I was logged into the (EqualLogic) SAN (where<br>
&gt;&gt; OCFS2 volumes reside) console yesterday and noticed some iSCSI session<br>
&gt;&gt; messages like:<br>
&gt;&gt;<br>
&gt;&gt; iSCSI session to target ........ was closed. Load balancing request<br>
&gt;&gt; was received on the array.<br>
&gt;&gt;<br>
&gt;&gt; Is it possible / probable that the iSCSI load balancing on the SAN is<br>
&gt;&gt; causing OCFS2 problems?  I&#39;m wondering if exceeding the iSCSI ping<br>
&gt;&gt; timeout leads to a connection error, which then causes OCFS2 to be<br>
&gt;&gt; unsure of cluster state or have some DLM issue, when then leads to<br>
&gt;&gt; hung processes.  I know it seems like I&#39;m shooting in the dark, but, I<br>
&gt;&gt; don&#39;t have much else to go on.<br>
&gt;<br>
&gt;<br>
&gt; Do you have iSCSI and ocfs2 communication on the same network interface? If<br>
&gt; yes, the &quot;connection4:0 &quot; messages are from your iSCSI subsystem and your<br>
&gt; network does seem to have a problem there (don&#39;t know what though).<br>
&gt;<br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt; Still working on permission for the DLM debugging, hope to have it<br>
&gt;&gt; turned on and get some messages for you either today or tomorrow.<br>
&gt;&gt;<br>
&gt;&gt; Thanks,<br>
&gt;&gt;<br>
&gt;&gt; Gavin W. Jones<br>
&gt;&gt; Where 2 Get It, Inc.<br>
&gt;&gt;<br>
&gt;&gt; On Thu, Jul 18, 2013 at 5:54 PM, Goldwyn Rodrigues &lt;<a href="mailto:rgoldwyn@suse.de">rgoldwyn@suse.de</a>&gt;<br>
&gt;&gt; wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On 07/18/2013 11:42 AM, Gavin Jones wrote:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Hello,<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Sure, I&#39;d be happy to provide such information next time this occurs.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Can you elaborate, or point me at documentation / procedure regarding<br>
&gt;&gt;&gt;&gt; the DLM debug logs and what would be helpful to see?  I have read<br>
&gt;&gt;&gt;&gt; &quot;Troubleshooting OCFS2&quot; [1] and the section &quot;Debugging File System<br>
&gt;&gt;&gt;&gt; Locks&quot; --is this what you&#39;re referring to?<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; No. I was looking for a more proactive approach we use in debugging.<br>
&gt;&gt;&gt; # debugfs.ocfs2 -l<br>
&gt;&gt;&gt; will provide you a list of debug messages you can turn on/off.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; In order to turn on DLM_GLUE (the layer between ocfs2 and DLM) specific<br>
&gt;&gt;&gt; operations, issue<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; # debugfs.ocfs2 -l DLM_GLUE allow<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Please note, this generates a lot of messages.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Not sure if this will provide additional context or just muddy the<br>
&gt;&gt;&gt;&gt; waters, but I thought to provide some syslog messages from an affected<br>
&gt;&gt;&gt;&gt; server the last time this occurred.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Jul 14 15:36:55 slipapp07 kernel: [2173588.704093] o2net: Connection<br>
&gt;&gt;&gt;&gt; to node slipapp03 (num 2) at <a href="http://172.16.40.122:7777" target="_blank">172.16.40.122:7777</a> has been idle for<br>
&gt;&gt;&gt;&gt; 30.97 secs, shutting it down.<br>
&gt;&gt;&gt;&gt; Jul 14 15:36:55 slipapp07 kernel: [2173588.704146] o2net: No longer<br>
&gt;&gt;&gt;&gt; connected to node slipapp03 (num 2) at <a href="http://172.16.40.122:7777" target="_blank">172.16.40.122:7777</a><br>
&gt;&gt;&gt;&gt; Jul 14 15:36:55 slipapp07 kernel: [2173588.704279]<br>
&gt;&gt;&gt;&gt; (kworker/u:1,12787,4):dlm_do_assert_master:1665 ERROR: Error -112 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 2<br>
&gt;&gt;&gt;&gt; Jul 14 15:36:55 slipapp07 kernel: [2173588.704295]<br>
&gt;&gt;&gt;&gt; (kworker/u:5,26056,5):dlm_do_master_request:1332 ERROR: link to 2 went<br>
&gt;&gt;&gt;&gt; down!<br>
&gt;&gt;&gt;&gt; Jul 14 15:36:55 slipapp07 kernel: [2173588.704301]<br>
&gt;&gt;&gt;&gt; (kworker/u:5,26056,5):dlm_get_lock_resource:917 ERROR: status = -112<br>
&gt;&gt;&gt;&gt; Jul 14 15:37:25 slipapp07 kernel: [2173618.784153] o2net: No<br>
&gt;&gt;&gt;&gt; connection established with node 2 after 30.0 seconds, giving up.<br>
&gt;&gt;&gt;&gt; &lt;snip&gt;<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.920793]<br>
&gt;&gt;&gt;&gt; (kworker/u:2,13894,1):dlm_do_assert_master:1665 ERROR: Error -112 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.920833]<br>
&gt;&gt;&gt;&gt; (/usr/sbin/httpd,5023,5):dlm_send_remote_lock_request:336 ERROR:<br>
&gt;&gt;&gt;&gt; A08674A831ED4048B5136BD8613B21E0: res N000000000152a8da, Error -112<br>
&gt;&gt;&gt;&gt; send CREATE LOCK to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.930562]<br>
&gt;&gt;&gt;&gt; (kworker/u:2,13894,1):dlm_do_assert_master:1665 ERROR: Error -107 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.944998]<br>
&gt;&gt;&gt;&gt; (kworker/u:2,13894,1):dlm_do_assert_master:1665 ERROR: Error -107 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.951511]<br>
&gt;&gt;&gt;&gt; (kworker/u:2,13894,1):dlm_do_assert_master:1665 ERROR: Error -107 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.973848]<br>
&gt;&gt;&gt;&gt; (kworker/u:2,13894,1):dlm_do_assert_master:1665 ERROR: Error -107 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173727.990216]<br>
&gt;&gt;&gt;&gt; (kworker/u:2,13894,7):dlm_do_assert_master:1665 ERROR: Error -107 when<br>
&gt;&gt;&gt;&gt; sending message 502 (key 0xdc8be796) to node 4<br>
&gt;&gt;&gt;&gt; Jul 14 15:39:14 slipapp07 kernel: [2173728.024139]<br>
&gt;&gt;&gt;&gt; (/usr/sbin/httpd,5023,5):dlm_send_remote_lock_request:336 ERROR:<br>
&gt;&gt;&gt;&gt; A08674A831ED4048B5136BD8613B21E0: res N000000000152a8da, Error -107<br>
&gt;&gt;&gt;&gt; send CREATE LOCK to node 4<br>
&gt;&gt;&gt;&gt; &lt;snip, many, many more like the above&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Which I suppose would indicate DLM issues; I have previously tried to<br>
&gt;&gt;&gt;&gt; investigate this (via abovementioned guide) but was unable to make<br>
&gt;&gt;&gt;&gt; real headway.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; No, this means your network is the problem, which in turn is affecting<br>
&gt;&gt;&gt; your<br>
&gt;&gt;&gt; DLM operations. The problem could be anywhere from hardware to the<br>
&gt;&gt;&gt; network<br>
&gt;&gt;&gt; device to possibly a bug in the networking code. You may want to check if<br>
&gt;&gt;&gt; there are other indications that the network interface is down.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; I apologize for the rather basic questions...<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt; No problem. I hope this helps resolve your issues.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Thanks,<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Gavin W. Jones<br>
&gt;&gt;&gt;&gt; Where 2 Get It, Inc.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; [1]:<br>
&gt;&gt;&gt;&gt; <a href="http://docs.oracle.com/cd/E37670_01/E37355/html/ol_tshoot_ocfs2.html" target="_blank">http://docs.oracle.com/cd/E37670_01/E37355/html/ol_tshoot_ocfs2.html</a><br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; &lt;snipped&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; --<br>
&gt;&gt;&gt; Goldwyn<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Goldwyn<br>
<br>
<br>
<br>
</div></div><div class="im HOEnZb">--<br>
&quot;There has grown up in the minds of certain groups in this country the<br>
notion that because a man or corporation has made a profit out of the<br>
public for a number of years, the government and the courts are<br>
charged with the duty of guaranteeing such profit in the future, even<br>
in the face of changing circumstances and contrary to public interest.<br>
This strange doctrine is not supported by statute nor common law.&quot;<br>
<br>
~Robert Heinlein<br>
<br>
</div><div class="HOEnZb"><div class="h5">_______________________________________________<br>
Ocfs2-users mailing list<br>
<a href="mailto:Ocfs2-users@oss.oracle.com">Ocfs2-users@oss.oracle.com</a><br>
<a href="https://oss.oracle.com/mailman/listinfo/ocfs2-users" target="_blank">https://oss.oracle.com/mailman/listinfo/ocfs2-users</a><br>
</div></div></blockquote></div><br></div>