<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

<html>

<head>

  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">

</head>

<body bgcolor="#ffffff" text="#000000">

<br>

&nbsp; Hi again,<br>

<br>

&nbsp; I have installed newest kernel available for RHEL5

(2.6.18-238.5.1.el5) and OCFS2 packages to match. After only few hours

of running, while rsync backup was done, on one of nodes I got

following error (after which it hang and required reset):<br>

<br>

<i>Mar 19 03:42:52 server3 kernel:

(dlm_thread,5166,5):dlm_drop_lockres_ref:2216 ERROR: while dropping ref

on BDB600C633D74D6B85C496D78F566879:O000000000000000009cf0300000000

(master=1) got -22. <br>

Mar 19 03:42:52 server3 kernel: lockres:

O000000000000000009cf0300000000, owner=1, state=64<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; last used: 4298724889, refcnt: 3, on

purge list: yes<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; on dirty list: no, on reco list: no,

migrating pending: no<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; inflight locks: 0, asts reserved: 0<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; refmap nodes: [ ], inflight=0<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; granted queue:<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; converting queue:<br>

Mar 19 03:42:52 server3 kernel:&nbsp;&nbsp; blocked queue:<br>

Mar 19 03:42:53 server3 kernel: ----------- [cut here ] ---------

[please bite here ] ---------<br>

Mar 19 03:42:53 server3 kernel: Kernel BUG at

...xiaowei/BUILD/ocfs2-1.4.7/fs/ocfs2/dlm/dlmmaster.c:2218<br>

Mar 19 03:42:53 server3 kernel: invalid opcode: 0000 [1] SMP </i><br>

<br>

&nbsp; OCFS2 package for this kernel was created this month (march 2011), so

it should include bug fixes from last year (I guess). If I understand

well, dlm which produces error is part of OCFS2 module. I would assume

bug mentioned below, if fixed, should be not exist in OCFS2 package for

RHEL5's newest kernel, or am I wrong?<br>

<br>

&nbsp; Anyone can offer help? Is there anyone with RHEL5/Centos5 using OCFS2

1.4 without periodic oopses/panics and reboots becausel of DLM drop

issue?<br>

<br>

&nbsp; Best Regards,<br>

&nbsp; Nikola<br>

<br>

Sunil Mushran wrote:

<blockquote cite="mid:4D83E6C8.6090907@oracle.com" type="cite">

  <meta content="text/html; charset=ISO-8859-1"

 http-equiv="Content-Type">

Sunil Mushran <a class="moz-txt-link-rfc2396E" href="mailto:sunil.mushran@oracle.com">&lt;sunil.mushran@oracle.com&gt;</a> This specific bug

(associated with the message) has been fixed here.<br>

  <a moz-do-not-send="true" class="moz-txt-link-freetext"

 href="http://oss.oracle.com/git/?p=ocfs2-1.4.git;a=commit;h=1f667766cb67ed05b4d706aa82e8ad0b12eaae8b">http://oss.oracle.com/git/?p=ocfs2-1.4.git;a=commit;h=1f667766cb67ed05b4d706aa82e8ad0b12eaae8b</a><br>

This should result in an oops and thus panic. But just on this node.<br>

  <br>

If other nodes are rebooting then I suspect some sysctl values are<br>

incorrect. Ensure /proc/sys/kernel/panic and

/proc/sys/kernel/panic_on_oops<br>

are set appropriately. See user's guide for more.<br>

  <br>

On 03/18/2011 03:51 PM, Nikola Savic wrote:

  <blockquote cite="mid:4D83E1F2.5000106@logik-internet.rs" type="cite">

    <font size="-1"><font face="Helvetica, Arial, sans-serif"><br>

&nbsp; Hi,<br>

    <br>

&nbsp; I have 3 nodes cluster using OCFS2 1.4 on CentOS5.5 (kernel

2.6.18-194). Two nodes (server1 and server2) are providing shared

storage using DRBD. Shared storage exported to nodes using iSCSI

(server1 is target and all other nodes are iSCSI initiators).<br>

    <br>

&nbsp; Today cluster went down. Server 1 was not accessable, while server2

and server3 got rebooted with log showing that connected to server 1

was lost, and because of that, servers were rebooted. However, in

server1's logs doesn't have errors like that. There are only following

lines minute before other two servers rebooted:<br>

    <br>

Mar 18 20:58:03 server1 kernel:

(dlm_thread,5154,3):dlm_drop_lockres_ref:2216 ERROR: while dropping ref

on BDB600C633D74D6B85C496D78F566879:O0000000000000002e81a8700000000

(master=1) got -22.<br>

Mar 18 20:58:03 server1 kernel: lockres:

O0000000000000002e81a8700000000, owner=1, state=64<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; last used: 4501088944, refcnt: 3, on

purge list: yes<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; on dirty list: no, on reco list: no,

migrating pending: no<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; inflight locks: 0, asts reserved: 0<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; refmap nodes: [ ], inflight=0<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; granted queue:<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; converting queue:<br>

Mar 18 20:58:03 server1 kernel:&nbsp;&nbsp; blocked queue:<br>

    <br>

&nbsp; I think that I saw, from time to time, errors like this logged in

/var/log/messages, but servers continue to work without hanging. Is

this kind of error serious enough for server to go down? If it is, why

is it happening and how to prevent it?<br>

    <br>

&nbsp; Thanks,<br>

&nbsp; Nikola<br>

    <br>

    </font></font>

    <pre wrap=""><fieldset class="mimeAttachmentHeader"></fieldset>

_______________________________________________

Ocfs2-users mailing list

<a moz-do-not-send="true" class="moz-txt-link-abbreviated"

 href="mailto:Ocfs2-users@oss.oracle.com">Ocfs2-users@oss.oracle.com</a>

<a moz-do-not-send="true" class="moz-txt-link-freetext"

 href="http://oss.oracle.com/mailman/listinfo/ocfs2-users">http://oss.oracle.com/mailman/listinfo/ocfs2-users</a></pre>

  </blockquote>

  <br>

</blockquote>

<br>

</body>

</html>