Re: [PATCH v4 10/16] Add n_d_add_message_with_indexopts (extension of n_d_add_message)
[notmuch-archives.git] / 3c / c26265e3f53c1426aad77f5c2d25fbef87b222
1 Return-Path: <david.edmondson@oracle.com>\r
2 X-Original-To: notmuch@notmuchmail.org\r
3 Delivered-To: notmuch@notmuchmail.org\r
4 Received: from localhost (localhost [127.0.0.1])\r
5         by olra.theworths.org (Postfix) with ESMTP id 1145A431FAF\r
6         for <notmuch@notmuchmail.org>; Mon,  2 Jun 2014 10:26:10 -0700 (PDT)\r
7 X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
8 X-Spam-Flag: NO\r
9 X-Spam-Score: -2.299\r
10 X-Spam-Level: \r
11 X-Spam-Status: No, score=-2.299 tagged_above=-999 required=5\r
12         tests=[RCVD_IN_DNSWL_MED=-2.3, UNPARSEABLE_RELAY=0.001]\r
13         autolearn=disabled\r
14 Received: from olra.theworths.org ([127.0.0.1])\r
15         by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
16         with ESMTP id RU0FL3VeG2sL for <notmuch@notmuchmail.org>;\r
17         Mon,  2 Jun 2014 10:26:04 -0700 (PDT)\r
18 X-Greylist: delayed 13336 seconds by postgrey-1.32 at olra;\r
19         Mon, 02 Jun 2014 10:26:04 PDT\r
20 Received: from aserp1040.oracle.com (aserp1040.oracle.com [141.146.126.69])\r
21         (using TLSv1 with cipher DHE-RSA-AES256-SHA (256/256 bits))\r
22         (No client certificate requested)\r
23         by olra.theworths.org (Postfix) with ESMTPS id 90D4E431FAE\r
24         for <notmuch@notmuchmail.org>; Mon,  2 Jun 2014 10:26:04 -0700 (PDT)\r
25 Received: from ucsinet22.oracle.com (ucsinet22.oracle.com [156.151.31.94])\r
26         by aserp1040.oracle.com (Sentrion-MTA-4.3.2/Sentrion-MTA-4.3.2) with\r
27         ESMTP id s52HPkfJ009837\r
28         (version=TLSv1/SSLv3 cipher=DHE-RSA-AES256-SHA bits=256 verify=OK);\r
29         Mon, 2 Jun 2014 17:25:47 GMT\r
30 Received: from aserz7022.oracle.com (aserz7022.oracle.com [141.146.126.231])\r
31         by ucsinet22.oracle.com (8.14.5+Sun/8.14.5) with ESMTP id\r
32         s52HPi16022038\r
33         (version=TLSv1/SSLv3 cipher=DHE-RSA-AES256-SHA bits=256 verify=NO);\r
34         Mon, 2 Jun 2014 17:25:45 GMT\r
35 Received: from abhmp0014.oracle.com (abhmp0014.oracle.com [141.146.116.20])\r
36         by aserz7022.oracle.com (8.14.4+Sun/8.14.4) with ESMTP id\r
37         s52HPiWt010428; Mon, 2 Jun 2014 17:25:44 GMT\r
38 Received: from localhost (/81.149.164.25)\r
39         by default (Oracle Beehive Gateway v4.0)\r
40         with ESMTP ; Mon, 02 Jun 2014 10:25:44 -0700\r
41 To: Jani Nikula <jani@nikula.org>, Mark Walters <markwalters1009@gmail.com>,\r
42         Tomi Ollila <tomi.ollila@iki.fi>,\r
43         Vladimir Marek <Vladimir.Marek@oracle.com>, notmuch@notmuchmail.org\r
44 Subject: Re: Deduplication ?\r
45 In-Reply-To: <87y4xfz1fi.fsf@nikula.org>\r
46 References: <20140602123212.GA12639@virt.cz.oracle.com>\r
47         <87d2ers9mi.fsf@qmul.ac.uk> <m2ppirs8ea.fsf@guru.guru-group.fi>\r
48         <87ppirqtfa.fsf@qmul.ac.uk> <87y4xfz1fi.fsf@nikula.org>\r
49 User-Agent: Notmuch/0.18 (http://notmuchmail.org) Emacs/24.3.1\r
50         (x86_64-pc-linux-gnu)\r
51 Sender: david.edmondson@oracle.com\r
52 From: David Edmondson <david.edmondson@oracle.com>\r
53 Date: Mon, 02 Jun 2014 18:25:42 +0100\r
54 Message-ID: <cunegz71aw9.fsf@gargravarr.hh.sledj.net>\r
55 MIME-Version: 1.0\r
56 Content-Type: text/plain\r
57 X-Source-IP: ucsinet22.oracle.com [156.151.31.94]\r
58 X-BeenThere: notmuch@notmuchmail.org\r
59 X-Mailman-Version: 2.1.13\r
60 Precedence: list\r
61 List-Id: "Use and development of the notmuch mail system."\r
62         <notmuch.notmuchmail.org>\r
63 List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
64         <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
65 List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
66 List-Post: <mailto:notmuch@notmuchmail.org>\r
67 List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
68 List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
69         <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
70 X-List-Received-Date: Mon, 02 Jun 2014 17:26:10 -0000\r
71 \r
72 On Mon, Jun 02 2014, Jani Nikula wrote:\r
73 >>> One should also have some message content heuristics to determine that the\r
74 >>> content is indeed duplicate and not something totally different (not that\r
75 >>> we can see the different content anyway... but...)\r
76 >>\r
77 >> That would be nice.\r
78 >\r
79 > And quite hard.\r
80 \r
81 Thinking about this a bit...\r
82 \r
83 The headers are likely to be different, so you could remove them (get\r
84 rid of everything up to the first empty line).\r
85 \r
86 Various mailing lists add footers, so you would need to remove them (a\r
87 regular expression based approach would catch most of them easily).\r
88 \r
89 The remaining content should be the same for identical messages, so a\r
90 sensible hash (md5) could be used to compare.\r
91 \r
92 Although, some MTAs modify the body of the message when manipulating\r
93 encoding. I don't know how to address this.\r