[PATCH] configure: add --without-api-docs option
[notmuch-archives.git] / d5 / a8aece93c85a8478f881a2f18672bee6fee8a7
1 Return-Path: <jani@nikula.org>\r
2 X-Original-To: notmuch@notmuchmail.org\r
3 Delivered-To: notmuch@notmuchmail.org\r
4 Received: from localhost (localhost [127.0.0.1])\r
5         by olra.theworths.org (Postfix) with ESMTP id 116D1431FAF\r
6         for <notmuch@notmuchmail.org>; Mon,  2 Jun 2014 11:29:39 -0700 (PDT)\r
7 X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
8 X-Spam-Flag: NO\r
9 X-Spam-Score: -0.7\r
10 X-Spam-Level: \r
11 X-Spam-Status: No, score=-0.7 tagged_above=-999 required=5\r
12         tests=[RCVD_IN_DNSWL_LOW=-0.7] autolearn=disabled\r
13 Received: from olra.theworths.org ([127.0.0.1])\r
14         by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
15         with ESMTP id d5Hd1BqBWelG for <notmuch@notmuchmail.org>;\r
16         Mon,  2 Jun 2014 11:29:31 -0700 (PDT)\r
17 Received: from mail-wg0-f42.google.com (mail-wg0-f42.google.com\r
18  [74.125.82.42])        (using TLSv1 with cipher RC4-SHA (128/128 bits))        (No client\r
19  certificate requested) by olra.theworths.org (Postfix) with ESMTPS id\r
20  CB6A7431FAE    for <notmuch@notmuchmail.org>; Mon,  2 Jun 2014 11:29:30 -0700\r
21  (PDT)\r
22 Received: by mail-wg0-f42.google.com with SMTP id y10so5465822wgg.25\r
23         for <notmuch@notmuchmail.org>; Mon, 02 Jun 2014 11:29:29 -0700 (PDT)\r
24 X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;\r
25         d=1e100.net; s=20130820;\r
26         h=x-gm-message-state:from:to:subject:in-reply-to:references\r
27         :user-agent:date:message-id:mime-version:content-type;\r
28         bh=94KOYEw+4phKzcpXqklJDclTdrYAbM7A50Le9JpUlLo=;\r
29         b=jVdK7IFpDTPGR0wA1mPjxFIcXVvBLd2lM6xtDRmMW5uFjbrHuMjikZX+EkFkX1miVz\r
30         rBqm1XkfJUZpALD0f3Jsjx8kZRfx1KDkY2OsSEM3iAFTZjJYJUGxDOyrJUm9yxFdWIlv\r
31         4medO1LKEoY6/kMJRArOv87lNGsdrLptq4keljp+HxAXioElOghDPe2Jz2uu6XecILcz\r
32         Lqas6BWIxCpPXFsEyf+HbyQeI4MnKJGM0+n/z7KYkYK+h4fcLzAimwglpscCrXWkzNK6\r
33         yayt1H7kfXaaDZv0q9wVn4/HttbNdas6Nx24lDNfIIEZeH7j8BycYVnQTr+xM9/2i6Xx\r
34         ALOw==\r
35 X-Gm-Message-State:\r
36  ALoCoQlXKq7TIgXGmphuTVSBlkAHKo/hWccCbMmzLsBh4XSCj1j5FStrtsY7mzDEIo00PuF4A1Rf\r
37 X-Received: by 10.180.73.66 with SMTP id j2mr1723831wiv.36.1401733769370;\r
38         Mon, 02 Jun 2014 11:29:29 -0700 (PDT)\r
39 Received: from localhost (dsl-hkibrasgw2-58c36f-91.dhcp.inet.fi.\r
40         [88.195.111.91]) by mx.google.com with ESMTPSA id\r
41         gp6sm34626931wib.12.2014.06.02.11.29.27 for <multiple recipients>\r
42         (version=TLSv1.2 cipher=ECDHE-RSA-AES128-GCM-SHA256 bits=128/128);\r
43         Mon, 02 Jun 2014 11:29:28 -0700 (PDT)\r
44 From: Jani Nikula <jani@nikula.org>\r
45 To: David Edmondson <david.edmondson@oracle.com>,\r
46         Mark Walters <markwalters1009@gmail.com>, Tomi Ollila <tomi.ollila@iki.fi>,\r
47         Vladimir Marek <Vladimir.Marek@oracle.com>, notmuch@notmuchmail.org\r
48 Subject: Re: Deduplication ?\r
49 In-Reply-To: <cunegz71aw9.fsf@gargravarr.hh.sledj.net>\r
50 References: <20140602123212.GA12639@virt.cz.oracle.com>\r
51         <87d2ers9mi.fsf@qmul.ac.uk> <m2ppirs8ea.fsf@guru.guru-group.fi>\r
52         <87ppirqtfa.fsf@qmul.ac.uk> <87y4xfz1fi.fsf@nikula.org>\r
53         <cunegz71aw9.fsf@gargravarr.hh.sledj.net>\r
54 User-Agent: Notmuch/0.18+24~gfe8cd90 (http://notmuchmail.org) Emacs/24.3.1\r
55         (x86_64-pc-linux-gnu)\r
56 Date: Mon, 02 Jun 2014 21:29:26 +0300\r
57 Message-ID: <87vbsjyxkp.fsf@nikula.org>\r
58 MIME-Version: 1.0\r
59 Content-Type: text/plain\r
60 X-BeenThere: notmuch@notmuchmail.org\r
61 X-Mailman-Version: 2.1.13\r
62 Precedence: list\r
63 List-Id: "Use and development of the notmuch mail system."\r
64         <notmuch.notmuchmail.org>\r
65 List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
66         <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
67 List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
68 List-Post: <mailto:notmuch@notmuchmail.org>\r
69 List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
70 List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
71         <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
72 X-List-Received-Date: Mon, 02 Jun 2014 18:29:39 -0000\r
73 \r
74 On Mon, 02 Jun 2014, David Edmondson <david.edmondson@oracle.com> wrote:\r
75 > On Mon, Jun 02 2014, Jani Nikula wrote:\r
76 >>>> One should also have some message content heuristics to determine that the\r
77 >>>> content is indeed duplicate and not something totally different (not that\r
78 >>>> we can see the different content anyway... but...)\r
79 >>>\r
80 >>> That would be nice.\r
81 >>\r
82 >> And quite hard.\r
83 >\r
84 > Thinking about this a bit...\r
85 >\r
86 > The headers are likely to be different, so you could remove them (get\r
87 > rid of everything up to the first empty line).\r
88 >\r
89 > Various mailing lists add footers, so you would need to remove them (a\r
90 > regular expression based approach would catch most of them easily).\r
91 \r
92 This may work for text/plain messages, but for mime messages (and I\r
93 think text/html too) an extra layer of mime structure is usually\r
94 added. The problem becomes matching a subtree of mime structure, and\r
95 deciding the non-matching layer is noise that can be ignored. The\r
96 mailing list manager adding the extra layer may also decode and\r
97 reconstruct the existing parts instead of using them as-is.\r
98 \r
99 > The remaining content should be the same for identical messages, so a\r
100 > sensible hash (md5) could be used to compare.\r
101 >\r
102 > Although, some MTAs modify the body of the message when manipulating\r
103 > encoding. I don't know how to address this.\r
104 \r
105 Let's assume we can figure it all out and find the duplicates. The\r
106 question remains, which one to save and which ones to remove? For list\r
107 mail, perhaps you'd like to save the copy you received through the list\r
108 so you know it's list mail (and you could search for it using list-id:\r
109 header *cough* if we indexed that *cough*). Or perhaps you'd like to\r
110 save the copy you received directly because some lists let people have\r
111 their addresses filtered from cc: header before distributing.\r
112 \r
113 More useful would probably be raising some flags if the heuristics\r
114 detect messages with the same message-id that are clearly *different*\r
115 messages. (Perhaps that's what Tomi was after to begin with?)\r
116 \r
117 Finally, I personally wouldn't want any duplicates removed; rather I'd\r
118 like notmuch to index information across all duplicates, and provide UI\r
119 features to see the alternatives if desired.\r
120 \r
121 BR,\r
122 Jani.\r