Re: [PATCH 9/9] add has: query prefix to search for specific properties
[notmuch-archives.git] / 0f / c9dac1c24a2d1c2173a8d681e5bbdebdd77c4e
1 Return-Path: <Vladimir.Marek@oracle.com>\r
2 X-Original-To: notmuch@notmuchmail.org\r
3 Delivered-To: notmuch@notmuchmail.org\r
4 Received: from localhost (localhost [127.0.0.1])\r
5         by olra.theworths.org (Postfix) with ESMTP id 61266431FBC\r
6         for <notmuch@notmuchmail.org>; Mon,  2 Jun 2014 06:22:48 -0700 (PDT)\r
7 X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
8 X-Spam-Flag: NO\r
9 X-Spam-Score: -2.299\r
10 X-Spam-Level: \r
11 X-Spam-Status: No, score=-2.299 tagged_above=-999 required=5\r
12         tests=[RCVD_IN_DNSWL_MED=-2.3, UNPARSEABLE_RELAY=0.001]\r
13         autolearn=disabled\r
14 Received: from olra.theworths.org ([127.0.0.1])\r
15         by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
16         with ESMTP id XIyWT63Mg4Er for <notmuch@notmuchmail.org>;\r
17         Mon,  2 Jun 2014 06:22:42 -0700 (PDT)\r
18 X-Greylist: delayed 3017 seconds by postgrey-1.32 at olra;\r
19         Mon, 02 Jun 2014 06:22:41 PDT\r
20 Received: from aserp1050.oracle.com (aserp1050.oracle.com [141.146.126.70])\r
21         (using TLSv1 with cipher DHE-RSA-AES256-SHA (256/256 bits))\r
22         (No client certificate requested)\r
23         by olra.theworths.org (Postfix) with ESMTPS id 00227431FAE\r
24         for <notmuch@notmuchmail.org>; Mon,  2 Jun 2014 06:22:41 -0700 (PDT)\r
25 Received: from aserp1040.oracle.com (aserp1040.oracle.com [141.146.126.69])\r
26         by aserp1050.oracle.com (Sentrion-MTA-4.3.2/Sentrion-MTA-4.3.2) with\r
27         ESMTP id s52CWOLT026192\r
28         (version=TLSv1/SSLv3 cipher=DHE-RSA-AES256-SHA bits=256 verify=OK)\r
29         for <notmuch@notmuchmail.org>; Mon, 2 Jun 2014 12:32:24 GMT\r
30 Received: from ucsinet21.oracle.com (ucsinet21.oracle.com [156.151.31.93])\r
31         by aserp1040.oracle.com (Sentrion-MTA-4.3.2/Sentrion-MTA-4.3.2) with\r
32         ESMTP id s52CWKMI005824\r
33         (version=TLSv1/SSLv3 cipher=DHE-RSA-AES256-SHA bits=256 verify=OK)\r
34         for <notmuch@notmuchmail.org>; Mon, 2 Jun 2014 12:32:21 GMT\r
35 Received: from userz7022.oracle.com (userz7022.oracle.com [156.151.31.86])\r
36         by ucsinet21.oracle.com (8.14.4+Sun/8.14.4) with ESMTP id\r
37         s52CWJ8M027689\r
38         (version=TLSv1/SSLv3 cipher=DHE-RSA-AES256-SHA bits=256 verify=NO)\r
39         for <notmuch@notmuchmail.org>; Mon, 2 Jun 2014 12:32:20 GMT\r
40 Received: from abhmp0007.oracle.com (abhmp0007.oracle.com [141.146.116.13])\r
41         by userz7022.oracle.com (8.14.5+Sun/8.14.4) with ESMTP id\r
42         s52CWHIY025494\r
43         for <notmuch@notmuchmail.org>; Mon, 2 Jun 2014 12:32:18 GMT\r
44 Received: from virt.cz.oracle.com (/10.163.102.127)\r
45         by default (Oracle Beehive Gateway v4.0)\r
46         with ESMTP ; Mon, 02 Jun 2014 05:32:16 -0700\r
47 Date: Mon, 2 Jun 2014 14:32:12 +0200\r
48 From: Vladimir Marek <Vladimir.Marek@oracle.com>\r
49 To: notmuch@notmuchmail.org\r
50 Subject: Deduplication ?\r
51 Message-ID: <20140602123212.GA12639@virt.cz.oracle.com>\r
52 MIME-Version: 1.0\r
53 Content-Type: text/plain; charset=utf-8\r
54 Content-Disposition: inline\r
55 User-Agent: Mutt/1.5.22.1-rc1 (2013-10-16)\r
56 X-Source-IP: aserp1040.oracle.com [141.146.126.69]\r
57 X-BeenThere: notmuch@notmuchmail.org\r
58 X-Mailman-Version: 2.1.13\r
59 Precedence: list\r
60 List-Id: "Use and development of the notmuch mail system."\r
61         <notmuch.notmuchmail.org>\r
62 List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
63         <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
64 List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
65 List-Post: <mailto:notmuch@notmuchmail.org>\r
66 List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
67 List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
68         <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
69 X-List-Received-Date: Mon, 02 Jun 2014 13:22:48 -0000\r
70 \r
71 Hi,\r
72 \r
73 I want to import bigger chunk of archived messages into my notmuch\r
74 database. It's about 100k messages. The problem is, that I most probably\r
75 have quite a lot of those messages in the DB. Basically I would like to\r
76 add only those I don't have already.\r
77 \r
78 There are two possibilities\r
79 \r
80 a) I will add all the 100k messages and then remove the duplicities.\r
81 \r
82 b) I will write a script which will parse the message ID's of the\r
83    to-be-added messages and try to match them to the notmuch DB. Adding\r
84    only files I can't find already.\r
85 \r
86 Ad b) might be better option, but I started to play with the idea of\r
87 deduplication. I'm thinking about listing all the message IDs stored in\r
88 DB, listing all files belonging to the IDs and deleting all but one.\r
89 Also I'm thinking about implementing some simple algorithm telling me\r
90 whether the messages are really very similar. Just to be sure I don't\r
91 delete something I don't want to.\r
92 \r
93 Was anyone playing with the idea?\r
94 \r
95 -- \r
96         Vlad\r