[PATCH 6/9 v3 part 2/2] cli: change the data structure for notmuch address deduplication
authorJani Nikula <jani@nikula.org>
Fri, 25 Sep 2015 16:48:20 +0000 (19:48 +0300)
committerW. Trevor King <wking@tremily.us>
Sat, 20 Aug 2016 21:49:37 +0000 (14:49 -0700)
9a/8160360ff1573c1e17eaf5bb2471d642701d9e [new file with mode: 0644]

diff --git a/9a/8160360ff1573c1e17eaf5bb2471d642701d9e b/9a/8160360ff1573c1e17eaf5bb2471d642701d9e
new file mode 100644 (file)
index 0000000..9e75246
--- /dev/null
@@ -0,0 +1,230 @@
+Return-Path: <jani@nikula.org>\r
+X-Original-To: notmuch@notmuchmail.org\r
+Delivered-To: notmuch@notmuchmail.org\r
+Received: from localhost (localhost [127.0.0.1])\r
+ by arlo.cworth.org (Postfix) with ESMTP id 2D7626DE1271\r
+ for <notmuch@notmuchmail.org>; Fri, 25 Sep 2015 09:48:45 -0700 (PDT)\r
+X-Virus-Scanned: Debian amavisd-new at cworth.org\r
+X-Spam-Flag: NO\r
+X-Spam-Score: -0.513\r
+X-Spam-Level: \r
+X-Spam-Status: No, score=-0.513 tagged_above=-999 required=5 tests=[AWL=0.207,\r
+  RCVD_IN_DNSWL_LOW=-0.7, RCVD_IN_MSPIKE_H3=-0.01, RCVD_IN_MSPIKE_WL=-0.01]\r
+ autolearn=disabled\r
+Received: from arlo.cworth.org ([127.0.0.1])\r
+ by localhost (arlo.cworth.org [127.0.0.1]) (amavisd-new, port 10024)\r
+ with ESMTP id fAQjkAqo8-uS for <notmuch@notmuchmail.org>;\r
+ Fri, 25 Sep 2015 09:48:43 -0700 (PDT)\r
+Received: from mail-wi0-f173.google.com (mail-wi0-f173.google.com\r
+ [209.85.212.173])\r
+ by arlo.cworth.org (Postfix) with ESMTPS id 29B626DE0B64\r
+ for <notmuch@notmuchmail.org>; Fri, 25 Sep 2015 09:48:43 -0700 (PDT)\r
+Received: by wiclk2 with SMTP id lk2so29886671wic.0\r
+ for <notmuch@notmuchmail.org>; Fri, 25 Sep 2015 09:48:41 -0700 (PDT)\r
+X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;\r
+ d=1e100.net; s=20130820;\r
+ h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to\r
+ :references;\r
+ bh=bTtx3JWHo+A/OFwZ8eU8V8k7Kk1T6eVxK75jkReLZK8=;\r
+ b=Or9VdLXF6hCHQ8DxmNXTGOisUBOkZArkyJbwDWA3BrZ5mVYBsPTupILF7Y9H+dZaYo\r
+ 4L/mtwXdO/cpl5jIa5c7UU8lUpRRDPrKZlZmYcMTc+W9ZyXyzY/HUJGT1T7WuBeaaFNq\r
+ rk7FnTsaDBMydPOgsYabHjaenZAhwSpbuHqaAC+kwMB2mIpBfTdxGISMMSJbnGwj1x5l\r
+ AWflv6POtfYTXPld9HTlCEIV8dZRRQ13VmRJ3mhlRAU3FPRJOIloIn0C84uVFUd2s+J/\r
+ /CpT3aaF7PMKPGfU4GYBoo9Sipdn78AbjF3xzuKlWgiw/czsn0t1H8GV4Qc75RgXnqKe\r
+ Faig==\r
+X-Gm-Message-State:\r
+ ALoCoQlIxvFmFLHeDfEAA/5pGeOtg2U5F2N7WKc9GmEpTYWbvJWaSgVzGtF6V0RW+JFbcxmx4ueE\r
+X-Received: by 10.180.107.164 with SMTP id hd4mr4754539wib.94.1443199721667;\r
+ Fri, 25 Sep 2015 09:48:41 -0700 (PDT)\r
+Received: from localhost (mobile-access-bcee63-221.dhcp.inet.fi.\r
+ [188.238.99.221])\r
+ by smtp.gmail.com with ESMTPSA id hk5sm4205985wjb.6.2015.09.25.09.48.40\r
+ (version=TLSv1/SSLv3 cipher=OTHER);\r
+ Fri, 25 Sep 2015 09:48:40 -0700 (PDT)\r
+From: Jani Nikula <jani@nikula.org>\r
+To: David Bremner <david@tethera.net>, Jani Nikula <jani@nikula.org>,\r
+ notmuch@notmuchmail.org\r
+Subject: [PATCH 6/9 v3 part 2/2] cli: change the data structure for notmuch\r
+ address deduplication\r
+Date: Fri, 25 Sep 2015 19:48:20 +0300\r
+Message-Id: <1443199700-16654-2-git-send-email-jani@nikula.org>\r
+X-Mailer: git-send-email 2.1.4\r
+In-Reply-To: <1443199700-16654-1-git-send-email-jani@nikula.org>\r
+References: <878u7v2y3x.fsf@zancas.localnet>\r
+ <1443199700-16654-1-git-send-email-jani@nikula.org>\r
+X-BeenThere: notmuch@notmuchmail.org\r
+X-Mailman-Version: 2.1.18\r
+Precedence: list\r
+List-Id: "Use and development of the notmuch mail system."\r
+ <notmuch.notmuchmail.org>\r
+List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
+ <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
+List-Archive: <http://notmuchmail.org/pipermail/notmuch/>\r
+List-Post: <mailto:notmuch@notmuchmail.org>\r
+List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
+List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
+ <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
+X-List-Received-Date: Fri, 25 Sep 2015 16:48:45 -0000\r
+\r
+Currently we key the address hash table with the case sensitive "name\r
+<address>". Switch to case insensitive keying with just address, and\r
+store the case sensitive name and address in linked lists. This will\r
+be helpful in adding support for different deduplication schemes in\r
+the future.\r
+\r
+There will be a slight performance penalty for the current full case\r
+sensitive name + address deduplication, but this is simpler as a whole\r
+when other deduplication schemes are added, and I expect the schemes\r
+to be added to become more popular than the current default.\r
+\r
+Aparet from the possible performance penalty, the only user visible\r
+change should be the change in the output ordering for\r
+--output=count. The order is not guaranteed (and is based on hash\r
+table traversal) currently anyway, so this should be of no\r
+consequence.\r
+\r
+---\r
+\r
+v3: abstract strcmp_null\r
+---\r
+ notmuch-client.h |  1 +\r
+ notmuch-search.c | 80 +++++++++++++++++++++++++++++++++++++++++++++-----------\r
+ 2 files changed, 66 insertions(+), 15 deletions(-)\r
+\r
+diff --git a/notmuch-client.h b/notmuch-client.h\r
+index de8a3b15f865..3bd2903ec54a 100644\r
+--- a/notmuch-client.h\r
++++ b/notmuch-client.h\r
+@@ -48,6 +48,7 @@ typedef GMimeCryptoContext notmuch_crypto_context_t;\r
+ #include <dirent.h>\r
+ #include <errno.h>\r
+ #include <signal.h>\r
++#include <ctype.h>\r
\r
+ #include "talloc-extra.h"\r
\r
+diff --git a/notmuch-search.c b/notmuch-search.c\r
+index 966c310f8f18..6cac0fcdc1df 100644\r
+--- a/notmuch-search.c\r
++++ b/notmuch-search.c\r
+@@ -265,30 +265,70 @@ static mailbox_t *new_mailbox (void *ctx, const char *name, const char *addr)\r
+     return mailbox;\r
+ }\r
\r
++static int mailbox_compare (const void *v1, const void *v2)\r
++{\r
++    const mailbox_t *m1 = v1, *m2 = v2;\r
++    int ret;\r
++\r
++    ret = strcmp_null (m1->name, m2->name);\r
++    if (! ret)\r
++      ret = strcmp (m1->addr, m2->addr);\r
++\r
++    return ret;\r
++}\r
++\r
+ /* Returns TRUE iff name and addr is duplicate. If not, stores the\r
+  * name/addr pair in order to detect subsequent duplicates. */\r
+ static notmuch_bool_t\r
+ is_duplicate (const search_context_t *ctx, const char *name, const char *addr)\r
+ {\r
+     char *key;\r
++    GList *list, *l;\r
+     mailbox_t *mailbox;\r
\r
+-    key = talloc_asprintf (ctx->format, "%s <%s>", name, addr);\r
+-    if (! key)\r
+-      return FALSE;\r
++    list = g_hash_table_lookup (ctx->addresses, addr);\r
++    if (list) {\r
++      mailbox_t find = {\r
++          .name = name,\r
++          .addr = addr,\r
++      };\r
++\r
++      l = g_list_find_custom (list, &find, mailbox_compare);\r
++      if (l) {\r
++          mailbox = l->data;\r
++          mailbox->count++;\r
++          return TRUE;\r
++      }\r
++\r
++      mailbox = new_mailbox (ctx->format, name, addr);\r
++      if (! mailbox)\r
++          return FALSE;\r
\r
+-    mailbox = g_hash_table_lookup (ctx->addresses, key);\r
+-    if (mailbox) {\r
+-      mailbox->count++;\r
+-      talloc_free (key);\r
+-      return TRUE;\r
++      /*\r
++       * XXX: It would be more efficient to prepend to the list, but\r
++       * then we'd have to store the changed list head back to the\r
++       * hash table. This check is here just to avoid the compiler\r
++       * warning for unused result.\r
++       */\r
++      if (list != g_list_append (list, mailbox))\r
++          INTERNAL_ERROR ("appending to list changed list head\n");\r
++\r
++      return FALSE;\r
+     }\r
\r
++    key = talloc_strdup (ctx->format, addr);\r
++    if (! key)\r
++      return FALSE;\r
++\r
+     mailbox = new_mailbox (ctx->format, name, addr);\r
+     if (! mailbox)\r
+       return FALSE;\r
\r
+-    g_hash_table_insert (ctx->addresses, key, mailbox);\r
++    list = g_list_append (NULL, mailbox);\r
++    if (! list)\r
++      return FALSE;\r
++\r
++    g_hash_table_insert (ctx->addresses, key, list);\r
\r
+     return FALSE;\r
+ }\r
+@@ -401,12 +441,21 @@ _talloc_free_for_g_hash (void *ptr)\r
+ }\r
\r
+ static void\r
+-print_hash_value (unused (gpointer key), gpointer value, gpointer user_data)\r
++_list_free_for_g_hash (void *ptr)\r
+ {\r
+-    const mailbox_t *mailbox = value;\r
+-    search_context_t *ctx = user_data;\r
++    g_list_free_full (ptr, _talloc_free_for_g_hash);\r
++}\r
\r
+-    print_mailbox (ctx, mailbox);\r
++static void\r
++print_list_value (void *mailbox, void *context)\r
++{\r
++    print_mailbox (context, mailbox);\r
++}\r
++\r
++static void\r
++print_hash_value (unused (void *key), void *list, void *context)\r
++{\r
++    g_list_foreach (list, print_list_value, context);\r
+ }\r
\r
+ static int\r
+@@ -794,8 +843,9 @@ notmuch_address_command (notmuch_config_t *config, int argc, char *argv[])\r
+                                argc - opt_index, argv + opt_index))\r
+       return EXIT_FAILURE;\r
\r
+-    ctx->addresses = g_hash_table_new_full (g_str_hash, g_str_equal,\r
+-                                          _talloc_free_for_g_hash, _talloc_free_for_g_hash);\r
++    ctx->addresses = g_hash_table_new_full (strcase_hash, strcase_equal,\r
++                                          _talloc_free_for_g_hash,\r
++                                          _list_free_for_g_hash);\r
\r
+     ret = do_search_messages (ctx);\r
\r
+-- \r
+2.1.4\r
+\r