Re: v9 of batch tagging
authorMark Walters <markwalters1009@gmail.com>
Mon, 24 Dec 2012 02:34:33 +0000 (02:34 +0000)
committerW. Trevor King <wking@tremily.us>
Fri, 7 Nov 2014 17:52:41 +0000 (09:52 -0800)
ec/e26fff036fde48ecb9b45ae0a9e06686964f2f [new file with mode: 0644]

diff --git a/ec/e26fff036fde48ecb9b45ae0a9e06686964f2f b/ec/e26fff036fde48ecb9b45ae0a9e06686964f2f
new file mode 100644 (file)
index 0000000..f9efc60
--- /dev/null
@@ -0,0 +1,260 @@
+Return-Path: <m.walters@qmul.ac.uk>\r
+X-Original-To: notmuch@notmuchmail.org\r
+Delivered-To: notmuch@notmuchmail.org\r
+Received: from localhost (localhost [127.0.0.1])\r
+       by olra.theworths.org (Postfix) with ESMTP id 2322A431FBC\r
+       for <notmuch@notmuchmail.org>; Sun, 23 Dec 2012 18:34:44 -0800 (PST)\r
+X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
+X-Spam-Flag: NO\r
+X-Spam-Score: -1.098\r
+X-Spam-Level: \r
+X-Spam-Status: No, score=-1.098 tagged_above=-999 required=5\r
+       tests=[DKIM_ADSP_CUSTOM_MED=0.001, FREEMAIL_FROM=0.001,\r
+       NML_ADSP_CUSTOM_MED=1.2, RCVD_IN_DNSWL_MED=-2.3] autolearn=disabled\r
+Received: from olra.theworths.org ([127.0.0.1])\r
+       by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
+       with ESMTP id tfdxGNHbv73t for <notmuch@notmuchmail.org>;\r
+       Sun, 23 Dec 2012 18:34:43 -0800 (PST)\r
+Received: from mail2.qmul.ac.uk (mail2.qmul.ac.uk [138.37.6.6])\r
+       (using TLSv1 with cipher DHE-RSA-AES256-SHA (256/256 bits))\r
+       (No client certificate requested)\r
+       by olra.theworths.org (Postfix) with ESMTPS id A4975431FAF\r
+       for <notmuch@notmuchmail.org>; Sun, 23 Dec 2012 18:34:42 -0800 (PST)\r
+Received: from smtp.qmul.ac.uk ([138.37.6.40])\r
+       by mail2.qmul.ac.uk with esmtp (Exim 4.71)\r
+       (envelope-from <m.walters@qmul.ac.uk>)\r
+       id 1TmxsA-0003Ts-Dk; Mon, 24 Dec 2012 02:34:36 +0000\r
+Received: from 93-97-24-31.zone5.bethere.co.uk ([93.97.24.31] helo=localhost)\r
+       by smtp.qmul.ac.uk with esmtpsa (TLSv1:AES128-SHA:128) (Exim 4.69)\r
+       (envelope-from <m.walters@qmul.ac.uk>)\r
+       id 1Tmxs9-0003hM-T4; Mon, 24 Dec 2012 02:34:34 +0000\r
+From: Mark Walters <markwalters1009@gmail.com>\r
+To: david@tethera.net, notmuch@notmuchmail.org\r
+Subject: Re: v9 of batch tagging\r
+In-Reply-To: <1356313183-9266-1-git-send-email-david@tethera.net>\r
+References: <1356313183-9266-1-git-send-email-david@tethera.net>\r
+User-Agent: Notmuch/0.14+236~g1d0044f (http://notmuchmail.org) Emacs/23.4.1\r
+       (x86_64-pc-linux-gnu)\r
+Date: Mon, 24 Dec 2012 02:34:33 +0000\r
+Message-ID: <8738yw2n5y.fsf@qmul.ac.uk>\r
+MIME-Version: 1.0\r
+Content-Type: text/plain; charset=us-ascii\r
+X-Sender-Host-Address: 93.97.24.31\r
+X-QM-SPAM-Info: Sender has good ham record.  :)\r
+X-QM-Body-MD5: 0364f6ddfdb86c7c92c1825bff0e5610 (of first 20000 bytes)\r
+X-SpamAssassin-Score: -1.8\r
+X-SpamAssassin-SpamBar: -\r
+X-SpamAssassin-Report: The QM spam filters have analysed this message to\r
+       determine if it is\r
+       spam. We require at least 5.0 points to mark a message as spam.\r
+       This message scored -1.8 points.\r
+       Summary of the scoring: \r
+       * -2.3 RCVD_IN_DNSWL_MED RBL: Sender listed at http://www.dnswl.org/,\r
+       *      medium trust\r
+       *      [138.37.6.40 listed in list.dnswl.org]\r
+       * 0.0 FREEMAIL_FROM Sender email is commonly abused enduser mail\r
+       provider *      (markwalters1009[at]gmail.com)\r
+       * -0.0 T_RP_MATCHES_RCVD Envelope sender domain matches handover relay\r
+       *      domain\r
+       *  0.5 AWL AWL: From: address is in the auto white-list\r
+X-QM-Scan-Virus: ClamAV says the message is clean\r
+X-BeenThere: notmuch@notmuchmail.org\r
+X-Mailman-Version: 2.1.13\r
+Precedence: list\r
+List-Id: "Use and development of the notmuch mail system."\r
+       <notmuch.notmuchmail.org>\r
+List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
+List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
+List-Post: <mailto:notmuch@notmuchmail.org>\r
+List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
+List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
+X-List-Received-Date: Mon, 24 Dec 2012 02:34:44 -0000\r
+\r
+\r
+On Mon, 24 Dec 2012, david@tethera.net wrote:\r
+> This obsoletes \r
+>\r
+>      id:1356095307-22895-1-git-send-email-david@tethera.net\r
+>\r
+> The main changes since v8 are the rebasing against the notmuch-restore\r
+> fixes in master, and the rewrite of the query (pre)-processing\r
+> unhex_and_quote. This incorporates the changes of\r
+>\r
+>       id:1356231570-28232-1-git-send-email-david@tethera.net\r
+>\r
+> and  now handles '()'  (cf. id:87a9t5p4dz.fsf@qmul.ac.uk)\r
+>\r
+> With respect to \r
+>\r
+> ,----\r
+> | Finally, I don't know if a query can contain a : without being a\r
+> | prefix query. If it can that could end up being misquoted.\r
+> `----\r
+>\r
+> This is pretty easy to work around by encoding that :. I think unless\r
+> it is a problem in practice I prefer not to keep an explicity list of\r
+> prefixes here; recognizing prefixes should really be a service from\r
+> libnotmuch.\r
+\r
+I am quite happy with this.\r
+\r
+> I dropped two patches (strnspn and hex_invariant), but picked up a new\r
+> strtok variation. Probably the name strtok_len2 could be improved\r
+> (and I see there is a typo in the patch subject).\r
+>\r
+>  [Patch v9 05/17] util/string-util: add a new string tokenized\r
+>\r
+\r
+Patches 5 and 6 look good to me.\r
+\r
+> Finally I added a test for the new parenthesis handling.\r
+\r
+My recollection is that dump prints the messages unsorted: does this\r
+mean that we could get unstable results for these tests (eg with\r
+different Xapian versions)? \r
+\r
+Best wishes\r
+\r
+Mark\r
+\r
+>\r
+> [Patch v9 17/17] test/tagging: add test for handling of parens\r
+>\r
+\r
+\r
+> Fixup wise, the tests needed to be adjusted a bit for () being delimiters, \r
+> and the man page as well.\r
+>\r
+> I added the fclose in id:87wqw9hf9a.fsf@oiva.home.nikula.org\r
+>\r
+> And I modified the return value per id:87zk15hi7f.fsf@oiva.home.nikula.org\r
+>\r
+> Here is the interdiff for unhex_and_quote:\r
+>\r
+> commit 67c6aee87db5c7da25529e1c0feb64e422abb4b7\r
+> Author: David Bremner <bremner@unb.ca>\r
+> Date:   Sat Dec 22 22:49:02 2012 -0400\r
+>\r
+>     simplify unhex_and_quote, support parens\r
+>     \r
+>     the overgeneral definition of a prefix can be replaced by lower case\r
+>     alphabetic, and still work fine with current notmuch query syntax.\r
+>     \r
+>     use () as delimiters in unhex_and_quote, preserve delimiters\r
+>\r
+> diff --git a/tag-util.c b/tag-util.c\r
+> index 6f62fe6..91f3603 100644\r
+> --- a/tag-util.c\r
+> +++ b/tag-util.c\r
+> @@ -56,6 +56,21 @@ illegal_tag (const char *tag, notmuch_bool_t remove)\r
+>      return NULL;\r
+>  }\r
+>  \r
+> +/* Factor out the boilerplate to append a token to the query string.\r
+> + * For use in unhex_and_quote */\r
+> +\r
+> +static tag_parse_status_t\r
+> +append_tok (const char *tok, size_t tok_len,\r
+> +        const char *line_for_error, char **query_string)\r
+> +{\r
+> +\r
+> +    *query_string = talloc_strndup_append_buffer (*query_string, tok, tok_len);\r
+> +    if (*query_string == NULL)\r
+> +    return line_error (TAG_PARSE_OUT_OF_MEMORY, line_for_error, "aborting");\r
+> +\r
+> +    return TAG_PARSE_SUCCESS;\r
+> +}\r
+> +\r
+>  /* Input is a hex encoded string, presumed to be a query for Xapian.\r
+>   *\r
+>   * Space delimited tokens are decoded and quoted, with '*' and prefixes\r
+> @@ -67,45 +82,41 @@ unhex_and_quote (void *ctx, char *encoded, const char *line_for_error,\r
+>  {\r
+>      char *tok = encoded;\r
+>      size_t tok_len = 0;\r
+> +    size_t delim_len = 0;\r
+>      char *buf = NULL;\r
+>      size_t buf_len = 0;\r
+>      tag_parse_status_t ret = TAG_PARSE_SUCCESS;\r
+>  \r
+>      *query_string = talloc_strdup (ctx, "");\r
+>  \r
+> -    while ((tok = strtok_len (tok + tok_len, " ", &tok_len)) != NULL) {\r
+> +    while ((tok = strtok_len2 (tok + tok_len + delim_len, " ()",\r
+> +                           &tok_len, &delim_len)) != NULL) {\r
+>  \r
+>      size_t prefix_len;\r
+>      char delim = *(tok + tok_len);\r
+>  \r
+> -    *(tok + tok_len++) = '\0';\r
+> +    *(tok + tok_len) = '\0';\r
+>  \r
+> -    prefix_len = hex_invariant (tok, tok_len);\r
+> +    /* The following matches a superset of prefixes currently\r
+> +     * used by notmuch */\r
+> +    prefix_len = strspn (tok, "abcdefghijklmnopqrstuvwxyz");\r
+>  \r
+> -    if ((strcmp (tok, "*") == 0) || prefix_len >= tok_len - 1) {\r
+> +    if ((strcmp (tok, "*") == 0) || prefix_len == tok_len) {\r
+>  \r
+>          /* pass some things through without quoting or decoding.\r
+>           * Note for '*' this is mandatory.\r
+>           */\r
+>  \r
+> -        if (! (*query_string = talloc_asprintf_append_buffer (\r
+> -                   *query_string, "%s%c", tok, delim))) {\r
+> -\r
+> -            ret = line_error (TAG_PARSE_OUT_OF_MEMORY,\r
+> -                              line_for_error, "aborting");\r
+> -            goto DONE;\r
+> -        }\r
+> +        ret = append_tok (tok, tok_len, line_for_error, query_string);\r
+> +        if (ret) goto DONE;\r
+>  \r
+>      } else {\r
+>          /* potential prefix: one for ':', then something after */\r
+> -        if ((tok_len - prefix_len > 2) && *(tok + prefix_len) == ':') {\r
+> -            if (! (*query_string = talloc_strndup_append (*query_string,\r
+> -                                                          tok,\r
+> -                                                          prefix_len + 1))) {\r
+> -                ret = line_error (TAG_PARSE_OUT_OF_MEMORY,\r
+> -                                  line_for_error, "aborting");\r
+> -                goto DONE;\r
+> -            }\r
+> +        if ((tok_len - prefix_len >= 2) && *(tok + prefix_len) == ':') {\r
+> +            ret = append_tok (tok, prefix_len + 1,\r
+> +                              line_for_error, query_string);\r
+> +            if (ret) goto DONE;\r
+> +\r
+>              tok += prefix_len + 1;\r
+>              tok_len -= prefix_len + 1;\r
+>          }\r
+> @@ -122,13 +133,15 @@ unhex_and_quote (void *ctx, char *encoded, const char *line_for_error,\r
+>              goto DONE;\r
+>          }\r
+>  \r
+> -        if (! (*query_string = talloc_asprintf_append_buffer (\r
+> -                   *query_string, "%s%c", buf, delim))) {\r
+> -            ret = line_error (TAG_PARSE_OUT_OF_MEMORY,\r
+> -                              line_for_error, "aborting");\r
+> -            goto DONE;\r
+> -        }\r
+> +        ret = append_tok (buf, buf_len, line_for_error, query_string);\r
+> +        if (ret) goto DONE;\r
+>      }\r
+> +    /* restore the string */\r
+> +    *(tok + tok_len) = delim;\r
+> +\r
+> +    /* copy any delimiters */\r
+> +    ret = append_tok (tok + tok_len, delim_len, line_for_error, query_string);\r
+> +    if (ret) goto DONE;\r
+>      }\r
+>  \r
+>    DONE:\r
+>\r
+> _______________________________________________\r
+> notmuch mailing list\r
+> notmuch@notmuchmail.org\r
+> http://notmuchmail.org/mailman/listinfo/notmuch\r