[Patch v7 4/6] restore: transparently support gzipped input
authorDavid Bremner <david@tethera.net>
Sat, 5 Apr 2014 15:43:54 +0000 (12:43 +2100)
committerW. Trevor King <wking@tremily.us>
Fri, 7 Nov 2014 18:01:13 +0000 (10:01 -0800)
90/4806306dee1e4d8c1e7fd2b7401352fcd4e7b7 [new file with mode: 0644]

diff --git a/90/4806306dee1e4d8c1e7fd2b7401352fcd4e7b7 b/90/4806306dee1e4d8c1e7fd2b7401352fcd4e7b7
new file mode 100644 (file)
index 0000000..66a17ed
--- /dev/null
@@ -0,0 +1,258 @@
+Return-Path: <bremner@tesseract.cs.unb.ca>\r
+X-Original-To: notmuch@notmuchmail.org\r
+Delivered-To: notmuch@notmuchmail.org\r
+Received: from localhost (localhost [127.0.0.1])\r
+       by olra.theworths.org (Postfix) with ESMTP id 17A8E431FAF\r
+       for <notmuch@notmuchmail.org>; Sat,  5 Apr 2014 08:45:18 -0700 (PDT)\r
+X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
+X-Spam-Flag: NO\r
+X-Spam-Score: 0\r
+X-Spam-Level: \r
+X-Spam-Status: No, score=0 tagged_above=-999 required=5 tests=[none]\r
+       autolearn=disabled\r
+Received: from olra.theworths.org ([127.0.0.1])\r
+       by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
+       with ESMTP id nP370GN0pgg2 for <notmuch@notmuchmail.org>;\r
+       Sat,  5 Apr 2014 08:45:12 -0700 (PDT)\r
+Received: from mx.xen14.node3324.gplhost.com (gitolite.debian.net\r
+       [87.98.215.224]) (using TLSv1 with cipher AES256-SHA (256/256 bits))\r
+       (No client certificate requested)\r
+       by olra.theworths.org (Postfix) with ESMTPS id 22F92431FAE\r
+       for <notmuch@notmuchmail.org>; Sat,  5 Apr 2014 08:45:12 -0700 (PDT)\r
+Received: from remotemail by mx.xen14.node3324.gplhost.com with local (Exim\r
+       4.72) (envelope-from <bremner@tesseract.cs.unb.ca>)\r
+       id 1WWSlh-00082M-NT; Sat, 05 Apr 2014 15:44:29 +0000\r
+Received: (nullmailer pid 10918 invoked by uid 1000); Sat, 05 Apr 2014\r
+       15:43:59 -0000\r
+From: David Bremner <david@tethera.net>\r
+To: notmuch@notmuchmail.org\r
+Subject: [Patch v7 4/6] restore: transparently support gzipped input\r
+Date: Sat,  5 Apr 2014 12:43:54 -0300\r
+Message-Id: <1396712636-10640-5-git-send-email-david@tethera.net>\r
+X-Mailer: git-send-email 1.9.0\r
+In-Reply-To: <1396712636-10640-1-git-send-email-david@tethera.net>\r
+References: <1396712636-10640-1-git-send-email-david@tethera.net>\r
+X-BeenThere: notmuch@notmuchmail.org\r
+X-Mailman-Version: 2.1.13\r
+Precedence: list\r
+List-Id: "Use and development of the notmuch mail system."\r
+       <notmuch.notmuchmail.org>\r
+List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
+List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
+List-Post: <mailto:notmuch@notmuchmail.org>\r
+List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
+List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
+X-List-Received-Date: Sat, 05 Apr 2014 15:45:18 -0000\r
+\r
+We rely completely on zlib to do the right thing in detecting gzipped\r
+input. Since our dump format is chosen to be 7 bit ascii, this should\r
+be fine.\r
+---\r
+ doc/man1/notmuch-restore.rst |  8 ++++\r
+ notmuch-restore.c            | 93 +++++++++++++++++++++++++++++++++-----------\r
+ test/T240-dump-restore.sh    | 14 +++++++\r
+ 3 files changed, 92 insertions(+), 23 deletions(-)\r
+\r
+diff --git a/doc/man1/notmuch-restore.rst b/doc/man1/notmuch-restore.rst\r
+index d6cf19a..936b138 100644\r
+--- a/doc/man1/notmuch-restore.rst\r
++++ b/doc/man1/notmuch-restore.rst\r
+@@ -50,6 +50,14 @@ Supported options for **restore** include\r
+             format, this heuristic, based the fact that batch-tag format\r
+             contains no parentheses, should be accurate.\r
\r
++GZIPPED INPUT\r
++=============\r
++\r
++\ **notmuch restore** will detect if the input is compressed in\r
++**gzip(1)** format and automatically decompress it while reading. This\r
++detection does not depend on file naming and in particular works for\r
++standard input.\r
++\r
+ SEE ALSO\r
+ ========\r
\r
+diff --git a/notmuch-restore.c b/notmuch-restore.c\r
+index c54d513..7abee0a 100644\r
+--- a/notmuch-restore.c\r
++++ b/notmuch-restore.c\r
+@@ -22,6 +22,7 @@\r
+ #include "hex-escape.h"\r
+ #include "tag-util.h"\r
+ #include "string-util.h"\r
++#include "zlib-extra.h"\r
\r
+ static regex_t regex;\r
\r
+@@ -128,10 +129,10 @@ notmuch_restore_command (notmuch_config_t *config, int argc, char *argv[])\r
+     tag_op_list_t *tag_ops;\r
\r
+     char *input_file_name = NULL;\r
+-    FILE *input = stdin;\r
++    const char *name_for_error = NULL;\r
++    gzFile input = NULL;\r
+     char *line = NULL;\r
+     void *line_ctx = NULL;\r
+-    size_t line_size;\r
+     ssize_t line_len;\r
\r
+     int ret = 0;\r
+@@ -157,39 +158,69 @@ notmuch_restore_command (notmuch_config_t *config, int argc, char *argv[])\r
+     };\r
\r
+     opt_index = parse_arguments (argc, argv, options, 1);\r
+-    if (opt_index < 0)\r
+-      return EXIT_FAILURE;\r
++    if (opt_index < 0) {\r
++      ret = EXIT_FAILURE;\r
++      goto DONE;\r
++    }\r
++\r
++    name_for_error = input_file_name ? input_file_name : "stdin";\r
\r
+     if (! accumulate)\r
+       flags |= TAG_FLAG_REMOVE_ALL;\r
\r
+-    if (input_file_name) {\r
+-      input = fopen (input_file_name, "r");\r
+-      if (input == NULL) {\r
+-          fprintf (stderr, "Error opening %s for reading: %s\n",\r
+-                   input_file_name, strerror (errno));\r
+-          return EXIT_FAILURE;\r
++    errno = 0;\r
++    if (input_file_name)\r
++      input = gzopen (input_file_name, "r");\r
++    else {\r
++      int infd = dup (STDIN_FILENO);\r
++      if (infd < 0) {\r
++          fprintf (stderr, "Error duping stdin: %s\n",\r
++                   strerror (errno));\r
++          ret = EXIT_FAILURE;\r
++          goto DONE;\r
+       }\r
++      input = gzdopen (infd, "r");\r
++      if (! input)\r
++          close (infd);\r
++    }\r
++\r
++    if (input == NULL) {\r
++      fprintf (stderr, "Error opening %s for (gzip) reading: %s\n",\r
++               name_for_error, strerror (errno));\r
++      ret = EXIT_FAILURE;\r
++      goto DONE;\r
+     }\r
\r
+     if (opt_index < argc) {\r
+       fprintf (stderr, "Unused positional parameter: %s\n", argv[opt_index]);\r
+-      return EXIT_FAILURE;\r
++      ret = EXIT_FAILURE;\r
++      goto DONE;\r
+     }\r
\r
+     tag_ops = tag_op_list_create (config);\r
+     if (tag_ops == NULL) {\r
+       fprintf (stderr, "Out of memory.\n");\r
+-      return EXIT_FAILURE;\r
++      ret = EXIT_FAILURE;\r
++      goto DONE;\r
+     }\r
\r
+     do {\r
+-      line_len = getline (&line, &line_size, input);\r
++      util_status_t status;\r
++\r
++      status = gz_getline (line_ctx, &line, &line_len, input);\r
\r
+       /* empty input file not considered an error */\r
+-      if (line_len < 0)\r
+-          return EXIT_SUCCESS;\r
++      if (status == UTIL_EOF) {\r
++          ret = EXIT_SUCCESS;\r
++          goto DONE;\r
++      }\r
\r
++      if (status) {\r
++          fprintf (stderr, "Error reading (gzipped) input: %s\n",\r
++                   gz_error_string(status, input));\r
++          ret = EXIT_FAILURE;\r
++          goto DONE;\r
++      }\r
+     } while ((line_len == 0) ||\r
+            (line[0] == '#') ||\r
+            /* the cast is safe because we checked about for line_len < 0 */\r
+@@ -254,21 +285,37 @@ notmuch_restore_command (notmuch_config_t *config, int argc, char *argv[])\r
+       if (ret)\r
+           break;\r
\r
+-    }  while ((line_len = getline (&line, &line_size, input)) != -1);\r
++    }  while (! (ret = gz_getline (line_ctx, &line, &line_len, input)));\r
++    \r
\r
+-    if (line_ctx != NULL)\r
+-      talloc_free (line_ctx);\r
++    /* EOF is normal loop termination condition, UTIL_SUCCESS is\r
++     * impossible here */\r
++    if (ret == UTIL_EOF) {\r
++      ret = UTIL_SUCCESS;\r
++    } else {\r
++      fprintf (stderr, "Error reading (gzipped) input: %s\n",\r
++               gz_error_string (ret, input));\r
++    }\r
++\r
++    /* currently this should not be after DONE: since we don't \r
++     * know if the xregcomp was reached\r
++     */\r
\r
+     if (input_format == DUMP_FORMAT_SUP)\r
+       regfree (&regex);\r
\r
+-    if (line)\r
+-      free (line);\r
++ DONE:\r
++    if (line_ctx != NULL)\r
++      talloc_free (line_ctx);\r
\r
+-    notmuch_database_destroy (notmuch);\r
++    if (notmuch)\r
++      notmuch_database_destroy (notmuch);\r
\r
+-    if (input != stdin)\r
+-      fclose (input);\r
++    if (input && gzclose_r (input)) {\r
++      fprintf (stderr, "Error closing %s: %s\n",\r
++               name_for_error, gzerror (input, NULL));\r
++      ret = EXIT_FAILURE;\r
++    }\r
\r
+     return ret ? EXIT_FAILURE : EXIT_SUCCESS;\r
+ }\r
+diff --git a/test/T240-dump-restore.sh b/test/T240-dump-restore.sh\r
+index b6d8602..efe463e 100755\r
+--- a/test/T240-dump-restore.sh\r
++++ b/test/T240-dump-restore.sh\r
+@@ -80,6 +80,20 @@ notmuch dump --gzip --output=dump-gzip-outfile.gz\r
+ gunzip dump-gzip-outfile.gz\r
+ test_expect_equal_file dump.expected dump-gzip-outfile\r
\r
++test_begin_subtest "restoring gzipped stdin"\r
++notmuch dump --gzip --output=backup.gz\r
++notmuch tag +new_tag '*'\r
++notmuch restore < backup.gz\r
++notmuch dump --output=dump.actual\r
++test_expect_equal_file dump.expected dump.actual\r
++\r
++test_begin_subtest "restoring gzipped file"\r
++notmuch dump --gzip --output=backup.gz\r
++notmuch tag +new_tag '*'\r
++notmuch restore --input=backup.gz\r
++notmuch dump --output=dump.actual\r
++test_expect_equal_file dump.expected dump.actual\r
++\r
+ # Note, we assume all messages from cworth have a message-id\r
+ # containing cworth.org\r
\r
+-- \r
+1.9.0\r
+\r