[PATCH v2 2/2] new: Centralize file type stat-ing logic
authorAustin Clements <amdragon@MIT.EDU>
Mon, 7 May 2012 22:20:40 +0000 (18:20 +2000)
committerW. Trevor King <wking@tremily.us>
Fri, 7 Nov 2014 17:47:00 +0000 (09:47 -0800)
63/b90bc460f5ae7dae1b02ed7ca3656962073221 [new file with mode: 0644]

diff --git a/63/b90bc460f5ae7dae1b02ed7ca3656962073221 b/63/b90bc460f5ae7dae1b02ed7ca3656962073221
new file mode 100644 (file)
index 0000000..4f6bf15
--- /dev/null
@@ -0,0 +1,254 @@
+Return-Path: <amthrax@drake.mit.edu>\r
+X-Original-To: notmuch@notmuchmail.org\r
+Delivered-To: notmuch@notmuchmail.org\r
+Received: from localhost (localhost [127.0.0.1])\r
+       by olra.theworths.org (Postfix) with ESMTP id 1B1A9431FD8\r
+       for <notmuch@notmuchmail.org>; Mon,  7 May 2012 15:20:49 -0700 (PDT)\r
+X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
+X-Spam-Flag: NO\r
+X-Spam-Score: -0.7\r
+X-Spam-Level: \r
+X-Spam-Status: No, score=-0.7 tagged_above=-999 required=5\r
+       tests=[RCVD_IN_DNSWL_LOW=-0.7] autolearn=disabled\r
+Received: from olra.theworths.org ([127.0.0.1])\r
+       by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
+       with ESMTP id pI5an2aEpY-n for <notmuch@notmuchmail.org>;\r
+       Mon,  7 May 2012 15:20:48 -0700 (PDT)\r
+Received: from dmz-mailsec-scanner-5.mit.edu (DMZ-MAILSEC-SCANNER-5.MIT.EDU\r
+       [18.7.68.34])\r
+       by olra.theworths.org (Postfix) with ESMTP id 26825431FAE\r
+       for <notmuch@notmuchmail.org>; Mon,  7 May 2012 15:20:48 -0700 (PDT)\r
+X-AuditID: 12074422-b7fd66d0000008f9-e1-4fa84abfe988\r
+Received: from mailhub-auth-2.mit.edu ( [18.7.62.36])\r
+       by dmz-mailsec-scanner-5.mit.edu (Symantec Messaging Gateway) with SMTP\r
+       id 0D.2D.02297.FBA48AF4; Mon,  7 May 2012 18:20:47 -0400 (EDT)\r
+Received: from outgoing.mit.edu (OUTGOING-AUTH.MIT.EDU [18.7.22.103])\r
+       by mailhub-auth-2.mit.edu (8.13.8/8.9.2) with ESMTP id q47MKld0013329; \r
+       Mon, 7 May 2012 18:20:47 -0400\r
+Received: from drake.mit.edu (26-4-166.dynamic.csail.mit.edu [18.26.4.166])\r
+       (authenticated bits=0)\r
+       (User authenticated as amdragon@ATHENA.MIT.EDU)\r
+       by outgoing.mit.edu (8.13.6/8.12.4) with ESMTP id q47MKkvs006042\r
+       (version=TLSv1/SSLv3 cipher=AES256-SHA bits=256 verify=NOT);\r
+       Mon, 7 May 2012 18:20:46 -0400 (EDT)\r
+Received: from amthrax by drake.mit.edu with local (Exim 4.77)\r
+       (envelope-from <amthrax@drake.mit.edu>)\r
+       id 1SRWIP-0000Ja-UO; Mon, 07 May 2012 18:20:45 -0400\r
+From: Austin Clements <amdragon@MIT.EDU>\r
+To: notmuch@notmuchmail.org\r
+Subject: [PATCH v2 2/2] new: Centralize file type stat-ing logic\r
+Date: Mon,  7 May 2012 18:20:40 -0400\r
+Message-Id: <1336429240-1114-3-git-send-email-amdragon@mit.edu>\r
+X-Mailer: git-send-email 1.7.10\r
+In-Reply-To: <1336429240-1114-1-git-send-email-amdragon@mit.edu>\r
+References: <1336414186-15293-1-git-send-email-amdragon@mit.edu>\r
+       <1336429240-1114-1-git-send-email-amdragon@mit.edu>\r
+X-Brightmail-Tracker:\r
+ H4sIAAAAAAAAA+NgFtrDIsWRmVeSWpSXmKPExsUixG6norvfa4W/warpihbXb85ktphxfheL\r
+       A5PHs1W3mD2WHf3JGMAUxWWTkpqTWZZapG+XwJXx/eUGtoInRhV3l91mbGDcrt7FyMkhIWAi\r
+       ce7ZdxYIW0ziwr31bF2MXBxCAvsYJebMWwLlrGeUaPp4H8o5xiSxb99rZghnPqPEj64GRpB+\r
+       NgENiW37l4PZIgLSEjvvzmYFsZkFPCUOfJsGFhcWcJD4/OMAM4jNIqAqcXH9OSCbg4NXwF7i\r
+       1zE/iDPkJZ7e72MDCXMClb+/ZA8SFhIok3h7+R/TBEb+BYwMqxhlU3KrdHMTM3OKU5N1i5MT\r
+       8/JSi3RN9XIzS/RSU0o3MYIDyUVpB+PPg0qHGAU4GJV4eJVeLPcXYk0sK67MPcQoycGkJMp7\r
+       0nOFvxBfUn5KZUZicUZ8UWlOavEhRgkOZiUR3jYxoBxvSmJlVWpRPkxKmoNFSZxXXeudn5BA\r
+       emJJanZqakFqEUxWhoNDSYL3HMhQwaLU9NSKtMycEoQ0EwcnyHAeoOFHQWp4iwsSc4sz0yHy\r
+       pxgVpcR5+0ASAiCJjNI8uF5YpL9iFAd6RZg3D6SKB5gk4LpfAQ1mAhq8+dkykMEliQgpqQbG\r
+       Vf/7p7BHnHmRcSpE+O6T/XdXMFj/2by46pvi2ZYit7KskpkS2srrb56aeMGo98TG/4ydxu1P\r
+       P8fZcetKXl18dT1D8g9pblXPV5cb909+7KbWviX/U/z3P+KZnbO/3xboe7DGX+zCfrl5G1jL\r
+       mVbc2/fjj1Xwwd/Pvgs+j+wvX6h03bK83Px8iRJLcUaioRZzUXEiAJANzZHPAgAA\r
+Cc: Vladimir Marek <vlmarek@volny.cz>\r
+X-BeenThere: notmuch@notmuchmail.org\r
+X-Mailman-Version: 2.1.13\r
+Precedence: list\r
+List-Id: "Use and development of the notmuch mail system."\r
+       <notmuch.notmuchmail.org>\r
+List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
+List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
+List-Post: <mailto:notmuch@notmuchmail.org>\r
+List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
+List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
+X-List-Received-Date: Mon, 07 May 2012 22:20:49 -0000\r
+\r
+This moves our logic to get a file's type into one function.  This has\r
+several benefits: we can support OSes and file systems that do not\r
+provide dirent.d_type or always return DT_UNKNOWN, complex\r
+symlink-handling logic has been replaced by a simple stat fall-through\r
+in one place, and the error message for un-stat-able file is more\r
+accurate (previously, the error always mentioned directories, even\r
+though a broken symlink is not a directory).\r
+---\r
+ notmuch-new.c |  103 +++++++++++++++++++++++++++++++++++----------------------\r
+ test/new      |    2 +-\r
+ 2 files changed, 64 insertions(+), 41 deletions(-)\r
+\r
+diff --git a/notmuch-new.c b/notmuch-new.c\r
+index cb720cc..8955677 100644\r
+--- a/notmuch-new.c\r
++++ b/notmuch-new.c\r
+@@ -154,6 +154,48 @@ dirent_sort_strcmp_name (const struct dirent **a, const struct dirent **b)\r
+     return strcmp ((*a)->d_name, (*b)->d_name);\r
+ }\r
\r
++/* Return the type of a directory entry relative to path as a stat(2)\r
++ * mode.  Like stat, this follows symlinks.  Returns -1 and sets errno\r
++ * if the file's type cannot be determined (which includes dangling\r
++ * symlinks).\r
++ */\r
++static int\r
++dirent_type (const char *path, const struct dirent *entry)\r
++{\r
++    struct stat statbuf;\r
++    char *abspath;\r
++    int err, saved_errno;\r
++\r
++#ifdef _DIRENT_HAVE_D_TYPE\r
++    /* Mapping from d_type to stat mode_t.  We omit DT_LNK so that\r
++     * we'll fall through to stat and get the real file type. */\r
++    static const mode_t modes[] = {\r
++      [DT_BLK]  = S_IFBLK,\r
++      [DT_CHR]  = S_IFCHR,\r
++      [DT_DIR]  = S_IFDIR,\r
++      [DT_FIFO] = S_IFIFO,\r
++      [DT_REG]  = S_IFREG,\r
++      [DT_SOCK] = S_IFSOCK\r
++    };\r
++    if (entry->d_type < ARRAY_SIZE(modes) && modes[entry->d_type])\r
++      return modes[entry->d_type];\r
++#endif\r
++\r
++    abspath = talloc_asprintf (NULL, "%s/%s", path, entry->d_name);\r
++    if (!abspath) {\r
++      errno = ENOMEM;\r
++      return -1;\r
++    }\r
++    err = stat(abspath, &statbuf);\r
++    saved_errno = errno;\r
++    talloc_free (abspath);\r
++    if (err < 0) {\r
++      errno = saved_errno;\r
++      return -1;\r
++    }\r
++    return statbuf.st_mode & S_IFMT;\r
++}\r
++\r
+ /* Test if the directory looks like a Maildir directory.\r
+  *\r
+  * Search through the array of directory entries to see if we can find all\r
+@@ -162,12 +204,12 @@ dirent_sort_strcmp_name (const struct dirent **a, const struct dirent **b)\r
+  * Return 1 if the directory looks like a Maildir and 0 otherwise.\r
+  */\r
+ static int\r
+-_entries_resemble_maildir (struct dirent **entries, int count)\r
++_entries_resemble_maildir (const char *path, struct dirent **entries, int count)\r
+ {\r
+     int i, found = 0;\r
\r
+     for (i = 0; i < count; i++) {\r
+-      if (entries[i]->d_type != DT_DIR && entries[i]->d_type != DT_UNKNOWN)\r
++      if (dirent_type (path, entries[i]) != S_IFDIR)\r
+           continue;\r
\r
+       if (strcmp(entries[i]->d_name, "new") == 0 ||\r
+@@ -250,7 +292,7 @@ add_files_recursive (notmuch_database_t *notmuch,\r
+     notmuch_status_t status, ret = NOTMUCH_STATUS_SUCCESS;\r
+     notmuch_message_t *message = NULL;\r
+     struct dirent **fs_entries = NULL;\r
+-    int i, num_fs_entries;\r
++    int i, num_fs_entries, entry_type;\r
+     notmuch_directory_t *directory;\r
+     notmuch_filenames_t *db_files = NULL;\r
+     notmuch_filenames_t *db_subdirs = NULL;\r
+@@ -317,7 +359,7 @@ add_files_recursive (notmuch_database_t *notmuch,\r
+     }\r
\r
+     /* Pass 1: Recurse into all sub-directories. */\r
+-    is_maildir = _entries_resemble_maildir (fs_entries, num_fs_entries);\r
++    is_maildir = _entries_resemble_maildir (path, fs_entries, num_fs_entries);\r
\r
+     for (i = 0; i < num_fs_entries; i++) {\r
+       if (interrupted)\r
+@@ -325,17 +367,16 @@ add_files_recursive (notmuch_database_t *notmuch,\r
\r
+       entry = fs_entries[i];\r
\r
+-      /* We only want to descend into directories.\r
+-       * But symlinks can be to directories too, of course.\r
+-       *\r
+-       * And if the filesystem doesn't tell us the file type in the\r
+-       * scandir results, then it might be a directory (and if not,\r
+-       * then we'll stat and return immediately in the next level of\r
+-       * recursion). */\r
+-      if (entry->d_type != DT_DIR &&\r
+-          entry->d_type != DT_LNK &&\r
+-          entry->d_type != DT_UNKNOWN)\r
+-      {\r
++      /* We only want to descend into directories (and symlinks to\r
++       * directories). */\r
++      entry_type = dirent_type (path, entry);\r
++      if (entry_type == -1) {\r
++          /* Be pessimistic, e.g. so we don't lose lots of mail just\r
++           * because a user broke a symlink. */\r
++          fprintf (stderr, "Error reading file %s/%s: %s\n",\r
++                   path, entry->d_name, strerror (errno));\r
++          return NOTMUCH_STATUS_FILE_ERROR;\r
++      } else if (entry_type != S_IFDIR) {\r
+           continue;\r
+       }\r
\r
+@@ -425,31 +466,13 @@ add_files_recursive (notmuch_database_t *notmuch,\r
+           notmuch_filenames_move_to_next (db_subdirs);\r
+       }\r
\r
+-      /* If we're looking at a symlink, we only want to add it if it\r
+-       * links to a regular file, (and not to a directory, say).\r
+-       *\r
+-       * Similarly, if the file is of unknown type (due to filesystem\r
+-       * limitations), then we also need to look closer.\r
+-       *\r
+-       * In either case, a stat does the trick.\r
+-       */\r
+-      if (entry->d_type == DT_LNK || entry->d_type == DT_UNKNOWN) {\r
+-          int err;\r
+-\r
+-          next = talloc_asprintf (notmuch, "%s/%s", path, entry->d_name);\r
+-          err = stat (next, &st);\r
+-          talloc_free (next);\r
+-          next = NULL;\r
+-\r
+-          /* Don't emit an error for a link pointing nowhere, since\r
+-           * the directory-traversal pass will have already done\r
+-           * that. */\r
+-          if (err)\r
+-              continue;\r
+-\r
+-          if (! S_ISREG (st.st_mode))\r
+-              continue;\r
+-      } else if (entry->d_type != DT_REG) {\r
++      /* Only add regular files (and symlinks to regular files). */\r
++      entry_type = dirent_type (path, entry);\r
++      if (entry_type == -1) {\r
++          fprintf (stderr, "Error reading file %s/%s: %s\n",\r
++                   path, entry->d_name, strerror (errno));\r
++          return NOTMUCH_STATUS_FILE_ERROR;\r
++      } else if (entry_type != S_IFREG) {\r
+           continue;\r
+       }\r
\r
+diff --git a/test/new b/test/new\r
+index 26253db..e3900f5 100755\r
+--- a/test/new\r
++++ b/test/new\r
+@@ -140,7 +140,7 @@ test_begin_subtest "Broken symlink aborts"\r
+ ln -s does-not-exist "${MAIL_DIR}/broken"\r
+ output=$(NOTMUCH_NEW 2>&1)\r
+ test_expect_equal "$output" \\r
+-"Error reading directory /run/shm/nm/tmp.new/mail/broken: No such file or directory\r
++"Error reading file /run/shm/nm/tmp.new/mail/broken: No such file or directory\r
+ Note: A fatal error was encountered: Something went wrong trying to read or write a file\r
+ No new mail."\r
+ rm "${MAIL_DIR}/broken"\r
+-- \r
+1.7.10\r
+\r