Re: excessive thread fusing
authorAustin Clements <amdragon@MIT.EDU>
Sun, 20 Apr 2014 17:46:01 +0000 (13:46 +2000)
committerW. Trevor King <wking@tremily.us>
Fri, 7 Nov 2014 18:01:47 +0000 (10:01 -0800)
e4/b6d4f2d5f55220c8ae4b70d5433562007e0967 [new file with mode: 0644]

diff --git a/e4/b6d4f2d5f55220c8ae4b70d5433562007e0967 b/e4/b6d4f2d5f55220c8ae4b70d5433562007e0967
new file mode 100644 (file)
index 0000000..b7ec492
--- /dev/null
@@ -0,0 +1,140 @@
+Return-Path: <amdragon@mit.edu>\r
+X-Original-To: notmuch@notmuchmail.org\r
+Delivered-To: notmuch@notmuchmail.org\r
+Received: from localhost (localhost [127.0.0.1])\r
+       by olra.theworths.org (Postfix) with ESMTP id 20DD3431FBD\r
+       for <notmuch@notmuchmail.org>; Sun, 20 Apr 2014 10:46:14 -0700 (PDT)\r
+X-Virus-Scanned: Debian amavisd-new at olra.theworths.org\r
+X-Spam-Flag: NO\r
+X-Spam-Score: -0.7\r
+X-Spam-Level: \r
+X-Spam-Status: No, score=-0.7 tagged_above=-999 required=5\r
+       tests=[RCVD_IN_DNSWL_LOW=-0.7] autolearn=disabled\r
+Received: from olra.theworths.org ([127.0.0.1])\r
+       by localhost (olra.theworths.org [127.0.0.1]) (amavisd-new, port 10024)\r
+       with ESMTP id 1wJVgg0Txobt for <notmuch@notmuchmail.org>;\r
+       Sun, 20 Apr 2014 10:46:06 -0700 (PDT)\r
+Received: from dmz-mailsec-scanner-6.mit.edu (dmz-mailsec-scanner-6.mit.edu\r
+       [18.7.68.35])\r
+       (using TLSv1 with cipher DHE-RSA-AES256-SHA (256/256 bits))\r
+       (No client certificate requested)\r
+       by olra.theworths.org (Postfix) with ESMTPS id A1C39431FBC\r
+       for <notmuch@notmuchmail.org>; Sun, 20 Apr 2014 10:46:06 -0700 (PDT)\r
+X-AuditID: 12074423-f79476d000000c51-ca-535407dc81d5\r
+Received: from mailhub-auth-1.mit.edu ( [18.9.21.35])\r
+       (using TLS with cipher AES256-SHA (256/256 bits))\r
+       (Client did not present a certificate)\r
+       by dmz-mailsec-scanner-6.mit.edu (Symantec Messaging Gateway) with SMTP\r
+       id 06.66.03153.CD704535; Sun, 20 Apr 2014 13:46:04 -0400 (EDT)\r
+Received: from outgoing.mit.edu (outgoing-auth-1.mit.edu [18.9.28.11])\r
+       by mailhub-auth-1.mit.edu (8.13.8/8.9.2) with ESMTP id s3KHk3xc005104\r
+       for <notmuch@notmuchmail.org>; Sun, 20 Apr 2014 13:46:04 -0400\r
+Received: from awakening.csail.mit.edu (awakening.csail.mit.edu [18.26.4.91])\r
+       (authenticated bits=0)\r
+       (User authenticated as amdragon@ATHENA.MIT.EDU)\r
+       by outgoing.mit.edu (8.13.8/8.12.4) with ESMTP id s3KHk1jk021826\r
+       (version=TLSv1/SSLv3 cipher=DHE-RSA-AES128-SHA bits=128 verify=NOT)\r
+       for <notmuch@notmuchmail.org>; Sun, 20 Apr 2014 13:46:03 -0400\r
+Received: from amthrax by awakening.csail.mit.edu with local (Exim 4.80)\r
+       (envelope-from <amdragon@MIT.EDU>) id 1WbvoX-0005zb-D0\r
+       for notmuch@notmuchmail.org; Sun, 20 Apr 2014 13:46:01 -0400\r
+Date: Sun, 20 Apr 2014 13:46:01 -0400\r
+From: Austin Clements <amdragon@MIT.EDU>\r
+To: notmuch@notmuchmail.org\r
+Subject: Re: excessive thread fusing\r
+Message-ID: <20140420174601.GC25817@mit.edu>\r
+References: <87ioq5mrbz.fsf@maritornes.cs.unb.ca>\r
+       <E1WbZQo-00028u-60@teckel.deptj.eu>\r
+       <20140419210439.GC1797@sid.nuvreauspam>\r
+       <20140420164812.GB25817@mit.edu>\r
+MIME-Version: 1.0\r
+Content-Type: text/plain; charset=us-ascii\r
+Content-Disposition: inline\r
+In-Reply-To: <20140420164812.GB25817@mit.edu>\r
+User-Agent: Mutt/1.5.21 (2010-09-15)\r
+X-Brightmail-Tracker:\r
+ H4sIAAAAAAAAA+NgFnrPIsWRmVeSWpSXmKPExsUixCmqrHuHPSTY4Px+RYvrN2cyOzB6PFt1\r
+       izmAMYrLJiU1J7MstUjfLoEr4/aynywFc0Uqnm38xtLA+JS/i5GTQ0LAROLGpsPMELaYxIV7\r
+       69m6GLk4hARmM0lcezKFHcI5zyhx8fFqKOclk8SeZVegnEOMElf/HGUD6WcRUJWYtHUGK4jN\r
+       JqAhsW3/ckYQW0RAWmLn3dlgcWEBFYmNZ2Yzgdi8AjoS+x8sgNq3hFGi5dhkRoiEoMTJmU9Y\r
+       QGxmAS2JG/9eAjVwANnSEsv/cYCEOQV0JZrmPQG7WxRo5pST29gmMArOQtI9C0n3LITuBYzM\r
+       qxhlU3KrdHMTM3OKU5N1i5MT8/JSi3TN9HIzS/RSU0o3MYLCld1FeQfjn4NKhxgFOBiVeHgn\r
+       fAsKFmJNLCuuzD3EKMnBpCTK+4UpJFiILyk/pTIjsTgjvqg0J7UYGCAczEoivCdfBgcL8aYk\r
+       VlalFuXDpKQ5WJTEed9aWwULCaQnlqRmp6YWpBbBZGU4OJQkeNuAcSkkWJSanlqRlplTgpBm\r
+       4uAEGc4DNNwZpIa3uCAxtzgzHSJ/ilFRSpy3kg0oIQCSyCjNg+uFpZNXjOJArwjz9oG08wBT\r
+       EVz3K6DBTECD/54JABlckoiQkmpgNNGofVZ4ql+0a4NirNoZs7oeO+Wuz8mut4TKlf5bFwnV\r
+       Tgya9zeMX0rPqXav38wTLH6qO9dvXnfwjPvmx85LN+u4Bne8cJVtzeVieScX4KZ0LCKwYLu9\r
+       yZfWU9O6dbnkjDvuXfSs/Bau2j5ZR99tU++FzJt6lsYJymtMyt48+DpnUs7xUCklluKMREMt\r
+       5qLiRAAwfaQ3AgMAAA==\r
+X-BeenThere: notmuch@notmuchmail.org\r
+X-Mailman-Version: 2.1.13\r
+Precedence: list\r
+List-Id: "Use and development of the notmuch mail system."\r
+       <notmuch.notmuchmail.org>\r
+List-Unsubscribe: <http://notmuchmail.org/mailman/options/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=unsubscribe>\r
+List-Archive: <http://notmuchmail.org/pipermail/notmuch>\r
+List-Post: <mailto:notmuch@notmuchmail.org>\r
+List-Help: <mailto:notmuch-request@notmuchmail.org?subject=help>\r
+List-Subscribe: <http://notmuchmail.org/mailman/listinfo/notmuch>,\r
+       <mailto:notmuch-request@notmuchmail.org?subject=subscribe>\r
+X-List-Received-Date: Sun, 20 Apr 2014 17:46:14 -0000\r
+\r
+Quoth myself on Apr 20 at 12:48 pm:\r
+> Quoth Andrei POPESCU on Apr 20 at 12:04 am:\r
+> > On Sb, 19 apr 14, 18:52:02, Eric wrote:\r
+> > > \r
+> > > This may not actually be any help, but both hypermail and mhonarc agree\r
+> > > that two messages form a separate thread from the rest. I believe that\r
+> > > the latter, at least, is the JWZ algorithm.\r
+> > \r
+> > mutt concurs.\r
+> \r
+> Can anyone explain why JWZ *doesn't* have the same problem?  I don't\r
+> see how this heuristic doesn't doom it to the same fate:\r
+> \r
+>   The References field is populated from the ``References'' and/or\r
+>   ``In-Reply-To'' headers. If both headers exist, take the first thing\r
+>   in the In-Reply-To header that looks like a Message-ID, and append\r
+>   it to the References header.\r
+> \r
+> Given this, even considering only messages 18 and 52 (which "should"\r
+> be in different threads), JWZ should find the common "parent"\r
+> e.fraga@ucl.ac.uk and link them in to the same thread:\r
+> \r
+> Add 18 (step 1)\r
+> - The combined "references" list is <ID17> <e.fraga@ucl.ac.uk>\r
+> - Creates and links containers 17 <- e.fraga@ucl.ac.uk <- 18 where the\r
+>   first two are empty\r
+> \r
+> Add 52 (step 1)\r
+> - The combined "references" list is <ID31> <ID32> <ID39>\r
+>   <e.fraga@ucl.ac.uk>\r
+> - Creates and links containers 31 <- 32 <- 39\r
+> - Also considers container e.fraga@ucl.ac.uk, but this is already\r
+>   linked, so it doesn't change it\r
+> - Creates container 52 and links e.fraga@ucl.ac.uk <- 52 (step 1C)\r
+> \r
+> 18 and 52 will later get promoted over their empty parent (step 4),\r
+> but will remain in the same thread.\r
+> \r
+> What am I missing?  Or are these other MUAs not using pure JWZ?\r
+\r
+I dug in to mutt's mutt_sort_threads a bit.  It's not using JWZ,\r
+though it's something similar.  The most salient thing may be how it\r
+handles in-reply-to and references:\r
+\r
+1. If a message has both in-reply-to and references, the parent chain\r
+   is the *last* in-reply-to ID and then the references from right to\r
+   left (skipping the last reference ID if it's the same as the last\r
+   in-reply-to ID).  (See also mutt_parse_references.)\r
+2. If a message has only in-reply-to, the parent chain is *all* of the\r
+   IDs in in-reply-to *from right to left* (e.g., the right-most one\r
+   is the immediate parent).\r
+3. If a message has only references, the parent chain is that, from\r
+   right to left.\r
+\r
+Like JWZ, mutt creates and links together "empty containers" as it\r
+scans the parent chain towards the root, though unlike JWZ it stops\r
+when it finds a non-empty container or a container that already has a\r
+parent.\r