feed: Add 'default' argument to Feed._html2text for HTMLParseError

author W. Trevor King <wking@tremily.us>

Sat, 28 Sep 2013 16:51:03 +0000 (09:51 -0700)

committer W. Trevor King <wking@tremily.us>

Sat, 28 Sep 2013 16:51:03 +0000 (09:51 -0700)
author W. Trevor King <wking@tremily.us>
Sat, 28 Sep 2013 16:51:03 +0000 (09:51 -0700)
committer W. Trevor King <wking@tremily.us>
Sat, 28 Sep 2013 16:51:03 +0000 (09:51 -0700)
diff --git a/rss2email/feed.py b/rss2email/feed.py

index 3999b0c7dcf3e4d5968da25a841da8b6a16112ac..16191e266065f95aa998241b784ef491d1c41dc2 100644 (file)
--- a/rss2email/feed.py
+++ b/rss2email/feed.py
@@ -416,9 +416,14 @@ class Feed (object):
              not version):
              raise _error.ProcessingError(parsed=parsed, feed=feed)
  
              not version):
              raise _error.ProcessingError(parsed=parsed, feed=feed)
  
-    def _html2text(self, html, baseurl=''):
+    def _html2text(self, html, baseurl='', default=None):
          self.config.setup_html2text(section=self.section)
          self.config.setup_html2text(section=self.section)
-        return _html2text.html2text(html=html, baseurl=baseurl)
+        try:
+            return _html2text.html2text(html=html, baseurl=baseurl)
+        except _html_parser.HTMLParseError as e:
+            if default is not None:
+                return default
+            raise
  
      def _process_entry(self, parsed, entry):
          id_ = self._get_entry_id(entry)
  
      def _process_entry(self, parsed, entry):
          id_ = self._get_entry_id(entry)
@@ -501,12 +506,12 @@ class Feed (object):
          if hasattr(entry, 'title_detail') and entry.title_detail:
              title = entry.title_detail.value
              if 'html' in entry.title_detail.type:
          if hasattr(entry, 'title_detail') and entry.title_detail:
              title = entry.title_detail.value
              if 'html' in entry.title_detail.type:
-                title = self._html2text(title)
+                title = self._html2text(title, default=title)
          else:
              content = self._get_entry_content(entry)
              value = content['value']
              if content['type'] in ('text/html', 'application/xhtml+xml'):
          else:
              content = self._get_entry_content(entry)
              value = content['value']
              if content['type'] in ('text/html', 'application/xhtml+xml'):
-                value = self._html2text(value)
+                value = self._html2text(value, default=value)
              title = value[:70]
          title = title.replace('\n', ' ').strip()
          return title
              title = value[:70]
          title = title.replace('\n', ' ').strip()
          return title
author	W. Trevor King <wking@tremily.us>
	Sat, 28 Sep 2013 16:51:03 +0000 (09:51 -0700)
committer	W. Trevor King <wking@tremily.us>
	Sat, 28 Sep 2013 16:51:03 +0000 (09:51 -0700)