feeds: auto-parse()

2020-03-18 16:34:40 +01:00
parent c2f85da94a
commit 4a70aa9dfa
1 changed files with 61 additions and 0 deletions
--- a/morss/feeds.py
+++ b/morss/feeds.py
@@ -9,6 +9,8 @@ import re
 import json
 import csv

+from fnmatch import fnmatch
+
 from lxml import etree
 from dateutil import tz
 import dateutil.parser
@@ -51,6 +53,65 @@ def parse_rules(filename=None):
    return rules


+def parse(data, url=None, mimetype=None):
+    " Determine which ruleset to use "
+
+    rulesets = parse_rules()
+    parsers = [FeedXML, FeedHTML, FeedJSON]
+
+    # 1) Look for a ruleset based on path
+
+    if url is not None:
+        for ruleset in rulesets.values():
+            if 'path' in ruleset:
+                for path in ruleset['path']:
+                    if fnmatch(url, path):
+                        parser = [x for x in parsers if x.mode == ruleset['mode']][0]
+                        return parser(data, ruleset) 
+
+    # 2) Look for a parser based on mimetype
+
+    if mimetype is not None:
+        parser_candidates = [x for x in parsers if mimetype in x.mimetype]
+
+    if mimetype is None or parser_candidates is None:
+        parser_candidates = parsers
+
+    # 3) Look for working ruleset for given parser
+        # 3a) See if parsing works
+        # 3b) See if .items matches anything
+
+    for parser in parser_candidates:
+        ruleset_candidates = [x for x in rulesets.values() if x['mode'] == parser.mode and 'path' not in x]
+            # 'path' as they should have been caught beforehands
+
+        try:
+            feed = parser(data)
+
+        except (ValueError):
+            # parsing did not work
+            pass
+
+        else:
+            # parsing worked, now we try the rulesets
+
+            for ruleset in ruleset_candidates:
+                feed.rules = ruleset
+
+                try:
+                    feed.items[0]
+
+                except (AttributeError, IndexError):
+                    # parsing and or item picking did not work out
+                    pass
+
+                else:
+                    # it worked!
+                    return feed
+
+    raise Exception('no way to handle this feed')
+
+
 class ParserBase(object):
    def __init__(self, data=None, rules=None, parent=None):
        if rules is None: