feeds: add base classes for merger

2018-11-09 22:02:44 +01:00
parent d321550166
commit 5a4a86d622
1 changed files with 224 additions and 0 deletions
--- a/morss/feeds.py
+++ b/morss/feeds.py
@@ -12,6 +12,7 @@ import csv
 from lxml import etree
 from dateutil import tz
 import dateutil.parser
+from copy import deepcopy

 from . import crawler

@@ -30,10 +31,12 @@ except ImportError:
 try:
    from StringIO import StringIO
    from urllib2 import urlopen
+    from ConfigParser import ConfigParser
 except ImportError:
    # python > 3
    from io import StringIO
    from urllib.request import urlopen
+    from configparser import ConfigParser

 try:
    basestring
@@ -104,6 +107,138 @@ def parse(data):
    raise FeedException('unknown feed type')


+def parse_rules(filename=None):
+    if not filename:
+        filename = os.path.join(os.path.dirname(__file__), 'feedify.ini')
+
+    config = ConfigParser()
+    config.read(filename)
+
+    rules = dict([(x, dict(config.items(x))) for x in config.sections()])
+
+    for section in rules.keys():
+        for arg in rules[section].keys():
+            if '\n' in rules[section][arg]:
+                rules[section][arg] = rules[section][arg].split('\n')[1:]
+
+    return rules
+
+
+class ParserBase(object):
+    def __init__(self, data=None, rules=None):
+        if rules is None:
+            rules = parse_rules()['rss']
+
+        if data is None:
+            data = rules['base'][0]
+
+        self.rules = rules
+        self.root = self.parse(data)
+
+        # do `if multi` and select the correct rule for each (and split \n)
+        if isinstance(self.rules['items'], list):
+            for (i, rule) in enumerate(self.rules['items']):
+                if self.rule_search(rule) is not None:
+                    key = i
+                    break
+
+            else:
+                key = 0
+
+            for arg in self.rules.keys():
+                if isinstance(self.rules[arg], list):
+                    self.rules[arg] = self.rules[arg][key]
+
+    def parse(self, raw):
+        pass
+
+    def tostring(self):
+        # output in its input format
+        # to output in sth fancy (json, csv, html), change class type
+        pass
+
+    def iterdic(self):
+        for element in self.dic:
+            value = getattr(self, element)
+
+            if element == 'items':
+                value = [OrderedDict(x.iterdic()) for x in value]
+            elif isinstance(value, datetime):
+                value = value.isoformat()
+
+            yield element, value
+
+    def rule_search(self, rule):
+        # xpath, return the first one only
+        try:
+            return self.rule_search_all(rule)[0]
+
+        except IndexError:
+            return None
+
+    def rule_search_all(self, rule):
+        # xpath, return all (useful to find feed items)
+        pass
+
+    def rule_search_last(self, rule):
+        # xpath, return the first one only
+        try:
+            return self.rule_search_all(rule)[-1]
+
+        except IndexError:
+            return None
+
+    def rule_create(self, rule):
+        # create node based on rule
+        # (duplicate, copy existing (or template) or create from scratch, if possible)
+        # --> might want to create node_duplicate helper fns
+        pass
+
+    def rule_remove(self, rule):
+        # remove node from its parent
+        pass
+
+    def rule_set(self, rule, value):
+        # value is always a str?
+        pass
+
+    def rule_str(self, rule):
+        # GETs inside (pure) text from it
+        pass
+
+    def bool_prs(self, x):
+        # parse
+        pass
+
+    def bool_fmt(self, x):
+        # format
+        pass
+
+    def time_prs(self, x):
+        # parse
+        pass
+
+    def time_fmt(self, x):
+        # format
+        pass
+
+    def get_raw(self, rule_name):
+        # get the raw output, for self.get_raw('items')
+        pass
+
+    def get_str(self, rule_name):
+        # simple function to get nice text from the rule name
+        # for use in @property, ie. self.get_str('title')
+        pass
+
+    def set_str(self, rule_name):
+        pass
+
+    def remove(self, rule_name):
+        # easy deleter
+        pass
+
+
 class FeedBase(object):
    """
    Base for xml-related classes, which provides simple wrappers around xpath
@@ -218,6 +353,49 @@ class Uniq(object):
            return obj


+class Feed(object):
+    itemsClass = 'Item'
+    dic = ('title', 'desc', 'items')
+
+    def wrap_items(self, items):
+        itemsClass = globals()[self.itemsClass]
+        return [itemsClass(x, self.rules) for x in items]
+
+    title = property(
+        lambda f:   f.get_str('title'),
+        lambda f,x: f.set_str('title', x),
+        lambda f:   f.remove('title') )
+    description = desc = property(
+        lambda f:   f.get_str('desc'),
+        lambda f,x: f.set_str('desc', x),
+        lambda f:   f.remove('desc') )
+    items = property(
+        lambda f:   f )
+
+    def append(self, new=None):
+        self.rule_create(self.rules['items'])
+        item = self.items[-1]
+
+        if new is None:
+            return item
+
+        for attr in globals()[self.itemsClass].dic:
+            if hasattr(new, attr):
+                setattr(element, attr, getattr(new, attr))
+
+            elif attr in cousin:
+                setattr(element, attr, new[attr])
+
+    def __getitem__(self, key):
+        return self.wrap_items(self.get_raw('items'))[key]
+
+    def __delitem__(self, key):
+        self[key].remove()
+
+    def __len__(self):
+        return len(self.get_raw('items'))
+
+
 class FeedParser(FeedBase):
    itemsClass = 'FeedItem'
    mimetype = 'application/xml'
@@ -397,6 +575,52 @@ class FeedParserAtom(FeedParser):
        return self.xpath('atom:entry|atom03:entry')


+class Item(Uniq):
+    dic = ('title', 'link', 'desc', 'content', 'id', 'is_permalink', 'time', 'updated')
+
+    def __init__(self, xml=None, rules=None):
+        self._id = self._gen_id(xml)
+        self.root = xml
+        self.rules = rules
+
+    @staticmethod
+    def _gen_id(xml=None, *args, **kwargs):
+        return id(xml)
+
+    title = property(
+        lambda f:   f.get_str('item_title'),
+        lambda f,x: f.set_str('item_title', x),
+        lambda f:   f.remove('item_title') )
+    link = property(
+        lambda f:   f.get_str('item_link'),
+        lambda f,x: f.set_str('item_link', x),
+        lambda f:   f.remove('item_link') )
+    description = desc = property(
+        lambda f:   f.get_str('item_desc'),
+        lambda f,x: f.set_str('item_desc', x),
+        lambda f:   f.remove('item_desc') )
+    content = property(
+        lambda f:   f.get_str('item_content'),
+        lambda f,x: f.set_str('item_content', x),
+        lambda f:   f.remove('item_content') )
+    id = property(
+        lambda f:   f.get_str('item_id'),
+        lambda f,x: f.set_str('item_id', x),
+        lambda f:   f.remove('item_id') )
+    is_permalink = property(
+        lambda f:   f.get_str('item_is_permalink'),
+        lambda f,x: f.set_str('item_is_permalink', x))#,
+        #lambda f:   f.remove('item_is_permalink') )
+    time = property(
+        lambda f:   f.time_fmt(f.get_str('item_time')),
+        lambda f,x: f.set_str('title', f.time_prs(x)),
+        lambda f:   f.remove('item_time') )
+    updated = property(
+        lambda f:   f.time_fmt(f.get_str('item_updated')),
+        lambda f,x: f.set_str('updated', f.time_prs(x)),
+        lambda f:   f.remove('item_updated') )
+
+
 class FeedItem(FeedBase, Uniq):
    timeFormat = ''
    dic = ('title', 'link', 'desc', 'content', 'id', 'is_permalink', 'time', 'updated')