/ - Diff - wikimeasure - Greek Research and Technology Network's projects

Revision 2:29b1f3811d49

     import re
     import csv
     from language_prefixes import languages
     def canonicalize(s):
         s = s.strip(' ')
         s = s.strip('_')
         s = s.replace('_', ' ')
         s = ' '.join(s.split())
         s = s.capitalize()
         prefix = s.split(':')[0]
         if not prefix in languages:
             s = s.capitalize()
         return s
     class BodyParser:
-...
                 (r"{{[^}]+}}", self.template),
                 (r"\[\[[^]]+\]\]", self.reference),
                 (r"\[[^]]+\]", self.external_link),
                 (r"#REDIRECT \[\[[^]]+\]\]", self.redirect),
                 (r"(?i)#REDIRECT\s*\[\[[^]]+\]\]", self.redirect),
                 (r"<[^>]+>", self.skip),
                 (r"\s+", self.skip),
                 (r"\b\w+\b", self.word),
-...
             self.is_redirect = True
             target = token.split("[[")[1].split("]]")[0]
             target = canonicalize(target)
             print "'" + self.title + "' #REDIRECT '" + target + "'"
             print self.title + " #REDIRECT " + target
             return "REDIRECT", token
         def reference(self, scanner, token):
             target = token.split("|")[0][2:].rstrip("]");
             target = canonicalize(target)
             print "'" + self.title +  "' => '" + target + "'"
             print self.title +  " => " + target
             return "REFERENCE", token
         def external_link(self, scanner, token):
-...
             self.username = ""
             self.current_element = ""
             self.debug = False
             self.redirect = True
             self.redirect = False
             self.skip = False
             self.parser = BodyParser()
         def add_element(self, tag):
-...
             self.add_element(tag)
             if self.current_element == WikipediaParser.PAGE:
                 self.redirect = False
                 self.skip = False
             elif self.current_element == WikipediaParser.REDIRECT:
                 self.redirect = True
         def data(self, data):
             if self.current_element in WikipediaParser.READ_SET:
             if (not self.skip
                 and self.current_element in WikipediaParser.READ_SET):
                 self.element_content.append(data.encode('utf-8'))
         def end(self, tag):
             if self.current_element == WikipediaParser.TITLE:
             if self.skip:
                 pass
             elif self.current_element == WikipediaParser.TITLE:
                 self.title =  ''.join(self.element_content).strip()
                 if self.title.startswith(WikipediaParser.NAMESPACES):
                     self.skip = True

Also available in: Unified diff