[#3020] Corriger les problèmes d'encodage évidents
authorEric Mc Sween <eric.mcsween@auf.org>
Fri, 6 Jul 2012 15:29:49 +0000 (11:29 -0400)
committerEric Mc Sween <eric.mcsween@auf.org>
Thu, 26 Jul 2012 13:41:48 +0000 (09:41 -0400)
auf_savoirs_en_partage/savoirs/lib/harvesters/lodel/html09.py

index bd30f70..a03e64b 100644 (file)
@@ -55,6 +55,15 @@ def harvest(options):
             field = META_MAP.get(name.lower())
             if not field:
                 continue
+
+            # Heurisitique pour déterminer si on a du contenu mal encodé
+            # (encodé en utf-8, mais transmis comme du latin-1)
+            if u'Ã' in content:
+                try:
+                    content = content.encode('latin-1').decode('utf-8')
+                except UnicodeDecodeError:
+                    pass
+
             meta_set(node, field, content)
         if 'identifier' in node and 'title' in node:
             node['uri'] = node['identifier']