ich bin dabei, ein Python-Programm zu schreiben, das die Programmseiten diverser Fernsehsender automatisch durchsucht, um anhand von Stichwörtern die für mich interessanten Sendungen aufzuspüren. Das ist alles auch gar nicht so schwer und funktioniert für einen Sender bereits. Wobei das Programm ein bisschen nach Haudrauf-Methode geschrieben ist, aber es funktioniert.
Dabei ist meine Devise: Lieber ein paar Falschmeldungen, denen ich nachgehen muss, als eine interessante Sendung verpassen.
Nun möchte ich denkbare Rechtschreibfehler auf den Programmseiten in der Suche berücksichtigen. Nehmen wir an, ich wäre ein Fan der Band Tocotronic, und suche nun nach Sendungen, in denen es um diese Band geht. Nehmen wir an, das gesamte Programm des Senders sei in dem String prog, dann könnte ich mit if 'Tocotronic' in prog danach suchen. Ich könnte auch Groß- und Kleinschreibung ignorieren:
pattern = re.compile('Tocotronic', re.IGNORECASE) match = pattern.search(prog, 0) if match != None: print 'Gefunden!' else: print 'Nicht gefunden!'
Aber, was mach ich, wenn dem Mitarbeiter des jeweiligen Senders, der die Sendung eintippen musste, ein Tippfehler unterlaufen ist? Wie kann ich also gleichzeitig 'Toctronic', 'Tocotronik', 'Tocotonic' usw. in die Suche einbeziehen? Sagen wir mal, bis zu ein falscher Buchstabe soll noch einen Treffer ergeben. Gibt es dafür fertige Module, womöglich sogar für Python? Die Performance wäre mir dabei ziemlich egal. Oder müsste ich so etwas per Hand schreiben?
Vielen Dank und schöne Grüße
Def
Dieser Beitrag wurde von def bearbeitet: 06. September 2008 - 17:35