WinFuture-Forum.de: Stemmer In Java - WinFuture-Forum.de

Zum Inhalt wechseln

Nachrichten zum Thema: Entwicklung
Seite 1 von 1

Stemmer In Java


#1 Mitglied ist offline   Yaenzi 

  • Gruppe: aktive Mitglieder
  • Beiträge: 139
  • Beigetreten: 17. November 03
  • Reputation: 0
  • Wohnort:Ludwigsburg

geschrieben 15. September 2005 - 15:40

Hallo Ihr.


Ich bin gerade dabei eine Spracherkennung für Textdokumente (oder auch allg. plain-text Streams) zu schreiben.

Dazu habe ich relativ umfangreiche Wortlisten von der uni-leipzig in den Sprachen Englisch, Deutsch, Französung und Niederländisch.

Nun bräuchte ich für zumindest die ersten 3 Sprachen einen Stemmer, der quasi die typischen Endungen einer Sprache abtrennt.

Bsp:

Ich spiele
Er spielt
Sie spielen


----> Cut zu "spiel"

Ich weiss, dass es bei Lucene für das deutsche ein solcher Alghorithmus eingebaut ist, bekomme ich sowas irgendwie open Source auch so? Habe schon bei sf.net gescheut, da gibt es ein Projekt namens Stemmer, was haltet ihr davon? Kennt es jemand? Kam noch nicht dazu es zu testen.


Achja und noch ne Frage. Weiss jemand, wo ich außer Uni-Leipzig Wortlisten mit den möglichst häufigst genutzen Wörtern einjeder Sprache herbekomme?


Herlichen Dank
0

Anzeige



#2 Mitglied ist offline   [U]nixchecker 

  • Gruppe: aktive Mitglieder
  • Beiträge: 347
  • Beigetreten: 17. Mai 05
  • Reputation: 0
  • Wohnort:Bayern
  • Interessen:Informatik, Linux, Rollerbladen, Bodybuilding, GungFu

geschrieben 15. September 2005 - 16:21

Ohne mich jetzt groß reinzudenken, warum machst du das nicht über regular Expressions?

Du weißt es gibt das Wort "spiel", als läufst du durch den Text und guckst nach der Expression "spiel"

somit wird er bei :

spiele
spielt
spielen

stehen bleiben und dir die Indexposition geben, danach erhöhst du in dem Fall den Index um länge der Regular Expression, ab da beginnt die Endung ujd du kannst sie abschneiden.

Regular Expression sind bei Java mit dabei.

Wobei die Lösung natürlich langsam ist, besser wäre es einen eigenen Suchalgorithmus dafür zu entwerfen Textmustererkennung, dazu sind im Sedgewick Datenstrukturen und Algorithmen ein paar Ansätze drin.

Dieser Beitrag wurde von [U]nixchecker bearbeitet: 15. September 2005 - 16:25

0

Thema verteilen:


Seite 1 von 1

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0