WinFuture-Forum.de: Html-zu-text-konverter Und Html-links-extraktion - WinFuture-Forum.de

Zum Inhalt wechseln

Nachrichten zum Thema: Software
Seite 1 von 1

Html-zu-text-konverter Und Html-links-extraktion


#1 Mitglied ist offline   Rika 

  • Gruppe: aktive Mitglieder
  • Beiträge: 11.533
  • Beigetreten: 11. Juni 03
  • Reputation: 2
  • Geschlecht:Männlich

geschrieben 11. August 2007 - 23:20

Brauche eigentlich nichts weiter zu sagen: Ich suche zwei Software-Pakete, die

1. lesbaren Text aus HTML-Dokumenten extrahieren
2. Links aus HTML-Dokumenten in eine Liste extrahieren

Wichtig sind Batch-Verarbeitung und Skriptbarkeit, gewünscht sind Quelloffenheit und Bekanntheit.
Konnichiwa. Manga wo shitte masu ka? Iie? Gomenne, sonoyouna koto ga tabitabi arimasu. Mangaka ojousan nihongo doujinshi desu wa 'Clamp X', 'Ayashi no Ceres', 'Card Captor Sakura', 'Tsubasa', 'Chobits', 'Sakura Taisen', 'Inuyasha' wo 'Ah! Megamisama'. Hai, mangaka gozaimashita desu ni yuujin yori.
Eingefügtes Bild
Ja, mata ne!

(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
0

Anzeige



#2 Mitglied ist offline   Stan 

  • Gruppe: aktive Mitglieder
  • Beiträge: 7.013
  • Beigetreten: 06. Juni 04
  • Reputation: 35
  • Geschlecht:Männlich
  • Wohnort:München

geschrieben 12. August 2007 - 00:15

Gut, dass wir da nen Checker im IRC haben...

Zitat

[01:10:25] <+cinap> benutz dafuer htmlfmt unter plan9
[01:11:07] <+cinap> links extrahieren sollte mit sed machbar sein
[01:11:23] <+cinap> suchen nach http:// oder ftp://
[01:11:31] <+cinap> das problem sind relative links
[01:11:57] <+cinap> dazu musst du dann wider die basis-url wissen, und die tags interpretieren koennen...
[01:12:04] <+cinap> libhtml bei plan9 macht das..
[01:12:38] <+cinap> hatte sogar mal nen url-parser dafuer gehackt, weil der standard unter bestimmten umstaenden probleme mit relativen urls hatte
[01:13:42] <+cinap> kann aber sein dasses fuer sowas fertige werkzeuge gibt
[01:13:48] <+cinap> perl hat da sicher auch schon module fuer
[01:13:51] <+cinap> und php

0

#3 Mitglied ist offline   Atropin 

  • Gruppe: aktive Mitglieder
  • Beiträge: 37
  • Beigetreten: 18. Juni 07
  • Reputation: 0
  • Geschlecht:Männlich
  • Wohnort:NRW

geschrieben 12. August 2007 - 02:35

2. Links aus HTML-Dokumenten in eine Liste extrahieren <- HTTP::Headers von CPAN fürn Perl
1. lesbaren Text aus HTML-Dokumenten extrahieren <- billiges perl script oder C programm was alles zwischen <xx> und </xx> rausholt mit ner ausnahme auf <script>...</script> etc ...
0

#4 Mitglied ist offline   Anderländer 

  • Gruppe: aktive Mitglieder
  • Beiträge: 1.144
  • Beigetreten: 03. Juli 04
  • Reputation: 0

geschrieben 12. August 2007 - 03:34

wenn man alles unter einer haube haben will ist glaube ich der vorschlag von Atropin besser da man dies in ein Perl skript zusammen fügen kann und evtl noch mehr funktionen hinzufügen kann je nach belieben.
Ausserdem denke ich das die Skriptbarkeit etwas mehr gegeben ist bei Perl was aber nicht umbedingt sein muss.

aso Rika nice rang haste hier hoffe mal die ausbildung zum ROFLcopter-Pilot war net zu teuer was Nerven anbelangt bei über 13k beiträgen ^^

Dieser Beitrag wurde von Anderländer bearbeitet: 12. August 2007 - 03:35

Eingefügtes Bild

Sorry leuts wechen Rechtschreib fehlern und der schlechten Grammatik ich bin leider Legasteniker.
0

#5 Mitglied ist offline   Rika 

  • Gruppe: aktive Mitglieder
  • Beiträge: 11.533
  • Beigetreten: 11. Juni 03
  • Reputation: 2
  • Geschlecht:Männlich

geschrieben 22. August 2007 - 21:02

Also das mit dem Extrahieren macht mittlerweile grep, das Auflösen der relativen URLs macht ein bash-Script. Textextraktion erfolgt mit Xapian, es geht nur darum, daß die Dateien durchsuchbar sind, aber zum anderen die Datenmenge reduziert wird - statt Textextraktion erfolgt das jetzt durch reine Komprimierung.
Konnichiwa. Manga wo shitte masu ka? Iie? Gomenne, sonoyouna koto ga tabitabi arimasu. Mangaka ojousan nihongo doujinshi desu wa 'Clamp X', 'Ayashi no Ceres', 'Card Captor Sakura', 'Tsubasa', 'Chobits', 'Sakura Taisen', 'Inuyasha' wo 'Ah! Megamisama'. Hai, mangaka gozaimashita desu ni yuujin yori.
Eingefügtes Bild
Ja, mata ne!

(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
0

Thema verteilen:


Seite 1 von 1

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0