WinFuture-Forum.de: Html-zu-text-konverter Und Html-links-extraktion - WinFuture-Forum.de

Nachrichten zum Thema: Software

Seite 1 von 1

Html-zu-text-konverter Und Html-links-extraktion

#1 Rika

Ausgebildeter ROFLcopter-Pilot

Gruppe: aktive Mitglieder
Beiträge: 11.533
Beigetreten: 11. Juni 03
Reputation: 2
Geschlecht:Männlich

geschrieben 11. August 2007 - 23:20

Brauche eigentlich nichts weiter zu sagen: Ich suche zwei Software-Pakete, die

1. lesbaren Text aus HTML-Dokumenten extrahieren
2. Links aus HTML-Dokumenten in eine Liste extrahieren

Wichtig sind Batch-Verarbeitung und Skriptbarkeit, gewünscht sind Quelloffenheit und Bekanntheit.

Konnichiwa. Manga wo shitte masu ka? Iie? Gomenne, sonoyouna koto ga tabitabi arimasu. Mangaka ojousan nihongo doujinshi desu wa 'Clamp X', 'Ayashi no Ceres', 'Card Captor Sakura', 'Tsubasa', 'Chobits', 'Sakura Taisen', 'Inuyasha' wo 'Ah! Megamisama'. Hai, mangaka gozaimashita desu ni yuujin yori.
Eingefügtes Bild

Ja, mata ne!

(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)

Nach oben
Nach oben of the page up there ^

#2 Stan

Clam Master K

Gruppe: aktive Mitglieder
Beiträge: 7.013
Beigetreten: 06. Juni 04
Reputation: 35
Geschlecht:Männlich
Wohnort:München

geschrieben 12. August 2007 - 00:15

Gut, dass wir da nen Checker im IRC haben...

Zitat

[01:10:25] <+cinap> benutz dafuer htmlfmt unter plan9
[01:11:07] <+cinap> links extrahieren sollte mit sed machbar sein
[01:11:23] <+cinap> suchen nach http:// oder ftp://
[01:11:31] <+cinap> das problem sind relative links
[01:11:57] <+cinap> dazu musst du dann wider die basis-url wissen, und die tags interpretieren koennen...
[01:12:04] <+cinap> libhtml bei plan9 macht das..
[01:12:38] <+cinap> hatte sogar mal nen url-parser dafuer gehackt, weil der standard unter bestimmten umstaenden probleme mit relativen urls hatte
[01:13:42] <+cinap> kann aber sein dasses fuer sowas fertige werkzeuge gibt
[01:13:48] <+cinap> perl hat da sicher auch schon module fuer
[01:13:51] <+cinap> und php

Nach oben
Nach oben of the page up there ^

#3 Atropin

Forumbewohner

Gruppe: aktive Mitglieder
Beiträge: 37
Beigetreten: 18. Juni 07
Reputation: 0
Geschlecht:Männlich
Wohnort:NRW

geschrieben 12. August 2007 - 02:35

2. Links aus HTML-Dokumenten in eine Liste extrahieren <- HTTP::Headers von CPAN fürn Perl
1. lesbaren Text aus HTML-Dokumenten extrahieren <- billiges perl script oder C programm was alles zwischen <xx> und </xx> rausholt mit ner ausnahme auf <script>...</script> etc ...

Nach oben
Nach oben of the page up there ^

#4 Anderländer

Freak

Gruppe: aktive Mitglieder
Beiträge: 1.144
Beigetreten: 03. Juli 04
Reputation: 0

geschrieben 12. August 2007 - 03:34

wenn man alles unter einer haube haben will ist glaube ich der vorschlag von Atropin besser da man dies in ein Perl skript zusammen fügen kann und evtl noch mehr funktionen hinzufügen kann je nach belieben.
Ausserdem denke ich das die Skriptbarkeit etwas mehr gegeben ist bei Perl was aber nicht umbedingt sein muss.

aso Rika nice rang haste hier hoffe mal die ausbildung zum ROFLcopter-Pilot war net zu teuer was Nerven anbelangt bei über 13k beiträgen ^^

Dieser Beitrag wurde von Anderländer bearbeitet: 12. August 2007 - 03:35

Sorry leuts wechen Rechtschreib fehlern und der schlechten Grammatik ich bin leider Legasteniker.

Nach oben
Nach oben of the page up there ^

#5 Rika

Ausgebildeter ROFLcopter-Pilot

Gruppe: aktive Mitglieder
Beiträge: 11.533
Beigetreten: 11. Juni 03
Reputation: 2
Geschlecht:Männlich

geschrieben 22. August 2007 - 21:02

Also das mit dem Extrahieren macht mittlerweile grep, das Auflösen der relativen URLs macht ein bash-Script. Textextraktion erfolgt mit Xapian, es geht nur darum, daß die Dateien durchsuchbar sind, aber zum anderen die Datenmenge reduziert wird - statt Textextraktion erfolgt das jetzt durch reine Komprimierung.

Ja, mata ne!

(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)

Nach oben
Nach oben of the page up there ^

Thema verteilen:

Seite 1 von 1

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0

Aktuelle Zeit: 18. Apr 2024 12:16

Community Forum Software by IP.Board

WinFuture-Forum.de: Html-zu-text-konverter Und Html-links-extraktion - WinFuture-Forum.de

Html-zu-text-konverter Und Html-links-extraktion

#1 Rika

Anzeige

#2 Stan

#3 Atropin

#4 Anderländer

#5 Rika

Thema verteilen:

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0

Beitrag entfernen

Design und Sprache

Sprache:

Ausführungsstatistiken

WinFuture-Forum.de: Html-zu-text-konverter Und Html-links-extraktion - WinFuture-Forum.de

Html-zu-text-konverter Und Html-links-extraktion

#1 Rika

Anzeige

#2 Stan

#3 Atropin

#4 Anderländer

#5 Rika

Thema verteilen:

1 Besucher lesen dieses Thema Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0

Beitrag entfernen

Design und Sprache

Sprache: Deutsch (DU)

Ausführungsstatistiken

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0

Sprache: