Brauche eigentlich nichts weiter zu sagen: Ich suche zwei Software-Pakete, die
1. lesbaren Text aus HTML-Dokumenten extrahieren
2. Links aus HTML-Dokumenten in eine Liste extrahieren
Wichtig sind Batch-Verarbeitung und Skriptbarkeit, gewünscht sind Quelloffenheit und Bekanntheit.
Seite 1 von 1
Html-zu-text-konverter Und Html-links-extraktion
#1
geschrieben 11. August 2007 - 23:20
Konnichiwa. Manga wo shitte masu ka? Iie? Gomenne, sonoyouna koto ga tabitabi arimasu. Mangaka ojousan nihongo doujinshi desu wa 'Clamp X', 'Ayashi no Ceres', 'Card Captor Sakura', 'Tsubasa', 'Chobits', 'Sakura Taisen', 'Inuyasha' wo 'Ah! Megamisama'. Hai, mangaka gozaimashita desu ni yuujin yori.
Ja, mata ne!
(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
Ja, mata ne!
(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
Anzeige
#2
geschrieben 12. August 2007 - 00:15
Gut, dass wir da nen Checker im IRC haben...
Zitat
[01:10:25] <+cinap> benutz dafuer htmlfmt unter plan9
[01:11:07] <+cinap> links extrahieren sollte mit sed machbar sein
[01:11:23] <+cinap> suchen nach http:// oder ftp://
[01:11:31] <+cinap> das problem sind relative links
[01:11:57] <+cinap> dazu musst du dann wider die basis-url wissen, und die tags interpretieren koennen...
[01:12:04] <+cinap> libhtml bei plan9 macht das..
[01:12:38] <+cinap> hatte sogar mal nen url-parser dafuer gehackt, weil der standard unter bestimmten umstaenden probleme mit relativen urls hatte
[01:13:42] <+cinap> kann aber sein dasses fuer sowas fertige werkzeuge gibt
[01:13:48] <+cinap> perl hat da sicher auch schon module fuer
[01:13:51] <+cinap> und php
[01:11:07] <+cinap> links extrahieren sollte mit sed machbar sein
[01:11:23] <+cinap> suchen nach http:// oder ftp://
[01:11:31] <+cinap> das problem sind relative links
[01:11:57] <+cinap> dazu musst du dann wider die basis-url wissen, und die tags interpretieren koennen...
[01:12:04] <+cinap> libhtml bei plan9 macht das..
[01:12:38] <+cinap> hatte sogar mal nen url-parser dafuer gehackt, weil der standard unter bestimmten umstaenden probleme mit relativen urls hatte
[01:13:42] <+cinap> kann aber sein dasses fuer sowas fertige werkzeuge gibt
[01:13:48] <+cinap> perl hat da sicher auch schon module fuer
[01:13:51] <+cinap> und php
#3
geschrieben 12. August 2007 - 02:35
2. Links aus HTML-Dokumenten in eine Liste extrahieren <- HTTP::Headers von CPAN fürn Perl
1. lesbaren Text aus HTML-Dokumenten extrahieren <- billiges perl script oder C programm was alles zwischen <xx> und </xx> rausholt mit ner ausnahme auf <script>...</script> etc ...
1. lesbaren Text aus HTML-Dokumenten extrahieren <- billiges perl script oder C programm was alles zwischen <xx> und </xx> rausholt mit ner ausnahme auf <script>...</script> etc ...
#4
geschrieben 12. August 2007 - 03:34
wenn man alles unter einer haube haben will ist glaube ich der vorschlag von Atropin besser da man dies in ein Perl skript zusammen fügen kann und evtl noch mehr funktionen hinzufügen kann je nach belieben.
Ausserdem denke ich das die Skriptbarkeit etwas mehr gegeben ist bei Perl was aber nicht umbedingt sein muss.
aso Rika nice rang haste hier hoffe mal die ausbildung zum ROFLcopter-Pilot war net zu teuer was Nerven anbelangt bei über 13k beiträgen ^^
Ausserdem denke ich das die Skriptbarkeit etwas mehr gegeben ist bei Perl was aber nicht umbedingt sein muss.
aso Rika nice rang haste hier hoffe mal die ausbildung zum ROFLcopter-Pilot war net zu teuer was Nerven anbelangt bei über 13k beiträgen ^^
Dieser Beitrag wurde von Anderländer bearbeitet: 12. August 2007 - 03:35
#5
geschrieben 22. August 2007 - 21:02
Also das mit dem Extrahieren macht mittlerweile grep, das Auflösen der relativen URLs macht ein bash-Script. Textextraktion erfolgt mit Xapian, es geht nur darum, daß die Dateien durchsuchbar sind, aber zum anderen die Datenmenge reduziert wird - statt Textextraktion erfolgt das jetzt durch reine Komprimierung.
Konnichiwa. Manga wo shitte masu ka? Iie? Gomenne, sonoyouna koto ga tabitabi arimasu. Mangaka ojousan nihongo doujinshi desu wa 'Clamp X', 'Ayashi no Ceres', 'Card Captor Sakura', 'Tsubasa', 'Chobits', 'Sakura Taisen', 'Inuyasha' wo 'Ah! Megamisama'. Hai, mangaka gozaimashita desu ni yuujin yori.
Ja, mata ne!
(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
Ja, mata ne!
(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
Thema verteilen:
Seite 1 von 1