WinFuture-Forum.de: Url-replacement Im Webcrawler - WinFuture-Forum.de

Zum Inhalt wechseln

Nachrichten zum Thema: Software
Seite 1 von 1

Url-replacement Im Webcrawler Wget? Httrack?


#1 Mitglied ist offline   Rika 

  • Gruppe: aktive Mitglieder
  • Beiträge: 11.533
  • Beigetreten: 11. Juni 03
  • Reputation: 2
  • Geschlecht:Männlich

geschrieben 09. April 2007 - 22:12

Entweder können Wget und Httrack das nicht, oder ich bin zu blöd, die passende Option zu finden.
Also, kurze Beschreibung des Problems:

Eine Webseite mirrort eine andere, indem sie deren Inhalt 1:1 kopiert und dann mittels JavaScript on-the-fly die eigene URL vornedranhängt. Also in der Art:

links=document.links;
for(i=0; i<links.length; i++) {
links[i].href="http://mirror.org/mirror.pl?"+links[i].href;
}

Nun will ich genau diese Mirror-Seite vollständig crawlen und auch die ersetzten URLs nutzen, weil das Original halt nicht mehr verfügbar ist bzw. geändert wurde.

Nur: Wie? Bei HTTrack sehe ich da genau gar keine Option dafür, bei Wget kann man mit --base-url höchstens etwas an eine lokal geladene HTML-Datei ranhängen.

Die Lösung mit einem lokalen Proxy, der das alles selbst ersetzt, möchte ich nach Möglichkeit meiden.
Konnichiwa. Manga wo shitte masu ka? Iie? Gomenne, sonoyouna koto ga tabitabi arimasu. Mangaka ojousan nihongo doujinshi desu wa 'Clamp X', 'Ayashi no Ceres', 'Card Captor Sakura', 'Tsubasa', 'Chobits', 'Sakura Taisen', 'Inuyasha' wo 'Ah! Megamisama'. Hai, mangaka gozaimashita desu ni yuujin yori.
Eingefügtes Bild
Ja, mata ne!

(For sending email please use OpenPGP encryption and signing. KeyID: 0xA0E28D18)
0

Anzeige



#2 Mitglied ist offline   nadar 

  • Gruppe: aktive Mitglieder
  • Beiträge: 99
  • Beigetreten: 05. August 06
  • Reputation: 0

geschrieben 22. April 2007 - 10:44

Hmm, ich weiß ned nicht genau (es ist noch früh am Morgen 0o), _wie_ bzw _was_ du machen willst, aber evtl kannst du ja das hier bisschen missbrauchen? (wget): --referer=URL die Kopfzeile `Referer: URL' der HTTP-Anforderung hinzufügen.

Und evtl kannst du noch mit
-k, --convert-links nicht-relative Links in relative umwandeln
in wget etwas anfangen?

Eine Variante wäre noch, die ganzen URLs in eine txt-Datei zu laden, (mit RegEx) zu bearbeiten und dann laden mit wget -r (-np) --input-file=txt-Datei.

Dieser Beitrag wurde von nadar bearbeitet: 22. April 2007 - 10:45

0

Thema verteilen:


Seite 1 von 1

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0