WinFuture-Forum.de: downthemall duplicate links - WinFuture-Forum.de

Zum Inhalt wechseln

Nachrichten zum Thema: Browser & E-Mail
Seite 1 von 1

downthemall duplicate links


#1 Mitglied ist offline   titos 

  • Gruppe: Mitglieder
  • Beiträge: 2
  • Beigetreten: 26. Juli 17
  • Reputation: 0

geschrieben 26. Juli 2017 - 20:00

hallo

ich hab eine .txt liste von links. die dateien will ich mit downthemall downloaden. als "Namens-maske" hab ich "innum" ausgewählt, sodass die downloads der reihe nach nummeriert werden (d.h. 500 links, und die dateien werden der reihe nach gedownloaded und von 001-500 benannt).

mein problem: in den 500 links sind auch duplikate links (doppelte links). wenn ich in downthemall die .txt mit den 500 links importiere, erkennt er nur 485 links (weil 15 davon doppelt sind. diese löscht er, und lässt nur 1 version des links übrig). aber: ich möchte, dass auch die duplikaten der reihe nach gedownloaded werden.
(jetzt bitte keine diskussion darüber, dass das schwachsinn sei etc etc. mir ist die reihenfolge wichtig, auch mit duplikaten)

- ich finde leider jedoch keine option bei downthemall, die mir erlaubt, die funktion, duplikate links herauszuflitern, auszuschalten. wie kriege ich das hin?

kennt jemand einen anderen kostenloses download manager, der die downloads auch der reihe nach (so wie sie in der txt gelistet sind) von 001-500 bennen kann mit duplikaten, ohne sie herauszufiltern?

Dieser Beitrag wurde von titos bearbeitet: 26. Juli 2017 - 20:02

0

Anzeige



#2 Mitglied ist offline   RalphS 

  • Gruppe: VIP Mitglieder
  • Beiträge: 8.895
  • Beigetreten: 20. Juli 07
  • Reputation: 1.126
  • Geschlecht:Männlich
  • Wohnort:Zuhause
  • Interessen:Ja

geschrieben 26. Juli 2017 - 23:11

Wieviel Angst hast Du vor der Kommandozeile?

Falls wenig bis keine, schau mal Richtung aria2 oder, ggf, wget (gibt es auch für Windows). Beide akzeptieren über die Option -i <Datei> Textdateien (erwartet wird 1 Link / Zeile). wget kann außerdem mit der zusätzlichen Option -F davon überzeugt werden, daß die Eingabedatei das HTML-Format hat; in diesem Fall werden A(nchor)-Tags als herunterzuladene Inhalte interpretiert.

Die Eingabedatei wird in diesem Sinne nicht weiter beachtet. Du solltest aber durch die jeweilige Dokumentation gehen (jeweils mit -h zu erreichen) um zu sehen, wie verfahren werden soll, wenn die fertige Datei denselben Namen haben sollte (=> bekommen soll) wie eine bereits existierende, was ja bei duplikaten Links normalerweise der Fall ist. Hier wirst Du wahrscheinlich um ein Auto-Rename nicht herumkommen.


Alternativ gibt es die Option -o (kleiner Buchstabe) für aria2c bzw -O (großer Buchstabe) für wget, die der Ausgabedatei einen definierten Namen geben.

Aufpassen: Option -o (kleines O) für wget schreibt das Downloadprotokoll dort hin, NICHT das heruntergeladene Dokument.


Wenn Du also möchtest, daß die Dokumente der Reihe nach heruntergeladen werden und am Ende zB 1.txt, 2.txt, ... , 500.txt usw. bezeichnet sind, dann müßtest Du ein kleines Script mit einer for-Schleife drumherum bauen. Wahrscheinlich idealerweise in PowerShell oder JScript (Windows) - oder "irgendwas" auf einem unixoiden System, weil ja dann Zeile für Zeile gelesen und parallel eine Zählervariable geführt werden müßte.
"If you give a man a fish he is hungry again in an hour. If you teach him to catch a fish you do him a good turn."-- Anne Isabella Thackeray Ritchie

Eingefügtes Bild
Eingefügtes Bild
0

#3 Mitglied ist offline   titos 

  • Gruppe: Mitglieder
  • Beiträge: 2
  • Beigetreten: 26. Juli 17
  • Reputation: 0

geschrieben 27. Juli 2017 - 06:12

hallo

danke für die antwort. aria2 und wget habe ich tatsächlich versucht. jedoch kenne ich mich mit den befehlen leider nicht so aus. über tutorial habe ich einige mir behilfliche basics in regular expression und php angeeignet (und das auch nur spezifisch auf bestimmte scripte bezogen), jedoch für mehr müsste ich mich tiefer mit der materie beschäftigen.

ich hab jetzt einen umweg genommen. ich habe jetzt mit notepad++ etwas rumgefuchtelt und es hingekriegt, dass duplikate links gelöscht werde, ohne dass alle zeilen vorher sortiert werden. die neue bearbeitete linkausgabe habe ich dann mit der früheren, unbearbeiteten linkausgabe vergleichen lassen, sodass zeilenunterschiede gekennzeichnet wurden.

jetzt weiß ich wenigstens, an welcher stelle die daten doppelt waren/sind, und die links zu denen hätte ich auch. zwar ein wenig umständlich, aber ein relativ guter ersatz, wenn man mit sich mit scripten nicht auskennt.

danke für die hilfe.
0

Thema verteilen:


Seite 1 von 1

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0