WinFuture-Forum.de: Webseiten auslesen lassen - WinFuture-Forum.de

Zum Inhalt wechseln

Nachrichten zum Thema: Entwicklung
Seite 1 von 1

Webseiten auslesen lassen


#1 Mitglied ist offline   Hantman87 

  • Gruppe: Mitglieder
  • Beiträge: 1
  • Beigetreten: 29. Oktober 14
  • Reputation: 0

geschrieben 29. Oktober 2014 - 20:14

Hi Leute,

ich würde gerne von euch wissen mit welcher Programmiersprache oder welches Programm sich für Folgendes eignet? :


Ich möchte Daten von Webseiten automatisch auslesen lassen und dann statistische Abfragen machen.

Mich würde z. B. die Webseite von http://www.imdb.com/ interessieren. Ich finde die Bewertungen z. B. hier echt interessant. Man kann z. B. auf der Seite auch sehen, wie welche Altersgruppen z. B. einen Film bewerten. Aber ich möchte dieses nunmal nicht alles mit der Hand eingeben müssen.


Programmiersprachen beherrsche ich leider so gut wie keine.

Habe bisher nur Erfahrung mit Excel gemacht und dort meine statistischen Abfragen gemacht (leider aber hier keine VBA-Kenntnisse). Und Access mal in der Schule kurz gehabt, bin da aber nicht so gut drinne.


Aber ich bin definitiv offen neue Programmiersprachen zu erlernen oder mich in neue Software einzuarbeiten/weiterzubilden.


Wäre euch für euren Rat echt dankbar.





lg Hantman87
0

Anzeige



#2 Mitglied ist offline   Decay 

  • Gruppe: aktive Mitglieder
  • Beiträge: 884
  • Beigetreten: 09. Juni 04
  • Reputation: 7
  • Geschlecht:Männlich

geschrieben 29. Oktober 2014 - 20:54

in VB.Net könntest du so eine Webseite auslesen und in einer Text-Datei abspeichern:


        Dim client As WebClient = New WebClient()
        Dim reply As String = client.DownloadString("http://www.winfuture-forum.de/index.php?showtopic=208443")

        Dim myWriter As New StreamWriter("C:\test1.txt", False)
        myWriter.WriteLine(reply)
        myWriter.Close()




Nur nach welchem String-Pattern du suchen möchtest, das wird schwer, denn jede Seite ist anders gestaltet.
Vor allem wüsste ich aus dem Stehgreif derzeit keine Methode allen Links und dergleichen zu folgen und mitzuspeichern; besonders, wenn es noch nach Suchmustern geht, die an die Webseite übergeben werden sollen.
0

#3 Mitglied ist offline   Sturmovik 

  • Gruppe: aktive Mitglieder
  • Beiträge: 3.776
  • Beigetreten: 10. Januar 08
  • Reputation: 445
  • Geschlecht:unbekannt
  • Wohnort:In Reichweite der Kaffeemaschine
  • Interessen:IT, Luftfahrt, historische Technik

geschrieben 29. Oktober 2014 - 21:02

Eine Möglichkeit wäre, auf der Webseite nach einem bestimmten konstanten String zu suchen, der vor dem gewünschten Datenfeld liegt.
In VB könnte man das erreichen, indem man eine Internetexplorer-Instanz erzeugt und diese 'fernsteuert'
Ist aber verdammt umständlich und fragil, da sich das vermeintlich konstante Feld auch mal ändern kann.

Bei imdb.com wäre es wesentlich einfacher eine der tausenden inoffiziellen API's zu nutzen oder direkt die offiziellen Datendateien zu durchsuchen. Da kann man die gewünschten Daten sauber addressieren.
«Geschichte wiederholt sich nicht, aber sie reimt sich» (Mark Twain)

Unix won't hold your hand. You wanna shoot your foot, Unix reliably delivers the shot.

True Cloudstorage
0

#4 Mitglied ist offline   ^L^ 

  • Gruppe: aktive Mitglieder
  • Beiträge: 2.101
  • Beigetreten: 06. Februar 07
  • Reputation: 101
  • Geschlecht:Männlich
  • Wohnort:inmeinerwelt.at
  • Interessen:''Herzliche'' Musik (Renaissance bis Heute) + Waldspaziergänge + Ruhe [o;

geschrieben 29. Oktober 2014 - 22:19

Hier einige Tools - vielleicht ist was dabei ...

http://www.softpedia...k-Extract.shtml :smokin: https://forum.geizha...06.html#7025106

http://www.loadscout.com :cool: https://forum.geizha...87.html#5674387

[LIST OF + SAMMELTHREAD] Onlineservices zur Webseitenüberwachung Website Monitoring & weitere Free Services
https://forum.geizha...01.html#7019701
Gesundheitsbasis: (Ich) Mach' es wie die Sonnenuhr, zähl' die schönen Stunden nur ...

WinBoard-Forum | Dr. Windows | Denkforum
MullVad-Verbindungs-Check | Browser-User-Agent-Check | Trace-Route-Check
Windows-Tasten-Shortcuts | GSM-Handy-Codes | Browser-Privacy-Test
0

#5 Mitglied ist offline   RalphS 

  • Gruppe: VIP Mitglieder
  • Beiträge: 8.895
  • Beigetreten: 20. Juli 07
  • Reputation: 1.126
  • Geschlecht:Männlich
  • Wohnort:Zuhause
  • Interessen:Ja

geschrieben 29. Oktober 2014 - 22:53

HTML direkt auswerten ist immer eine schlechte Idee. Das kann sich von Tag zu Tag ändern, je nachdem wie geschäftig die Administration/Entwicklungsabteilung ist.

Abgesehen davon hat man auch viel zuviel Overhead. Man will ja nur die Daten haben und muß aber trotzdem außer dem Datenbankserver auch noch den Webserver belasten. Das kostet unnütz Ressourcen. Darüber hinaus muß man die Daten im Quelltext ja auch finden und DAS ist leider der problematischste Teil davon - mit Pech geht es gar nicht, weil die Daten schlicht keinem (syntaktischen) Schema entsprechen und damit nicht automatisiert extrahierbar sind.

Wie Sturmi schreibt: auf andere Datenquellen zurückgreifen, so sie vom jeweiligen Betreiber bereitgestellt werden - schon RSS ist tauglicher, weil strukturierter - und falls das nicht geht, weil nichts bereitgestellt wird, einfach mal kurz und unverbindlich beim Betreiber anfragen, dem die Situation schildern und schauen, was passiert. Mehr als "nein" sagen kann der ja auch nicht und alles andere wäre ja schon von Vorteil.

Dann muß man natürlich aber auch das nehmen, was man zur Verfügung gestellt kriegt und wenn das ein PostgreSQL-Dump sein sollte kann man nicht nach CSV fragen, sondern muß sich halt in Postgres soweit reinfuchsen, daß man den Dump zumindest konvertiert kriegt. :wink:

Dieser Beitrag wurde von RalphS bearbeitet: 29. Oktober 2014 - 22:56

"If you give a man a fish he is hungry again in an hour. If you teach him to catch a fish you do him a good turn."-- Anne Isabella Thackeray Ritchie

Eingefügtes Bild
Eingefügtes Bild
0

#6 Mitglied ist offline   Ludacris 

  • Gruppe: Moderation
  • Beiträge: 4.666
  • Beigetreten: 28. Mai 06
  • Reputation: 218
  • Geschlecht:Männlich

geschrieben 03. November 2014 - 21:49

Wenn du im Web arbeitest ( mit PHP ) kann ich dir SimpleHTMLDOM empfehlen.
0

#7 Mitglied ist offline   RalphS 

  • Gruppe: VIP Mitglieder
  • Beiträge: 8.895
  • Beigetreten: 20. Juli 07
  • Reputation: 1.126
  • Geschlecht:Männlich
  • Wohnort:Zuhause
  • Interessen:Ja

geschrieben 03. November 2014 - 22:39

Wer hält sich schon an Standards? :ph34r: Einfach mal die gelegentliche, zufällig ausgewählte Präsenz durch den W3 Validator schicken und... naja, "staunen" ist nicht das richtige Wort.

DOM erfordert aber gültiges HTML - sonst macht's ja auch keinen Sinn.
"If you give a man a fish he is hungry again in an hour. If you teach him to catch a fish you do him a good turn."-- Anne Isabella Thackeray Ritchie

Eingefügtes Bild
Eingefügtes Bild
0

#8 Mitglied ist offline   Kirill 

  • Gruppe: aktive Mitglieder
  • Beiträge: 3.590
  • Beigetreten: 04. Dezember 06
  • Reputation: 121
  • Geschlecht:Männlich
  • Wohnort:BT

geschrieben 17. Dezember 2014 - 10:17

Ich habe ein paar HTML-Crawler mit C# geschrieben. Das ist geradezu lächerlich einfach. Wenn man mit HTML was anfangen kann. VB.NET würde sich natürlich auch eignen.
Most rethrashing{
DiskCache=AllocateMemory(GetTotalAmountOfAvailableMemory);}
0

Thema verteilen:


Seite 1 von 1

1 Besucher lesen dieses Thema
Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0