Webseiten auslesen lassen

#1 Hantman87

Frischling

Gruppe: Mitglieder
Beiträge: 1
Beigetreten: 29. Oktober 14
Reputation: 0

geschrieben 29. Oktober 2014 - 20:14

Hi Leute,

ich würde gerne von euch wissen mit welcher Programmiersprache oder welches Programm sich für Folgendes eignet? :

Ich möchte Daten von Webseiten automatisch auslesen lassen und dann statistische Abfragen machen.

Mich würde z. B. die Webseite von http://www.imdb.com/ interessieren. Ich finde die Bewertungen z. B. hier echt interessant. Man kann z. B. auf der Seite auch sehen, wie welche Altersgruppen z. B. einen Film bewerten. Aber ich möchte dieses nunmal nicht alles mit der Hand eingeben müssen.

Programmiersprachen beherrsche ich leider so gut wie keine.

Habe bisher nur Erfahrung mit Excel gemacht und dort meine statistischen Abfragen gemacht (leider aber hier keine VBA-Kenntnisse). Und Access mal in der Schule kurz gehabt, bin da aber nicht so gut drinne.

Aber ich bin definitiv offen neue Programmiersprachen zu erlernen oder mich in neue Software einzuarbeiten/weiterzubilden.

Wäre euch für euren Rat echt dankbar.

lg Hantman87

Nach oben
Nach oben of the page up there ^

#2 Decay

WF-Süchtling

Gruppe: aktive Mitglieder
Beiträge: 884
Beigetreten: 09. Juni 04
Reputation: 7
Geschlecht:Männlich

geschrieben 29. Oktober 2014 - 20:54

in VB.Net könntest du so eine Webseite auslesen und in einer Text-Datei abspeichern:


        Dim client As WebClient = New WebClient()
        Dim reply As String = client.DownloadString("http://www.winfuture-forum.de/index.php?showtopic=208443")

        Dim myWriter As New StreamWriter("C:\test1.txt", False)
        myWriter.WriteLine(reply)
        myWriter.Close()

Nur nach welchem String-Pattern du suchen möchtest, das wird schwer, denn jede Seite ist anders gestaltet.
Vor allem wüsste ich aus dem Stehgreif derzeit keine Methode allen Links und dergleichen zu folgen und mitzuspeichern; besonders, wenn es noch nach Suchmustern geht, die an die Webseite übergeben werden sollen.

Nach oben
Nach oben of the page up there ^

#3 Sturmovik

Profi

Gruppe: aktive Mitglieder
Beiträge: 3.776
Beigetreten: 10. Januar 08
Reputation: 445
Geschlecht:unbekannt
Wohnort:In Reichweite der Kaffeemaschine
Interessen:IT, Luftfahrt, historische Technik

geschrieben 29. Oktober 2014 - 21:02

Eine Möglichkeit wäre, auf der Webseite nach einem bestimmten konstanten String zu suchen, der vor dem gewünschten Datenfeld liegt.
In VB könnte man das erreichen, indem man eine Internetexplorer-Instanz erzeugt und diese 'fernsteuert'
Ist aber verdammt umständlich und fragil, da sich das vermeintlich konstante Feld auch mal ändern kann.

Bei imdb.com wäre es wesentlich einfacher eine der tausenden inoffiziellen API's zu nutzen oder direkt die offiziellen Datendateien zu durchsuchen. Da kann man die gewünschten Daten sauber addressieren.

«Geschichte wiederholt sich nicht, aber sie reimt sich» (Mark Twain)

Unix won't hold your hand. You wanna shoot your foot, Unix reliably delivers the shot.

True Cloudstorage

Nach oben
Nach oben of the page up there ^

#4 ^L^

WF-Fetischist

Gruppe: aktive Mitglieder
Beiträge: 2.103
Beigetreten: 06. Februar 07
Reputation: 101
Geschlecht:Männlich
Wohnort:inmeinerwelt.at
Interessen:''Herzliche'' Musik (Renaissance bis Heute) + Waldspaziergänge + Ruhe [o;

geschrieben 29. Oktober 2014 - 22:19

Hier einige Tools - vielleicht ist was dabei ...

http://www.softpedia...k-Extract.shtml :smokin:

https://forum.geizha...06.html#7025106

http://www.loadscout.com :cool:

https://forum.geizha...87.html#5674387

[LIST OF + SAMMELTHREAD] Onlineservices zur Webseitenüberwachung Website Monitoring & weitere Free Services
https://forum.geizha...01.html#7019701

Nach oben
Nach oben of the page up there ^

#5 RalphS

Pelztier

Gruppe: VIP Mitglieder
Beiträge: 8.895
Beigetreten: 20. Juli 07
Reputation: 1.126
Geschlecht:Männlich
Wohnort:Zuhause
Interessen:Ja

geschrieben 29. Oktober 2014 - 22:53

HTML direkt auswerten ist immer eine schlechte Idee. Das kann sich von Tag zu Tag ändern, je nachdem wie geschäftig die Administration/Entwicklungsabteilung ist.

Abgesehen davon hat man auch viel zuviel Overhead. Man will ja nur die Daten haben und muß aber trotzdem außer dem Datenbankserver auch noch den Webserver belasten. Das kostet unnütz Ressourcen. Darüber hinaus muß man die Daten im Quelltext ja auch finden und DAS ist leider der problematischste Teil davon - mit Pech geht es gar nicht, weil die Daten schlicht keinem (syntaktischen) Schema entsprechen und damit nicht automatisiert extrahierbar sind.

Wie Sturmi schreibt: auf andere Datenquellen zurückgreifen, so sie vom jeweiligen Betreiber bereitgestellt werden - schon RSS ist tauglicher, weil strukturierter - und falls das nicht geht, weil nichts bereitgestellt wird, einfach mal kurz und unverbindlich beim Betreiber anfragen, dem die Situation schildern und schauen, was passiert. Mehr als "nein" sagen kann der ja auch nicht und alles andere wäre ja schon von Vorteil.

Dann muß man natürlich aber auch das nehmen, was man zur Verfügung gestellt kriegt und wenn das ein PostgreSQL-Dump sein sollte kann man nicht nach CSV fragen, sondern muß sich halt in Postgres soweit reinfuchsen, daß man den Dump zumindest konvertiert kriegt. :wink:

Dieser Beitrag wurde von RalphS bearbeitet: 29. Oktober 2014 - 22:56

"If you give a man a fish he is hungry again in an hour. If you teach him to catch a fish you do him a good turn."-- Anne Isabella Thackeray Ritchie

Nach oben
Nach oben of the page up there ^

#6 Ludacris

Elite

Gruppe: Moderation
Beiträge: 4.668
Beigetreten: 28. Mai 06
Reputation: 218
Geschlecht:Männlich

geschrieben 03. November 2014 - 21:49

Wenn du im Web arbeitest ( mit PHP ) kann ich dir SimpleHTMLDOM empfehlen.

Nach oben
Nach oben of the page up there ^

#7 RalphS

Pelztier

Gruppe: VIP Mitglieder
Beiträge: 8.895
Beigetreten: 20. Juli 07
Reputation: 1.126
Geschlecht:Männlich
Wohnort:Zuhause
Interessen:Ja

geschrieben 03. November 2014 - 22:39

Wer hält sich schon an Standards? :ph34r:

Einfach mal die gelegentliche, zufällig ausgewählte Präsenz durch den W3 Validator schicken und... naja, "staunen" ist nicht das richtige Wort.

DOM erfordert aber gültiges HTML - sonst macht's ja auch keinen Sinn.

"If you give a man a fish he is hungry again in an hour. If you teach him to catch a fish you do him a good turn."-- Anne Isabella Thackeray Ritchie

Nach oben
Nach oben of the page up there ^

#8 Kirill

Profi

Gruppe: aktive Mitglieder
Beiträge: 3.590
Beigetreten: 04. Dezember 06
Reputation: 121
Geschlecht:Männlich
Wohnort:BT

geschrieben 17. Dezember 2014 - 10:17

Ich habe ein paar HTML-Crawler mit C# geschrieben. Das ist geradezu lächerlich einfach. Wenn man mit HTML was anfangen kann. VB.NET würde sich natürlich auch eignen.

Most rethrashing{
DiskCache=AllocateMemory(GetTotalAmountOfAvailableMemory);}

Nach oben
Nach oben of the page up there ^

Thema verteilen:

Seite 1 von 1

WinFuture-Forum.de: Webseiten auslesen lassen - WinFuture-Forum.de