Scraping

von Timo Schnalzger | 14.11.2021 | WIKI

Scraping

Hast Du schon mal Angebote auf Websites wie Check24 oder Idealo verglichen?  Damit dieses Geschäftsmodell funktioniert, werden mit dem sogenannten Scraping die Inhalte von Webseiten für eigene Zwecke verwendet. Sind die sensiblen Daten Deiner Websitesicher? Wir erklären Dir, was das genau bedeutet, welchen Nutzen es hat und wie Dein Unternehmen sich davor schützen kann.

Was ist Scraping?

Schon seit vielen Jahren nutzen Suchmaschinen wie Google Crawler, die das Internet Website für Webseite nach bestimmten Begriffen durchsuchen, um diese zu kategorisieren und einzuordnen. Scraping oder Scrapen ist eine besondere Technik des Crawlings und die Kurzform von Web Scraping oder Screen Scraping. Beim Scraping (deutsch: „kratzen/abschürfen“) werden Webinhalte extrahiert, um diese zu analysieren oder anderweitig wiederzuverwenden. Zu diesen Daten können ganze URLs gehören, aber auch Kontaktdaten wie E-Mails und Telefonnummern. Auch eine Bildsuche ist möglich und nennt sich Image Scraping. Weil die fremden Daten sprichwörtlich geerntet werden, spricht man beim Screen Scraper auch vom Web Harvesting.

Warum wird Web Scraping genutzt?

Es gibt viele Gründe für das Nutzen von Web Scraping Softwares. Benutzerdefinierte Daten und Informationen lassen sich schnell sammeln und können weiterverarbeitet und analysiert werden. Einer der Hauptgründe ist es, sich mit dem Website Scraping einen Marktvorteil zu verschaffen. 

Marktvorteil mit Scraping

Wird die Konkurrenz von Deinem Unternehmen gescraped, so kannst Du alle Produkte und Informationen einsehen und diese direkt mit den eigenen vergleichen. Zum Beispiel schafft sich Google durch Web Scraping einen Marktvorteil, indem die SuchmaschinePreisvergleiche und wichtige Informationen der verschiedenen Webseiten für ihre Nutzer zur Verfügung stellt.

// Du willst Dein Wissen vertiefen?

SEO Blog der SEo Agentur

Blog

Alles rund ums Online Marketing.

> zum Blog

SEO WIKI der SEO Agentur H&W

SEO WIKI

Unser Online Marketing Glossar.

> zur WIKI

H&W//SEO-Agentur Podcast

Podcast

Online Marketing Podcast

> zum Podcast

Wie funktioniert Web Scraping?

Vereinfacht beschrieben, besteht das Scraping aus zwei Teilen: dem Aufrufen der Webseiten und der darauffolgenden Extraktion der Daten. Für das Scraping werden unterschiedliche Web Scraping Tools und Technologien genutzt. Wir zeigen Dir, wie diese genau funktionieren:

Manuelles Scraping

Hört sich Old School an, aber Inhalte auf Webseiten oder Quellcode-Abschnitte werden tatsächlich noch von Hand copy-pasted. Ist dieWebsite blockiert und Bots oder eine Web Scraping Software kommen nicht weiter, wird der manuelle Weg genutzt.

Text Pattern Matching 

Mit Befehlen in Programmiersprachen wie Perl, Java oder Python können Informationen aus Webseiten ausgelesen und abgeglichen werden.

Software-Tools

Sraping-Softwares wie Scraper API und SprapeSimple machen Web Scraping auch mit geringen Programmierkenntnissen möglich. 

HTTP-Manipulation

Mit HTTP-Request lassen sich die Inhalte von Webseiten kopieren. 

Data Mining

Eine weitere Möglichkeit des Scrapings ist das Data Mining. Webdeveloper nutzen Analysen von Skripten und Templates, die auf einer Webseite eingebettet sind und spielen die gesuchten Inhalte über einen sogenannten Wrapper auf der eigenen Seite aus.

HTML-Parser

Die bekannten HTML-Parser dienen beim Screen Scraping zum Auslesen und Umwandeln von jeweils gesuchten Elementen aus Websites.

Auslaufen von Mikroformaten:

Mikroformate sind häufig eine wichtige Verfahrensweise im Bereich der Websites. Sie enthalten unter anderem Metadaten oder semantische Angaben. Durch die Auslese dieser Daten lässt sich die Lokalisierung spezieller Data Snippets ermitteln.

Jetzt mit Online Marketing durchstarten

Nutze Online Marketing um Deine Zielgruppen zu erreichen und mit Deinem Unternehmen zu wachsen.

SEO Rakete

Web Scraping erweckt bei vielen das Gefühl, dass Daten von fremden Webseiten regelrecht geklaut werden. Ist Scraping also wirklich legal? Die Antwort darauf ist ein Ja, denn wenn Webseiten Daten veröffentlichen, können diese in der Regel auch beliebig durchgescannt werden. Shopping Apps und Vergleichsportale wie zum Beispiel Amazon nutzen Scraping, um ihren Usern die besten Preise zugänglich zu machen und das ist komplett legal. Jedoch sind nicht alle Web Daten für die Öffentlichkeit bestimmt und dürfen daher nicht einfach abgegriffen werden. Werden persönliche Daten oder geistiges Eigentum gescrapt und weiter verwendet, wird daraus schnell Scraping mit bösartiger Absicht, welches zu Strafen wie der DMCA-Abmahnung (Digital Millennium Copyright Act) führen kann. Das Scraping ist also nur dann legal, wenn die extrahierten Daten frei zugänglich für Dritte im Web stehen. Damit Du sicher sein kannst, rechtlich alles richtigzumachen, solltest Du Folgendes beim Web Scraping beachten:

  • Vor dem Scraping das Urheberrecht einsehen und einhalten. Urheberrechtlich geschützte Daten dürfen nicht anderweitig verwendet werden.
  • Seitenbetreiber haben ein Recht, technische Vorgänge zu installieren, die das Web Scraping blockieren. Es ist nicht erlaubt, dies zu umgehen.
  • Hängt das Nutzen der Daten mit einer User-Anmeldung oder einem Nutzungsvertrag zusammen, dürfen diese Daten nicht gescraped werden.
  • Das Ausblenden von allgemeinen Nutzungsbedingungen, Werbung oder Disclaimern durch Scraping-Technologie ist illegal.

Neben der Nutzung, die oft legal ist, kann Scraping auch in vielen Fällen missbraucht werden. So wird die Technologie oft für den illegalen Betrieb von Spam missbraucht. Spammer können mit ihr z. B. E-Mail-Adressen sammeln und Spam-Mails an diese Empfänger senden.

    Wo wird Scraping eingesetzt?

    Web Scraping ist in vielen Bereichen einsetzbar, etwa bei der Erhebung von Kontaktdaten oder speziellen Informationen. Im professionellen Bereich wird häufig Scraping angewandt, um im Wettbewerb Vorteile gegenüber Konkurrenten zu erlangen. DurchDaten-Harvesting kann eine Firma alle Produkte eines Konkurrenten einsehen und mit den eigenen vergleichen. Auch bei Finanzdaten bringt Web Scraping einen Mehrwert: die Informationen.

    Kann ein Unternehmen Scraping blockieren?

    Ja. Es gibt verschiedene Methoden, die ein Unternehmen anwenden kann, um unerwünschte Web Scraper aufzuhalten. Mit der Datei robots.txt können Suchmaschinen-Bots blockiert werden und somit auch ein automatisches Scraping durch Software-Bots. Persönliche Angaben lassen sich gezielt versteckt und zusätzlich können Daten wie Telefonnummern oder Adressen als CSS oder in Bildform hinterlegt werden, um ein Web Scraping zu verhindern. Es gibt außerdem eine Vielzahl an kostenpflichtige Anti-Bot-Services. 

    Web Scraping bietet Unternehmen etliche Vorteile, um Informationen zu finden. Trotzdem kommt diese Methode häufig in Verbindung mit illegalen Aktivitäten vor. Es ist deshalb von Vorteil, Deine Website mit Sicherheitseinrichtungen wie einer Firewall, Bot Management, einer CAPTCHA-Abfrage und einer richtig aufgesetzten robots.txt-Datei vor Angriffen dieser Art zu schützen.

    Timo Schnalzger

    Timo Schnalzger

    SEO//Content Marketing

    Timo war schon in der Schule begeistert von der Literatur. Auf der Suche nach einem Studiengang geriet er an die Germanistik. Dort entdeckte er seine Liebe zum detaillierten Arbeiten an und mit Texten. Erste Gehversuche mit kreativem Schreiben unternahm er in seiner Zeit als Mitglied der studentischen Fachschaft. Jetzt kombiniert er alle diese Interessen und Fähigkeiten bei H&W.