Timo Schnalzger
Inhalt
Interesse an einem Austausch?
Lass uns gerne gemeinsam über Dein Projekt schauen.
Scraping
Hast Du schon mal Angebote auf Websites wie Check24 oder Idealo verglichen? Damit dieses Geschäftsmodell funktioniert, werden mit dem sogenannten Scraping die Inhalte von Webseiten für eigene Zwecke verwendet. Sind die sensiblen Daten Deiner Website sicher? Wir erklären Dir, was das genau bedeutet, welchen Nutzen es hat und wie Dein Unternehmen sich davor schützen kann.
Inhalt
Was ist Scraping?
Schon seit vielen Jahren nutzen Suchmaschinen wie Google Crawler, die das Internet Website für Webseite nach bestimmten Begriffen durchsuchen, um diese zu kategorisieren und einzuordnen. Scraping oder Scrapen ist eine besondere Technik des Crawlings und die Kurzform von Web Scraping oder Screen Scraping. Beim Scraping (deutsch: „kratzen/abschürfen“) werden Webinhalte extrahiert, um diese zu analysieren oder anderweitig wiederzuverwenden. Zu diesen Daten können ganze URLs gehören, aber auch Kontaktdaten wie E-Mails und Telefonnummern. Auch eine Bildsuche ist möglich und nennt sich Image Scraping. Weil die fremden Daten sprichwörtlich geerntet werden, spricht man beim Screen Scraper auch vom Web Harvesting.
Warum wird Web Scraping genutzt?
Es gibt viele Gründe für das Nutzen von Web Scraping Softwares. Benutzerdefinierte Daten und Informationen lassen sich schnell sammeln und können weiterverarbeitet und analysiert werden. Einer der Hauptgründe ist es, sich mit dem Website Scraping einen Marktvorteil zu verschaffen.
Marktvorteil mit Scraping
Wird die Konkurrenz von Deinem Unternehmen gescraped, so kannst Du alle Produkte und Informationen einsehen und diese direkt mit den eigenen vergleichen. Zum Beispiel schafft sich Google durch Web Scraping einen Marktvorteil, indem die SuchmaschinePreisvergleiche und wichtige Informationen der verschiedenen Webseiten für ihre Nutzer zur Verfügung stellt.
Wie funktioniert Web Scraping?
Vereinfacht beschrieben, besteht das Scraping aus zwei Teilen: dem Aufrufen der Webseiten und der darauffolgenden Extraktion der Daten. Für das Scraping werden unterschiedliche Web Scraping Tools und Technologien genutzt. Wir zeigen Dir, wie diese genau funktionieren:
Manuelles Scraping
Hört sich Old School an, aber Inhalte auf Webseiten oder Quellcode-Abschnitte werden tatsächlich noch von Hand copy-pasted. Ist dieWebsite blockiert und Bots oder eine Web Scraping Software kommen nicht weiter, wird der manuelle Weg genutzt.
Text Pattern Matching
Mit Befehlen in Programmiersprachen wie Perl, Java oder Python können Informationen aus Webseiten ausgelesen und abgeglichen werden.
Software-Tools
Sraping-Softwares wie Scraper API und SprapeSimple machen Web Scraping auch mit geringen Programmierkenntnissen möglich.
HTTP-Manipulation
Mit HTTP-Request lassen sich die Inhalte von Webseiten kopieren.
Data Mining
Eine weitere Möglichkeit des Scrapings ist das Data Mining. Webdeveloper nutzen Analysen von Skripten und Templates, die auf einer Webseite eingebettet sind und spielen die gesuchten Inhalte über einen sogenannten Wrapper auf der eigenen Seite aus.
HTML-Parser
Die bekannten HTML-Parser dienen beim Screen Scraping zum Auslesen und Umwandeln von jeweils gesuchten Elementen aus Websites.
Auslaufen von Mikroformaten:
Mikroformate sind häufig eine wichtige Verfahrensweise im Bereich der Websites. Sie enthalten unter anderem Metadaten oder semantische Angaben. Durch die Auslese dieser Daten lässt sich die Lokalisierung spezieller Data Snippets ermitteln.
"Sind die sensiblen Daten Deiner Website sicher?"
Ist Screen Scraping legal?
Web Scraping erweckt bei vielen das Gefühl, dass Daten von fremden Webseiten regelrecht geklaut werden. Ist Scraping also wirklich legal? Die Antwort darauf ist ein Ja, denn wenn Webseiten Daten veröffentlichen, können diese in der Regel auch beliebig durchgescannt werden. Shopping Apps und Vergleichsportale wie zum Beispiel Amazon nutzen Scraping, um ihren Usern die besten Preise zugänglich zu machen und das ist komplett legal. Jedoch sind nicht alle Web Daten für die Öffentlichkeit bestimmt und dürfen daher nicht einfach abgegriffen werden. Werden persönliche Daten oder geistiges Eigentum gescrapt und weiter verwendet, wird daraus schnell Scraping mit bösartiger Absicht, welches zu Strafen wie der DMCA-Abmahnung (Digital Millennium Copyright Act) führen kann. Das Scraping ist also nur dann legal, wenn die extrahierten Daten frei zugänglich für Dritte im Web stehen. Damit Du sicher sein kannst, rechtlich alles richtigzumachen, solltest Du Folgendes beim Web Scraping beachten:
- Vor dem Scraping das Urheberrecht einsehen und einhalten. Urheberrechtlich geschützte Daten dürfen nicht anderweitig verwendet werden.
- Seitenbetreiber haben ein Recht, technische Vorgänge zu installieren, die das Web Scraping blockieren. Es ist nicht erlaubt, dies zu umgehen.
- Hängt das Nutzen der Daten mit einer User-Anmeldung oder einem Nutzungsvertrag zusammen, dürfen diese Daten nicht gescraped werden.
- Das Ausblenden von allgemeinen Nutzungsbedingungen, Werbung oder Disclaimern durch Scraping-Technologie ist illegal.
Neben der Nutzung, die oft legal ist, kann Scraping auch in vielen Fällen missbraucht werden. So wird die Technologie oft für den illegalen Betrieb von Spam missbraucht. Spammer können mit ihr z. B. E-Mail-Adressen sammeln und Spam-Mails an diese Empfänger senden.
Digitale Unternehmensentwicklung mit langfristiger Erfolgsstrategie.
Wo wird Scraping eingesetzt?
Web Scraping ist in vielen Bereichen einsetzbar, etwa bei der Erhebung von Kontaktdaten oder speziellen Informationen. Im professionellen Bereich wird häufig Scraping angewandt, um im Wettbewerb Vorteile gegenüber Konkurrenten zu erlangen. DurchDaten-Harvesting kann eine Firma alle Produkte eines Konkurrenten einsehen und mit den eigenen vergleichen. Auch bei Finanzdaten bringt Web Scraping einen Mehrwert: die Informationen.
Kann ein Unternehmen Scraping blockieren?
Ja. Es gibt verschiedene Methoden, die ein Unternehmen anwenden kann, um unerwünschte Web Scraper aufzuhalten. Mit der Datei robots.txt können Suchmaschinen-Bots blockiert werden und somit auch ein automatisches Scraping durch Software-Bots. Persönliche Angaben lassen sich gezielt versteckt und zusätzlich können Daten wie Telefonnummern oder Adressen als CSS oder in Bildform hinterlegt werden, um ein Web Scraping zu verhindern. Es gibt außerdem eine Vielzahl an kostenpflichtige Anti-Bot-Services.
Digitale Unternehmensentwicklung mit langfristiger Erfolgsstrategie.
Fazit: Legal, aber mit Vorsicht zu genießen
Web Scraping bietet Unternehmen etliche Vorteile, um Informationen zu finden. Trotzdem kommt diese Methode häufig in Verbindung mit illegalen Aktivitäten vor. Es ist deshalb von Vorteil, Deine Website mit Sicherheitseinrichtungen wie einer Firewall, Bot Management, einer CAPTCHA-Abfrage und einer richtig aufgesetzten robots.txt-Datei vor Angriffen dieser Art zu schützen.
Timo Schnalzger
SEO//Content Creator
Timo war schon immer von Texten und Literatur fasziniert. Als Content-Redakteur bei //H&W taucht er tief in die verschiedensten Themenbereiche ein, um für unsere Kunden fundierte Texte mit echtem Mehrwert zu kreieren. Außerdem erklärt er in unseren Wiki-Videos verschiedenste Begriffe aus dem SEO-Universum.
0 Kommentare