Warum wir dringend eine Regulierung für Scraper brauchen
‚Scrapers‘ Dig Deep for Data on Web – „Scraper“ graben tief für Daten im Web – so lautet der Titel eines englischsprachigen Artikels auf der Webseite des Wall Street Journal (WSJ). Auf rund 14.000 Zeichen beschreiben die Autoren Julia Angwin und Steve Stecklow den boomenden Datenhandel und die damit verbundenen Konflikte.
Mit „scraping“ ist das Kopieren von Daten aus dem Netz gemeint. „Screen scraping“ etwa bezeichnet das automatische Auslesen von Webseiten. Doch was bedeutet das, warum ist das so wichtig und was ist so bedenklich daran?
Zunächst einmal zur wirtschaftlichen Bedeutung von Scraping: Das aufstrebende Geschäft von Scraping im Internet bildet eine Grundlage für einen rasch wachsenden Datenhandel. Marketers gab 7,8 Milliarden US-Dollar für Online-und Offline-Daten im Jahr 2009 aus, berichtete die New Yorker Unternehmensberatung Winterberry Group LLC. Die Ausgaben für den Kauf von Daten aus dem Internet sollen sich von 410 Millionen US-Dollar im Jahr 2009 auf 840 Millionen US-Dollar im Jahr 2012 verdoppeln. (Freie Übersetzung aus dem WSJ-Artikel)
Damit ist die ökonomische Relevanz schon einmal gegeben. Doch was bedeutet das in der Praxis? Derzeit schießen Datenunternehmen wie Pilze aus dem Boden und betreiben den florierenden Handel mit umfangreichen Datensätzen. Dass manche dabei in einem ungesunden Maße über sich hinaus wachsen, ist die Folge von fehlenden juristischen Restriktionen.
Das Kopieren von Daten im Internet ist nämlich nach wie vor eine juristische Grauzone, weshalb derzeit munter gescrapt wird, was zu holen ist. Leider machen einige Scraper auch vor geschützten Räumen wie privaten Foren keinen Halt. So wurde im vergangenen Jahr etwa das Forum von PatientsLikeMe.com gescrapt – von niemand geringerem als dem weltweit agierenden Marktforschungsunternehmen Nielsen.
Nielsen Companys Aktivitäten flogen nur kurze Zeit später auf. Das niederländische Marktforschungsunternehmen hatte es zu diesem Zeitpunkt jedoch bereits geschafft, etliche Forenbeiträge zu hochsensiblen Themen wie manisch-depressiver Erkrankung oder emotional instabile Persönlichkeitsstörung zu kopieren. Aus ihrer Datenbank seien die Daten nun leider nicht mehr löschbar, hieß es.Immerhin beteuerte das Unternehmen, in Zukunft keine Daten mehr von geschützten Räumen im Internet scrapen zu wollen. Aber was ist mit den zahlreichen anderen Unternehmen? Nielsen Company ist mit seiner Vorgehensweise sicher kein Einzelfall. Doch verbindliche Richtlinien oder einen Ethikkodex gibt es bislang genauso wenig wie regulierende Gesetze.
Wie begründen Unternehmen solche Vorgehensweisen überhaupt? Dazu drei Argumente aus dem WSJ-Artikel:
- Viele Scraper und Datenhändler argumentieren, wenn diese Informationen online verfügbar sind, sei es ein faires Spiel – ganz egal wie persönlich.
- „Diese Daten sind da draußen“, sagt Herr Adler [Datenschutzbeauftragter von Intelius, eine führende Webseite für bezahlte Personensuchen, Anm.]. „Wenn wir die Daten nicht zu den Nutzern bringen, wird es jemand anderes tun.“
- Scraper (…) sagen, was sie tun sei nichts anderes als was eine Privatperson tut, wenn sie Informationen online sammelt – sie täten es lediglich in viel größerem Maßstab.
Reicht das aus, um einfach ungefragt Daten von Webseiten zu kopieren; um sie – im Falle von Unternehmen – anschließend weiterzuverkaufen? Legitimieren diese Argumente solche Vorgehensweisen wie die von Nielsen Company?
Dass auch im Internet nichts wirklich kostenlos ist und Nutzer dort mit ihren Daten zahlen, dürfte den meisten mittlerweile hoffentlich klar sein. Aber dann sollten sie im Falle eines Datenverkaufs auch wenigstens genauso deutlich vorher darauf hingewiesen werden wie es bei Amazon und Co. mit der Auskunft der Gesamtsumme am Ende der virtuellen Kasse üblich ist. Und nein, ein versteckter Hinweis in schwer verständlichen Datenschutzrichtlinien – die im Falle Facebooks länger als die Verfassung der Vereinigten Staaten sind – reicht da beileibe nicht aus.
Dick meint
Was es in der Tat bräuchte wäre, die Kontrolle über die Daten zurück an den Internetnutzer zurück zu geben. Die tatsächliche Umsätzung stelle ich mir aber fast unmöglich vor. Man bräuchte pro Nutzer eine Art Stelle (Server) auf dem die Daten des Nutzers gebündelt sind und von dem sich die Internetseiten die Informationen holen und an die entsprechende Stelle tun. Löscht der Internetnutzer die Infos, sind sie tatsächlich weg, da sie nicht auf den Servern der Seitenbetreibern sind. Würde mich über Kommentare zu diesem Gedankengang freuen.
JUICEDaniel meint
Einen ähnlichen Gedanken gibt es bei den Passwörtern mit OpenID, um sich mit einem zentralen Passwort bei verschiedenen Diensten anmelden zu können, ohne sich jedes Mal neu registrieren zu müssen. So richtig durchgesetzt hat sich das System aber nicht (warum, ist eine ganz andere Baustelle).
Ich wäre bei einer zentralen Einrichtung/Plattform äußerst skeptisch, die quasi all unsere Daten für uns speichern würde – „damit wir sie jederzeit einsehen und natürlich löschen können“. Quasi eine Art Vorratsdatenspeicherung für die ganze vernetzte Welt.
Ich selbst fände es besser und einfacher, wenn sich die Webanbieter verpflichten (müssten), es jedem User zu ermöglichen, seine Daten einzusehen und (dauerhaft) zu löschen. Und zwar selbst löschen zu können. Innerhalb Deutschlands gibt es schon ähnliche Tendenzen in verschiedenen Bereichen, aber weltweit wird das vermutlich nicht einheitlich zu regeln sein. Wer will so etwas durchsetzen? Die Anbieter selbst haben kein Interesse daran und wollen lieber weiterhin kräftig mit unseren Daten(sätzen) verdienen.
Dick meint
Gut, ich hatte halt im Kopf, dass ich mir selber einen Server teil-miete und dort das entsprechende Programm draufspiele welches die Verwaltung übernimmt. Da der Server „in meiner Hand“ ist, habe ich die Gewalt darüber. Das war so ein bisschen die Idee.
JUICEDaniel meint
Dann müsste man aber den Teil auf diesem Server bezahlen… womit die Internetnutzung kostenpflichtig werden würde.
Aber: Diesen Gedanken gibt es in einer ähnlichen Form sogar kostenfrei, nämlich beim Facebook-(Wannabe-)Konkurrenten Diaspora. Deren Idee ist (war?) es, dass jeder Nutzer seine privaten Daten auf seinem eigenen PC speichern kann anstatt auf den Firmeneigenen Servern (in dem Fall von Diaspora). Quasi wie Pop3-E-Mails (anstatt IMAP).
Dick meint
Ich hab’s mir mal kurz angeschaut. Man würde aber nur auf die Daten eines anderen zugreifen können, wenn dieser die Daten auf einem eigenen pod=Server hat, oder? Wenn man keinen pod hat geht das wohl nicht. Was das Ganze erfolgreich machen könnte, wäre wenn man mit der Software auf die Accounts von Facebook und andere sozialen Netze zugreifen könnte – und umgekehrt. Die Frage wäre nur, ob diese das wollen. Vielleicht findet Zuckerberg die Idee dafür ja „cool genug“, angesichts dessen Aussage, dass Diaspora eine „coole Idee“ sei. Im Grunde ist die Idee auch natürlich: Es besteht ein Netz von pods und man „geht“ zu einem der „pods“ um jemandes Profil zu „besuchen“ – so wie man ja zu jemandes Haus geht für einen Besuch. Ist die Person umgezogen, ist die Wohnung leer.