Was ist Datamining?

Datamining Datenanalyse mit Weka

Der Begriff Data-Mining ist in aller Munde. Doch was genau bedeutet dieser Begriff, für den es nicht einmal eine adäquate deutsche Übersetzung zu geben scheint? Und was hat Data-Mining mit dem Thema Marketing zu tun? Auf die genannten Fragen versucht dieser Artikel Antworten zu geben. Außerdem soll anhand der freien Software Weka eine kurze Einführung in die praktischen Aspekte des Datamining gegeben werden.

Data-Mining steht für die systematische Anwendung statistischer und mathematischer Methoden auf große Datenmengen. Anders ausgedrückt: Es geht zumeist darum auf der Basis eines Datensatzes, der z.B. in Form einer Datenbank oder einer Excel-Datei vorliegt Regeln zu finden. Diese Regeln (Algorithmen) sollten im Idealfall auch außerhalb des Datensatzes eine gewisse Relevanz haben.
Achtung: Die Bezeichnung Datamining kann leicht irreführend sein: Die Ermittlung der Daten, was man ja durchaus als „mining“ übersetzen könnte, ist nicht Bestandteil des Data-Mining! Datamining beinhaltet nur den Analyse-Schritt.

Data-Mining im Marketing

Wozu lässt sich Data-Mining im Bereich des Marketing sinnvoll einsetzen? Nun, im Marketing haben wir es fast immer mit von Menschen verursachten Aktionen zu tun: Ob es um Verkaufszahlen oder Click-Raten geht – immer stecken Menschen dahinter, deren Verhalten nur empirisch erklärt werden kann. Um diesem Verhalten empirisch auf die Schliche zu kommen setzt man gerne das Data-Mining als Werkzeug ein.

Data-Mining Software

Es gibt eine Vielzahl an Datamining-Software. Eine davon ist die von der Universität Waikato (Neuseeland) entwickelte Freeware mit dem Namen Weka. Dieses Software-Paket verfügt über insgesamt vier Programmteile. Eines davon ist der Explorer, auf den wir uns an dieser Stelle konzentrieren möchten.

Ein Datamining-Beispiel aus dem Online-Marketing

Wir wollen nun anhand eines kleinen Beispiels zeigen, wie sie Daten aus dem Bereich des Onlinemarketing – genauer der Suchmaschinenoptimierung (SEO) – mit Weka verarbeiten können.

Als Basis dient ein Datensatz, den sie hier herunterladen können. Die CSV-Datei besteht aus insgesamt 73 einzelnen Datensätzen (Zeilen) mit jeweils 8 Eigenschaften (Spalten). Bei den Eigenschaften handelt es sich um Webseiten-Attribute: Pagerank, Anzahl eingehender Links etc. Außerdem beinhalten sie eine Spalte mit der Bezeichnung AIX. Hierbei handelt es sich um einen Index, der von der Firma Angron ersonnen wurde um Webseiten zu beurteilen. Die Frage, die wir nun mittels Data-Mining versuchen werden zu lösen lautet: Aus welchen Seiten-Eigenschaften setzt sich der AIX zusammen und wie genau ist das Verhältnis der einzelnen Eigenschaften?
Außerdem wollen wir anschließend überprüfen, wie exakt unsere Regel den AIX nachbilden kann. Auch dies machen wir mit Hilfe von Weka.

Die Daten in Weka laden

Als erstes Laden wir die Datensätze in Weka. was ist datamining weka screenshot daten laden
Dies tun Sie indem Sie auf open klicken und die CSV-Datei auswählen:

Nun sehen Sie die einzelnen Spalten in der Liste (links-unten) angezeigt. Sie bekommen übrigens rechts-unten eine Vorschau der Verteilung der Werte einer jeden Eigenschaft. Diese lässt sich gut verwenden, um zu überprüfen, ob die Daten korrekt interpretiert werden. Ein Fehler, der gerne auftritt ist, ist dass die Zahlen der Datenquelle (CSV-Datei) Kommas enthalten, wogegen Weka nur den Punkt akzeptiert.

 

Data-Mining anwenden

Die Daten haben wir jetzt erfolgreich in das Programm geladen, jetzt geht es an die Verarbeitung. Hierfür wählen Sie oben den Reiter Classify aus. Nun haben Sie die Möglichkeit einen bestimmten Algorithmus auszuwählen. Wählen Sie über choose den Algorithmus M5Rules – für unsere Zwecke ist dieser Algorithmus durchaus geeignet. Wichtig ist noch, dass Sie die zu „matchende“ Spalte – in unserem Fall AIX – auswählen. Nun noch ein Klick auf start.
Jetzt bekommen Sie das Ergebnis im rechten Textfeld präsentiert:

was ist datamining weka screenshot daten datenanalyse

Auswertung der Analyse

Wenn Sie das Textfeld etwas hoch-scrollen, sollten sie diese Zeilen zu sehen bekommen:

 

 

 

 

 

 

Das ist die gefundene Regel. Der AIX setzt sich demnach hauptsächlich aus der Domainauthority, sowie drei weiteren Werten zusammen. Außerdem wird er noch um eine Konstante (6,4805) ergänzt.

Weiter unten wird Ihnen Auskunft über die statistische Genauigkeit (Relevanz) der gefundenen Regel gegeben. Wichtig ist hier der Korrelationskoeffizient (correlation coefficient). Dieser gibt – grob gesagt – an, wie genau unsere gefundene Regel die vorgegebenen Daten wiedergeben kann. Bei einem Korrelationskoeffizient von 0 besteht kein linearer Zusammenhang. Liegt er bei 1 haben wir eine 100% Übereinstimmung. In unserem Beispiel liegen wir bei 0,87, was dafür spricht, dass die gefundene Regel den AIX recht gut nachbildet.

Fazit

Datamining ist ein extrem nützliches Werkzeug, um aus einer Menge an Datensätzen eine Regel zu finden. Im Marketing spielt Data-Mining eine besonders wichtige Rolle, da hier die meisten vorliegenden Daten empirisch untersucht werden müssen. Bei der freien Software Weka handelt es sich um ein sehr mächtiges Tool, dessen ausgiebige Beschreibung den Rahmen dieser Artikels leider gesprengt hätte. Ein paar sehr gute Bücher zum Thema Data-Mining finden Sie hier:

Trotz Allem ist Vorsicht beim Umgang mit statistischen Analysen geboten: Scheinkorrelationen treten immer dann auf, wenn sich zwar statistisch ein Zusammenhang (bzw. eine Regel) ausmachen lässt, dieser sich aber kausal nicht bestätigt. Achten Sie daher stets darauf, dass sie nur Daten in Ihre Analyse mit einbeziehen, die auch einen inhaltliche Bezug zum Thema haben. Hier sehen Sie ein paar Beispiele, was alles schief gehen kann, wenn man wahllos versucht Werte statistisch aufeinander abzubilden: Correlation or Causation? (Bloomberg Businessweek 2011)

 

Bild: bearvader / FreeDigitalPhotos.net

You can leave a response, or trackback from your own site.

Leave a Reply