Data Mining und Big Data


Anwendungsbeispiele von Data Mining

Data Mining bietet unzählige Alltagsbeispiele. Data Mining kommt schon heute in sehr vielen Bereichen zum Einsatz und bietet ein enorm hohes Anwendungspotenzial für die Zukunft. Es praktisch in jedem Bereich anwendbar, ob es jetzt z.B im Marketing, im Finanz- und Versicherungswesen, im Onlinehandel, in der Verbrechensbekämpfung oder in der Medizin eingesetzt wird spielt keine Rolle. Banken nutzten Data Mining, um Risikoanalysen durchzuführen. Im Handel ermöglicht das Data Mining, das Kaufverhalten zu Kunden zu analysieren und zwischen zahlungsfähigen und zahlungsfähigen Kunden zu unterscheiden.  

Im Folgenden wird versucht Data Mining mithilfe eines Alltagsbeispiel zu erläutern.

Jedes Jahr steht die Marketing-Abteilung einer Firma vor dem gleichen Problem. Es müssen 10.000 Kataloge auf 100.000 Adressen aufgeteilt und versendet werden. Dabei sollten die Kataloge möglichst an Adressen versendet werden, die ein hohes Kaufpotential besitzen. Eine manuelle selektieren der Adressen ist sehr zeitaufwendig und nicht sehr Erfolgsbelohnt. Angenommen die manuelle Selektierung dauert 4 Stunden, und trotzdem kaufen nur rund 1% etwas. Dieser Prozess kann mit Data Mining vereinfacht werden. Data Mining bedeutet aus vorhanden Informationen neue Kenntnisse gewinnen. Durch Data Mining dauert die Selektierung nur mehr 1ne Stunde und liefert einen höheren % an Kunden. Da an weniger Adressen Kataloge gesendet werden kann, müssen weniger produziert werden.

Was genau ist Data Mining?

Data Mining nutzt Erkenntnisse aus den Bereichen der Mathematik, Statistik und Informatik zur Analyse von Datenbeständen. Oft wird für Data Mining der Begriff „Knowledge Discovery in Databases“ (Deutsch: Wissensentdeckung in Datenbanken) verwendet, obwohl es sich eigentlich nur um einen Teilbereich der Knowledge Discovery in Databases handelt. Der Begriff Data Mining stammt aus der Statistik und nutzt nach wie vor statistische Methoden und Grundsätze. Ursprünglich bezeichnete Data Mining aber das Konzept der Bestätigung von Annahmen durch Anwendungen von unterschiedlichen Methoden. Wie schon erwähnt ist Data Mining ein Teilbereich von KDD (Knowledge Discovery in Databases). Dort werden Daten gesammelt, vorbereitet, analysiert und bewertet. Mittlerweile steht Data Mining aber für den gesamten KDD Prozess, wobei besonderer Fokus auf der Analyse und Evaluation liegt.

Durch die Datenbanktechnologie können Daten massenweise und systematisch gesammelt werden. Seit dem Internetboom und Entwicklung des Social Webs werden immer mehr Daten produziert. Bei jedem Online Kauf, Registrierung, Anruf und Klick entstehen solche Daten. (Fakt am Rande: Alle 10 Minuten im Jahr 2014 werden so viele Daten erstellt, wie die ganze Menschheit bis 2002 erstellt hat.) Diese Daten manuell auszuwerten kostet viel Zeit und Geld. Aus diesem Grund ist die Protokollierung der Daten nicht die einzige Kernaufgabe des Data Mining, sondern vielmehr die Datenanalyse. Mit Hilfe von Algorithmen werden bestehende Verhaltensmuster erkannt und möglichst Prognosen entwickelt. Data Mining benutzt unter anderem Verfahren von künstlicher Intelligenz um große Datenbestände auf neue Trends, Querverbindungen und Muster zu untersuchen.

Date Mining extrahiert die erkannten Muster automatisch und stellt sie übergeordneten Zielen zur Verfügung. Diese Muster können dazu beitragen, die Entscheidungsfindung bei bestimmten Problemen zu erleichtern. Erkenntnisse aus dem Data Mining sollen dabei helfe, Webseiten und Marketing-Kampagnen zu optimieren. Vor allem E- Shops profitieren von den Data Mining Ergebnissen, da sie damit profitsteigende Optimierungen vornehmen können, wie zum Beispiel ähnliche Produktvorschläge, die der Kunde erhält, wenn er ein Produkt erwirbt. Außerdem bestellen mehr Kunden ein Produkt, da die Adressen nach Informationen und Erkenntnissen ausgewählt worden sind. So können Arbeitszeit reduziert, Gewinn maximiert und Produktion der Kataloge minimiert werden.

 

Unterschied zwischen Big Data und Data Mining:

Die Begriffe Big Data und Data Mining werden oft im gleichen Zusammenhang verwendet. Dabei ist eine saubere Trennung zwischen den Begriffen wichtig.

Big Data ist ein Sammelbegriff, der benutzt wird für die Beschreibung von großen Datenmengen die unstrukturiert bzw. semi-strukturiert sind. Die Datenmengen bestehen aus Daten die täglich im Internet, in der Kommunikation, in der Finanzindustrie, Energiewirtschaft, im Gesundheitswesen und im Verkehr produziert werden. Big Data befasst sich mit besonders großen Datenmengen, die für herkömmliche Methoden und Tools nicht verarbeitbar wären, bzw. besonders lange zur Verarbeitung brauchen würden.

Data Mining kommt zwar bei großen Datenmengen zum Einsatz, ist aber nicht auf diese Beschränkt. Big Data liefert große Datenmengen und die geeignete technische Plattform für eine effiziente Verarbeitung, Data Mining hingegen kümmert sich um den eigentlichen Vorgang der Datenanalyse und um die Gewinnung der Erkenntnisse. Data Mining beschreibt somit den eigentlichen Vorgang der Analyse von Daten in Bezug auf relevante Zusammenhänge und kann auch bei geringen Datenmengen verwendet werden. Data Mining benutzt dazu Algorithmen aus dem Beriech der Statistik und Verfahren der künstlichen Intelligenz.

Dank großen Fortschritten im Bereich der Big Data Technologien und dank immer günstigerer und leistungsstärkerer Hardware für die Nutzung von sehr großen und unstrukturierten Datenmengen können Data Mining und Big Data immer bessere Ergebnisse liefern.

Welche Aufgaben erfüllt Data Mining?

Data Mining kann man in mehrere Einzelbereiche aufteilen. Die für das Data Mining angewandten Methoden haben jeweils definierte Ziele und werden einzelne Aufgaben zugeordnet. Unter folgende Einzelbereiche kann man Data Mining teilen:

  • Klassifikation
  • Segmentierung (Clusteranalyse)
  • Prognose (Regressionsanalyse)
  • Abhängigkeitsanalyse (Assoziationsanalyse)
  • Abweichungsanalyse

In der Klassifikation werden die einzelnen Objekte (Daten) ausgewählte und bestimmte Klassen zugeordnet.

Bei der Segmentierung werden Objekte mit gemeinsamen Merkmalen zu Gruppen zusammengefasst. Alle Objekte in einer Gruppe sollten möglichst homogen sein.

In der Prognose werden Vorhersagen erstellt, die sich mit noch unbekannten Objekten beschäftigt auf Basis von schon bekannten Objekten.

In der Abhängigkeitsanalyse werden Beziehungen zwischen einzelnen Merkmalen eines Objektes oder zwischen verschiedenen Objekten gefunden.

Schließlich identifiziert die Abweichunganalyse Objekte, die in der Regel der Abhängigkeit andere Objekte nicht entsprechen. Dadurch lassen sich Ursachen für die Abweichung finden.

Wie funktioniert Data Mining

  1. Geschäftsverständnis

Der erste Schritt besteht darin, die Ziele des Projekts festzulegen und zu definieren, wie Data Mining Ihnen helfen kann, dieses Ziel zu erreichen. In diesem Stadium soll ein Plan entwickelt werden, der Zeitpläne, Aktionen und Rollenzuweisungen enthält.

  • Datenverständnis

In diesem Schritt werden Daten aus allen verfügbaren Datenquellen erfasst. In dieser Phase werden häufig Datenvisualisierungs-Tools verwendet, um die Eigenschaften der Daten zu untersuchen und sicherzustellen, dass sie dazu beitragen, die Geschäftsziele zu erreichen.

  • Datenvorbereitung

Die Daten werden dann bereinigt und die fehlenden Daten eingefügt, um sicherzustellen, dass sie zum Mining bereit sind. Die Datenverarbeitung kann, je nach analysierter Datenmenge und Anzahl der Datenquellen, enorme Zeit in Anspruch nehmen. Daher werden verteilte Systeme in modernen Datenbankverwaltungssystemen (DBMS) verwendet, um die Geschwindigkeit des Data-Mining-Prozesses zu verbessern, anstatt ein einzelnes System zu belasten. Das ist außerdem sicherer als alle Daten einer Organisation in einem einzigen Datenlager zu haben. Es ist wichtig, umfangreiche Sicherungsmaßnahmen in die Datenmanipulationsphase einzuschließen, damit Daten nicht dauerhaft verloren gehen.

  • Datenmodellierung

Es werden mathematische Modelle verwendet, um mit Hilfe komplexer Datenwerkzeuge Muster in den Daten zu finden.

  • Auswertung

Die Ergebnisse werden bewertet und mit den Unternehmenszielen verglichen, um zu bestimmen, ob sie unternehmensweit eingesetzt werden sollten.

  • Bereitstellung

In der letzten Phase werden die Data-Mining-Ergebnisse im täglichen Geschäftsbetrieb geteilt. Eine Business-Intelligence-Plattform für Unternehmen kann verwendet werden, um eine zentrale Quelle für die Ermittlung von Self-Service-Daten bereitzustellen.

Vorteile von Data Mining

Automatisierte Entscheidungsfindung

Data Mining ermöglicht es Organisationen, fortlaufend Daten zu analysieren und routinemäßige sowie kritische Entscheidungen zu automatisieren, ohne die Verzögerungen durch menschliche Einschätzungen. Banken können betrügerische Transaktionen sofort erkennen, Überprüfungen anfordern und sogar persönliche Daten sichern, um Kunden vor Identitätsdiebstahl zu schützen. Diese Modelle werden innerhalb der Betriebsalgorithmen eines Unternehmens eingesetzt und können Daten unabhängig sammeln, analysieren und darauf reagieren, um die Entscheidungsfindung zu rationalisieren und die täglichen Prozesse einer Organisation zu verbessern.

Genaue Vorhersage und Prognose

Planung ist ein kritischer Prozess in jeder Organisation. Data Mining erleichtert die Planung und liefert Managern verlässliche Prognosen, die auf vergangenen Trends und aktuellen Bedingungen basieren. 

Kostensenkung

Data Mining ermöglicht eine effizientere Verwendung und Zuordnung von Ressourcen. Organisationen können mit genauen Prognosen automatisierte Entscheidungen planen und treffen, die zu einer maximalen Kostenreduzierung führen. Delta bettete RFID-Chips in das aufgegebene Gepäck von Passagieren ein und implementierte Data-Mining-Modelle, um Lücken in ihrem Prozess zu identifizieren und die Anzahl der unsachgemäß behandelten Gepäckstücke zu reduzieren. Diese Prozessverbesserung erhöht die Zufriedenheit der Passagiere und senkt die Kosten für die Suche und Weiterleitung verlorener Gepäckstücke.

Kundenerkenntnisse

Unternehmen setzen Data-Mining-Modelle aus Kundendaten ein, um wichtige Merkmale und Unterschiede zwischen ihren Kunden aufzudecken. Data Mining kann verwendet werden, um Rollen zu erstellen und jeden Kontaktpunkt zu personalisieren, was die allgemeine Kundenerfahrung verbessert. Im Jahr 2017 investierte Disney über eine Milliarde US-Dollar in die Entwicklung und Implementierung von „Magic Bands“. Diese Bänder haben eine symbiotische Beziehung zu den Konsumenten. Sie arbeiten daran, die allgemeine Erfahrung der Kunden im Resort zu verbessern, während sie gleichzeitig Daten über ihre Aktivitäten sammeln, die Disney analysiert, um das Kundenerlebnis zu verbessern.

Gefahren und Probleme bei Data Mining

Fehlerhafte Daten

Die Qualität der Daten ist eine wichtige Voraussetzung für ein aussagekräftiges Data Mining-Ergebnis. Wenn Daten nicht vollständig vorliegen oder fehlerhaft sind, wirkt sich das negativ auf das Ergebnis aus. Entscheidungen, die auf einer fehlerhaften Grundlage gefällt werden, können möglicherweise schwerwiegende Folgen haben. 

Datendiebstahl und -Missbrauch

Der Schutz persönlichen Daten vor Diebstahl und Missbrauch sowie die Einhaltung gesetzlicher Bestimmungen wie der Datenschutzgrundverordnung müssen auch beim Data Mining oberste Priorität haben. Zudem müssen die Unternehmen die gesammelten Daten gut vor Angreifern schützen. Spektakuläre digitale Einbrüche bei Sony, dem FBI oder auch kürzlich beim Auswärtigen Amt zeigen, wie groß die Gefahr für Datendiebstahl ist.

Sonderform: Text Mining

Text – Mining stellt eine Sonderform des uns bereits bekannten Data Mining dar. Es teilt die Grundsätzlichen Verfahren des Data Minings wird aber anstatt bei Datenmengen bei hauptsächlich bei unstrukturierten Textdaten angewandt. Text Mining extrahiert das Wissen aus den unstrukturierten Textdaten. Somit lässt sich die Kernaussage von großen Textdaten automatisiert mit Text Mining herausfiltern, ohne dass sich der Autor mühevoll mit den Textdaten beschäftigen muss.

So lassen sich z.B wichtige Informationen für ein Unternehmen aus einer großen Menge an Fachartikel schnell filtern. Da ein hoher Prozentsatz der Informationen eines Unternehmens in Textform vorliegt, ist Text Mining eine wichtige und nicht zu unterschätzende Sonderform des Data Minings. Text Mining kann einem Unternehmen dabei helfen, potenziell wertvolle Geschäftsinformationen aus textbasierten Quellen wie Word-Dokumente, E-Mails oder Einträge aus sozialen Netzwerken wie Facebook oder Twitter (@betterSEBO) zu gewinnen.

Da es sich bei Text Mining noch um eine junge Technologie handelt, können Ergebnisse von Anbieter zu Anbieter noch stark variieren. Bei Texten in natürlichen Sprachen ist das Ergebnis oft inkonstant. Software zur Textanalyse kann dabei helfen, Worte und Phrasen aus unstrukturierten Daten in numerische Werte umzuwandeln, die wiederum mit strukturierten Daten verknüpft werden und mit traditionellen Text Mining Methoden analysiert werden können. Jeder kann Textmining mithilfe seines Twitter-Accounts testen. Indem man #wordcloud @wordnuvola tweetet und ein paar Tage abwartet, bekommt man eine Liste von den meist häufig benutzten Worten von dir auf Twitter in Form einer Wortwolke.

PTC

Kaltleiter sind Halbleiterwiderstände, die temperaturabhängig sind. Kaltleiter haben einen positiven Temperaturkoeffizienten (TK) und werden deshalb auch PTC-Widerstände genannt (PTC = Positive Temperature Coefficien
Weiterlesen

NTC

Heißleiter sind temperaturabhängige Halbleiterwiderstände. Sie haben einen stark negativen Temperaturkoeffizienten (TK). Deshalb werden sie auch NTC-Widerstände genannt (NTC = Negative Temperature Coefficient).
Weiterlesen

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.