Was sind unstrukturierte Daten?
Unstrukturierte Daten sind Informationen, die nicht nach einer vordefinierten Art und Weise angeordnet sind, obwohl sie üblicherweise eine native, interne Struktur aufweisen (z. B. eine Bild- oder Audiodatei). Da sie keine vordefinierte Struktur haben, werden unstrukturierte Daten in ihrem nativen Format gespeichert.
Zwei gängige Arten unstrukturierter Daten sind Textdaten und Multimediadaten bzw. Rich Data. Unstrukturierte Daten stellen den Großteil der gesammelten Informationen dar und ihre Anzahl wächst, da digitale Systeme die produzierten Mengen immer weiter erhöhen.
Der Wert unstrukturierter Daten liegt in den Erkenntnissen, die mithilfe fortschrittlicher Analyseverfahren wie maschinellem Lernen (ML) und künstlicher Intelligenz (KI) daraus gewonnen werden können.
Unstrukturierte Daten können weit mehr erklären als die Statistiken und Zahlen, die mit strukturierten Daten verbunden sind.
Unstrukturierte Daten vs. strukturierte Daten
Unstrukturierte Daten | Strukturierte Daten |
---|---|
Unstrukturierte Daten werden in einem Transaktionssystem nicht aktiv verwaltet. | Strukturierte Daten werden in Datenbankumgebungen wie einem relationalen Datenbankmanagementsystem (RDBMS) gespeichert und verwaltet. |
Unstrukturierte Daten sind nicht in einem klar definierten Rahmen oder Modell organisiert. | Strukturierte Daten werden in Spalten- und Zeilenrahmen gespeichert, die sich auf voreingestellte Parameter beziehen. |
Unstrukturierte Daten werden in nicht-relationalen (NoSQL) Datenbanken und Datenseen gespeichert. | Strukturierte Daten werden in Datenbanken mit Zeilen und Spalten (SQL-basiert) gespeichert, beispielsweise in einem Data Warehouse und RDBMS. |
Unstrukturierte Daten werden normalerweise in ihrem nativen Format gespeichert. | Strukturierte Daten liegen in vordefinierten Formaten vor. |
Unstrukturierte Daten sind qualitativ und identifizieren Muster und Trends, die erklären, warum etwas geschieht. | Strukturierte Daten sind quantitativ und identifizieren Muster und Trends, die erklären, was passiert. |
Unstrukturierte Daten sind schwer zu analysieren und erfordern erweiterte Analysetools wie maschinelles Lernen (ML) und natürliche Sprachverarbeitung (NLP). | Strukturierte Daten lassen sich mit einfachen Tools wie Tabellenkalkulationen leicht analysieren. |
Unstrukturierte Daten sind hochgradig skalierbar und können jeden Datentyp umfassen. | Strukturierte Daten sind weniger skalierbar als unstrukturierte Daten und auf feste Datentypen beschränkt. |
Unstrukturierte Daten unterstützen prädiktive Analytik. | Strukturierte Daten unterstützen statistische Analytik. |
Beispiele für unstrukturierte Daten
Zu den wichtigsten Kategorien unstrukturierter Daten zählen Rich Media (Multimedia) und Textdateien. Beispiele für unstrukturierte Daten sind:
- Kundenfeedback
- E-Mails
- Geodaten (z. B. Karten, Höhenmodelle und Bevölkerungsdaten)
- Bilder (z. B. JPG, PNG und TIFF)
- Daten des Internets der Dinge (IoT) (z. B. Sensordaten, Tickerdaten und Gerätedaten)
- Online-Bewertungen (z. B. Google-Bewertungen, Yelp, Verbraucherberichte)
- Offene Umfrageantworten
- Satellitenbilder
- Server-, Website- und Anwendungsprotokolle
- Social-Media-Beiträge (z. B. Facebook, X, Instagram, TikTok)
- Sprache, Musik und andere Tonaufnahmen (z. B. MP3, WAV und FLAC)
- Überwachungsdaten (z. B. Gesundheits-, Sicherheits- und Verhaltensdaten)
- Textdateien (z. B. doc, pages, RTF und txt)
- Videos (z. B. MP4, AVI und MOV)
- Wetterdaten (z. B. Temperatur, Windgeschwindigkeit und Niederschlag)
Was sind semistrukturierte Daten?
Wie unstrukturierte Daten haben auch semistrukturierte Daten kein voreingestelltes Format. Sie sind jedoch etwas strukturierter als unstrukturierte Daten, da sie interne Kategorien, Meta-Tags und Markierungen enthalten. Diese dienen dazu, die unstrukturierten Daten durch Gruppen, Paarungen und Hierarchien zu trennen und zu differenzieren.
Eine weitere Ähnlichkeit zwischen semistrukturierten und unstrukturierten Daten besteht darin, dass sie nicht in relationalen Datenbanken organisiert werden können. Beispiele für semistrukturierte Daten und verwandte Datenformate sind die folgenden.
E-Mails sind das am häufigsten genannte Beispiel für unstrukturierte Daten. Sie sind in Kategorien wie Datum, Absender, Empfänger und Betreff organisiert, der Inhalt des E-Mail-Texts bzw. der Nachricht besteht jedoch aus unstrukturierten Daten. Darüber hinaus werden E-Mail-Nachrichten in Ordnern wie „Posteingang“, „Gesendet“, „Papierkorb“, „Spam“ oder benutzerdefinierten Ordnern gespeichert.
Webseiten
Webseiten sind in hierarchische Kategorien mit Haupt- und Unternavigation organisiert (z. B. „Unternehmen“ als Hauptnavigation und „Über uns“, „Geschäftsleitung“ und „Karriere“ als Unternavigation). Webseiten verwenden die lose Struktur von HTML, um unstrukturierte Daten anzuzeigen.
HTML
HTML (Hyper Text Markup Language) ist eine hierarchische Sprache zur Anzeige von Daten, beispielsweise Webseiten. Die semistrukturierten Merkmale von HTML bestehen darin, dass es Anmerkungen zur Anzeige unstrukturierter Daten (z. B. Text und Bilder) verwendet.
Semistrukturierte Dokumente
CSV, XML und JSON sind die drei Sprachen, die üblicherweise für semistrukturierte Daten verwendet werden.
- CSV (Comma-Separated Values) speichert Klartext als eine Reihe von durch Kommas getrennten Werten.
- XML (Extensible Markup Language) speichert Daten als Elemente, Attribute und mit Tags markierten Text.
- JSON (JavaScript Object Notation) ist ein Textformat, das Daten als Objekte speichert, die aus Schlüssel-Wert-Paaren bestehen.
Social-Media-Beiträge, die aus unstrukturierten Daten bestehen, werden häufig mithilfe von CSV, XML oder JSON in semistrukturierte Daten organisiert.
NoSQL-Datenbanken
NoSQL-Datenbanken (Non-SQL-Datenbanken) sind nicht-relationale Datenbanken zur Speicherung semistrukturierter und unstrukturierter Daten. Die wichtigsten Typen von NoSQL-Datenbanken sind Dokument-, Schlüssel-Wert-, Wide-Column- und Graph-Datenbanken.
Elektronischer Datenaustausch (EDI)
EDI ersetzt papierbasierte Geschäftsdokumente wie Bestellungen, Bestandsinformationen und Rechnungen durch ein elektronisches Dokumentenübertragungssystem. Standardformate (z. B. NSI, EDIFACT, TRADACOMS und ebXML) bieten eine gemeinsame Struktur für den Austausch unstrukturierter Daten.
Verwendungsmöglichkeiten für unstrukturierte Daten
Unstrukturierte Daten werden hauptsächlich für Business Intelligence (BI) und Analytik verwendet. Im Folgenden finden Sie Beispiele für die Verwendung unstrukturierter Daten in Unternehmen.
Kundenservice
Unstrukturierte Daten können genutzt werden, um digitale und menschliche Interaktionen im Kundenservice durch Folgendes zu verbessern:
- Unterstützung von Mitarbeitern dabei, schneller Antworten auf Kundenfragen zu finden
- Verbesserung der Chatbot-basierten Weiterleitung
- Ermittlung der am häufigsten gestellten Fragen
Infrastruktur und Fertigung
Alle Arten von Organisationen, die Infrastrukturen verwalten, können unstrukturierte Daten (z. B. Sensordaten und Systemprotokolle) für die prädiktive Analytik verwenden, um den Betrieb zu optimieren, indem sie:
- Geräteausfälle erkennen, bevor sie auftreten
- Bereichen identifizieren, in denen Wartung erforderlich ist
- Die Wirksamkeit von Cybersicherheitssystemen erhöhen
- Die Nutzung überwachen und Muster erkennen
- Systemabstürze verhindern
Produktentwicklung
Die Analyse unstrukturierter Daten liefert wertvolle Erkenntnisse, die die Produktentwicklung unterstützen, beispielsweise:
- Identifizieren von Wegen zur Verbesserung von Produkten oder Dienstleistungen
- Vorhersage des zukünftigen Produktinteresses
- Erkennen von Markttrends
- Monitoring des Wettbewerbs
Einhaltung gesetzlicher Vorschriften
Die Analyse unstrukturierter Daten kann die Einhaltung gesetzlicher Vorschriften erleichtern, indem sie Folgendes unterstützt:
- Data Governance
- Durchsetzung von Datenzugriffsrichtlinien
- Identifizierung von vertraulichen Daten
Vertrieb und Marketing
Einzelhändler und viele andere Arten von Organisationen analysieren unstrukturierte Daten, um:
- Die Bedürfnisse der Kunden vorhersehen
- Zielgerichtetes Marketing zu ermöglichen
- Die Kundenzufriedenheit zu verbessern
- Kauftrends zu erkennen
- Das Kundenerlebnis zu verbessern
- Neuen und bestehenden Kunden bessere Produkt- oder Serviceempfehlungen geben
- Den Zeitpunkt für Upselling-Programme für bestehende Kunden bestimmen
- Kundenmeinungen zu Produkten, Kundenservice und Marken verstehen
Herausforderungen unstrukturierter Daten
Schwierige Data Governance
Unternehmen haben Schwierigkeiten, Data Governance-Regeln für unstrukturierte Daten durchzusetzen, wie z. B.:
- Zugriffskontrolle
- Verschlüsselungsanforderungen
- Antworten auf Anfragen zu Datenschutzrechten
- Aufbewahrungs- und Löschfristen
Schwierigkeiten bei der Nutzung unstrukturierter Daten
- Müssen vor der Verarbeitung in ein maschinenlesbares Format umgewandelt werden
- Nur durch Indizierung und Schemata nutzbar
Erhöhte Anfälligkeit für Cyberangriffe
- Ungleich verteilte unstrukturierte Daten bieten oft keinen angemessenen Datenschutz
- Große Mengen unstrukturierter Daten vergrößern die Angriffsfläche
Nichteinhaltung gesetzlicher Vorschriften
- Unstrukturierte Daten bleiben oft unkontrolliert und enthalten vertrauliche Informationen
- Unregulierte Daten können zu zahlreichen Rechts- und Compliance-Risiken führen
Skalierungsschwierigkeiten
- Unmögliche Verarbeitung unhandlicher Mengen unstrukturierter Daten
- Kostenintensive Speicherung der unstrukturierten Daten
- Umfangreiche Ressourcen sind erforderlich, um die Speicher- und Verarbeitungssysteme für enorme Mengen unstrukturierter Daten zu warten.
Datensilos
- Unstrukturierte Daten, die in Datensilos an verschiedenen Zielen gesammelt und gespeichert werden (z. B. Chats, E-Mails und Audioprotokolle)
- Disparate Daten, die in mehreren Systemen gespeichert sind
Unermesslicher Wert unstrukturierter Daten
Unstrukturierte Daten zählen wohl zu den wertvollsten Unternehmensgütern. Durch den Einsatz leistungsstarker Tools und Dienste sind die Erkenntnisse, die aus unstrukturierten Daten gewonnen werden können, grenzenlos. Intern generierte Daten, externe Daten und die Kombination beider ermöglichen es Unternehmen, Trends zu erkennen und zukünftiges Verhalten vorherzusagen. Dies liefert ihnen wichtige Informationen für datenbasierte taktische Entscheidungen und strategische Pläne.