Unstrukturierte Daten

Support Hero Banner

Was sind unstrukturierte Daten?

Unstrukturierte Daten sind Informationen, die nicht nach einem vorgegebenen Datenmodell oder -schema gespeichert werden: etwa ein System für relationales Datenbankmanagement oder auch nicht relationale Datenbanken wie NoSQL. Die überwiegende Mehrheit der Daten auf der Welt ist unstrukturiert. Dazu gehören u. a. Texte, interaktive Medien, Videos, Bilder, Audios und Sensordaten von mit dem Internet der Dinge verbundenen Geräten (Internet of Things, IoT). Unstrukturierte Daten können von Menschen oder von Maschinen erstellt werden. Es ist schwierig, sie mit herkömmlichen Strategien des Datenmanagements zu speichern oder zu analysieren.

Warum sind unstrukturierte Daten wichtig?

Daten gelten zunehmend als das wichtigste Asset, das Unternehmen besitzen. Trotzdem konnten bisher nur wenige Unternehmen den vollen Wert der enormen Mengen unstrukturierter Daten ausschöpfen. Diese machen nach den Schätzungen von Analysten 80 % aller Daten aus, die die Unternehmen generieren oder anderweitig im Zuge ihrer Geschäftstätigkeit sammeln. Die Verwaltung unstrukturierter Daten im großen Maßstab mittels herkömmlicher Methoden für Dateidienste mit Geräten für Netzwerkspeicher (Network Attached Storage, NAS) hat sich aufgrund von Datenreplikation, physischen Einschränkungen und Problemen der Governance als schwierig erwiesen.

Mit den richtigen Tools können Unternehmen aus unstrukturierten Daten jedoch enormen Wert schöpfen. Sie könnten z. B. Posts in sozialen Medien auf Daten hin auswerten, die die Zufriedenheit mit ihren Marken widerspiegeln. Klinikpersonal in Krankenhäusern könnte für Forschungszwecke ein gemeinsames, riesiges Archiv von Genomsequenzen nutzen.

Aber die Frage, wie und wo alle diese unstrukturierten Daten als Dateien oder Objekte gespeichert werden, stellt für Unternehmen weiterhin eine Herausforderung dar. Eine herkömmliche NAS-Infrastruktur trägt zwar zu besserer Leistung bei, ist jedoch kostenaufwendig und lässt sich nicht skalieren. Skalierbarer NAS der nächsten Generation ist durchaus verfügbar, aber noch nicht weit verbreitet. Softwaredefinierter Objektspeicher verbreitet sich gerade mehr, doch die meisten Unternehmens-Workloads wurden nicht konzipiert, um Objektspeicher zu nutzen. Seine Einführung verläuft bisher langsam und schwierig. Unternehmen brauchen eine besser skalierbare, effizientere Möglichkeit zur Speicherung unstrukturierter Daten.

Was wäre ein Beispiel für unstrukturierte Daten?

Beispiele für unstrukturierte Daten sind:

  • Eine Rechnung, die in Ihrer Finanzabteilung zur Bearbeitung eingeht und deren Design außergewöhnlich (nicht standardisiert) ist.
  • Die handgeschriebenen Kundenbestellungen einer Bedienung, die eine Restaurantkette für die Lebensmittelinventur zusammenrechnen möchte.
  • Ein Foto auf Ihrer Internetseite, auf dem zu sehen ist, wie ein zum Verkauf stehender Artikel aussieht
  • Ein Barcode, mit dem Ihr Kassierer Artikel für die Kundschaft auschecken kann
  • Ein Röntgenbild, das ein Arzt für die Behandlung eines Patienten analysieren kann
  • Eine E-Mail, die Ihnen von einem Kollegen geschickt wurde
  • Eine in einem Textverarbeitungsdokument aufgeschriebene Notiz
  • Ein Präsentationsdeck mit Text und Bildern

Was sind unstrukturierte Datenquellen?

Unstrukturierte Datenquellen sind:

Textdateien – Praktisch jede Office-Datei, mit der Sie normalerweise arbeiten, ist eine Quelle von unstrukturierten Daten. Dazu zählen Textverarbeitungsdokumente, Präsentationen und PDFs – alles, was kein vorgegebenes Format hat.

Interaktive Mediendateien – Audio- und Videodateien passen in kein strukturiertes Datenmodell. Dasselbe gilt für digitale Fotos. Jeder dieser Dateitypen kann ein eigenes Format haben, womit es noch schwieriger wird, die Dateien zu analysieren.

E-Mails – Einige Elemente von E-Mails gelten als semistrukturiert, z. B. die Zeilen „An”, „Von” und „Betreff”. Grundsätzlich sind E-Mails jedoch eine Quelle von unstrukturiertem Text.

Soziale Medien – Soziale Medien sind ebenfalls eine Quelle von unstrukturierten Daten, obwohl einiges davon ebenso wie im Bereich E-Mail als semistrukturiert gelten kann.

IoT-Daten – Die Sensoren von Geräten generieren außergewöhnlich große Mengen an Protokolldateien, die unstrukturiert sind und sich auf herkömmliche Weise schwer analysieren lassen.

Wofür werden unstrukturierte Daten verwendet?

Unstrukturierte Daten werden in jedem Bereich des Geschäftslebens verwendet: Finanzen (Rechnungen), Marketing (Fotos), IT (IoT-Daten), Verkauf (E-Mail-Verkehr mit Kundschaft), Kundenservice (soziale Medien).

Obwohl sich das aktuell rasch ändert, werden die meisten derzeit gesammelten und gespeicherten unstrukturierten Daten, wenn überhaupt, manuell verarbeitet. E-Mails werden z. B. hauptsächlich von Menschen bearbeitet, die sie lesen, das Wichtige daraus extrahieren (manchmal durch Kopieren und Einfügen in eine andere E-Mail oder in eine Anwendung) und je nach dem Inhalt aktiv werden.

Doch mit fortschreitenden KI-Technologien wie maschinellem Lernen, maschineller Bildverarbeitung und natürlicher Sprachverarbeitung können noch mehr von diesen unstrukturierten Daten genutzt und automatisch analysiert werden, sodass man schnellere Geschäftseinblicke erhält.

Was sind strukturierte und unstrukturierte Daten?

Strukturierte Daten sind Daten, die an einem festen Ort innerhalb einer Datei oder einem Datensatz gespeichert sind. Sie werden normalerweise in einer relationalen Datenbank (RDBMS) gespeichert, sind aber auch z. B. in NoSQL-Datenbanken zu finden. Strukturierte Daten können Texte, Termine oder Zahlen sein.

Unstrukturierte Daten wurden nicht definiert oder auf vorgegebene Weise gespeichert. Obwohl die meisten typischerweise unstrukturierten Daten aus Text bestehen, können auch Zahlen, Bilder oder Audios dabei sein.

Wie werden unstrukturierte Daten klassifiziert?

Die Klassifizierung unstrukturierter Daten ist der Vorgang, bei dem Daten analysiert und nach Buckets kategorisiert werden. Dies basiert normalerweise auf Metadaten (Daten über Daten) wie etwa Art der Datei, Inhalt oder Datum.

Werden unstrukturierte Daten klassifiziert (z. B. nach ihrer Sensibilität), kann das Data Management verbessert und in Einklang mit den eigenen Governance-Richtlinien vorgenommen werden, weil so festgelegt wird, wo die Daten gespeichert werden und wer Zugang darauf hat.

Sind Dateien unstrukturierte Daten?

Dateien können entweder strukturierte oder unstrukturierte Daten sein. Typische Beispiele für strukturierte Daten sind Spreadsheet- oder SQL-Datenbankdateien. Andere Dateien wie beispielsweise Dokumente der Textverarbeitung, Präsentationen und E-Mails sind unstrukturiert. Einige Dateien – etwa Rechnungsvorlagen, in denen bei jeder Verwendung genau die gleichen Informationen auf genau die gleiche Weise angezeigt wird – nennt man semistrukturiert, da man ohne KI oder Modelle des maschinellen Lernens Informationen aus ihnen ziehen kann. Es geht also nicht darum, ob sich die Daten in einer Datei befinden oder nicht, sondern darum, ob die Daten innerhalb dieser Datei in einem vorgegebenen Format gespeichert sind.

Was sind die Eigenschaften unstrukturierter Daten?

Unstrukturierte Daten sind Informationen, für die es entweder kein vorgegebenes Datenmodell gibt oder die nicht auf vorgegebene Weise organisiert sind. Das bedeutet, sie:

  • werden nicht gemäß einem Datenmodell gespeichert
  • haben keine erkennbare Struktur
  • weisen kein Muster auf
  • können nicht in Reihen und Spalten gespeichert werden

Wie viele Daten sind unstrukturiert?

Etwa 80 % aller Daten sind unstrukturiert und dieser Prozentsatz steigt jedes Jahr.

Wie werden unstrukturierte Daten verarbeitet?

Es gibt eine Reihe von Techniken, mit denen unstrukturierte Daten verarbeitet werden können. Hier sind einige der am weitesten verbreiteten:

Metadatenanalyse – Diese „Daten über Daten” sind entscheidend für die Analyse unstrukturierter Daten. Ein Blogartikel (unstrukturierter Text) enthält z. B. Metadaten bestehend aus Titel, Autor, URL, Veröffentlichungsdaten, sämtlichen beschreibenden Tags oder Schlüsselwörtern und eventuell auch einem Kategorienamen. Es gibt keine Standards für Metadaten, daher definiert jedes Unternehmen seine eigenen.

Bildanalyse – Bilder enthalten unstrukturierte Datentypen, deren Gewinnung aus unternehmerischen, finanziellen, medizinischen und wissenschaftlichen Gründen sehr wertvoll sein kann. Neue, auf KI basierende Systeme können ein unstrukturiertes Bild analysieren und mit einem bereits vorhandenen Bild abgleichen, das ähnliche Eigenschaften aufweist. Mit Technologie für optische Zeichenerkennung (Optical Character Recognition, OCR) wird z. B. Text in Bilddateien konvertiert, indem die Formen bestimmter Bilder mit Zeichen in einer Sprache abgeglichen werden.

Natürliche Sprachverarbeitung (Natural Language Processing, NLP) – Hierbei handelt es sich um eine Untergruppe von KI/ML, die hilfreich bei der Analyse unstrukturierter Textdaten ist. Bei NLP wird eine Reihe von Techniken genutzt, um Bedeutungen zu verarbeiten und zu extrahieren und unstrukturierten Text wie Grammatik und Semantik zu verstehen.

Datenvisualisierung – Wenn Teams Daten visualisieren wollen, präsentieren sie diese in grafischer Form, damit die Betrachter sie einfach durch Ansehen verstehen und analysieren können.

Eine moderne Methode für die Verwaltung von Dateien und Objekten

Mit der softwaredefinierten Hyperscale-Plattform von Cohesity wird das Datenmanagement vereinfacht, indem Backups sowie unstrukturierte Daten in Form von Dateien und Objekten aus mehreren Anwendungs-Workloads auf einer einzigen Plattform konsolidiert werden. Die Architektur der Plattform basiert auf Cohesity SpanFS, einem einzigartigen weltweit vertriebenen Dateisystem, das eine Vielzahl von Protokollen unterstützt, darunter NFS, SMB und S3 Objektspeicher.

Mit Cohesity kann Ihr Unternehmen bestehende NAS-Investitionen bewahren und sogar optimieren, indem nur dieser Speicher für höhere Leistungsdaten genutzt wird, während unstrukturierte Daten mit seltenerem Zugriff an Cohesity SmartFiles abgeladen werden. SmartFiles ist eine moderne Methode für die Verwaltung von Dateien und Objekten. Upgrades für ältere Hardware sowie kostenaufwendige und zeitraubende manuelle Aktualisierungen der Infrastruktur werden damit überflüssig. Außerdem wird sichergestellt, dass alle Ihre unstrukturierten Daten geschützt sind, egal wo sie sich befinden – im Rechenzentrum, in der Cloud oder am Edge.

Weitere Funktionen von Cohesity SmartFiles:

  • Unbegrenzte Skalierung in einem Pay-As-You-Grow-Modell
  • Globale Deduplizierung und Komprimierung
  • Globale, zielgerichtete Suche in allen Datei- und Objektmetadaten
  • Benutzer- und Dateisystemkontingente mit Auditprotokollen
  • Optimierung kleiner Dateien
  • Integration in Cohesity Marketplace-Apps für erhöhte Datentransparenz, Resilienz gegenüber Cyberbedrohungen sowie Analysen
  • Geringere Gesamtbetriebskosten für unstrukturiertes Datenmanagement
X
Icon ionic ios-globe

Sie sehen gleich englische Inhalte. Möchten Sie fortfahren?

Zeigen Sie diese Warnung nicht mehr an

Icon ionic ios-globe

Sie sehen gleich englische Inhalte. Möchten Sie fortfahren?

Zeigen Sie diese Warnung nicht mehr an