Données non structurées

prise en charge du Hero Banner

Qu’est-ce qu’une donnée non structurée ?

Les données non structurées sont des informations qui ne sont pas stockées selon un modèle ou un schéma de données prédéfini, par exemple un système de gestion de bases de données relationnelles, ou même des bases de données non relationnelles telles que NoSQL. La grande majorité des données dans le monde sont non structurées. Elles incluent le texte, le rich media, la vidéo, les images, l’audio, les données de capteurs provenant d’appareils de l’Internet des objets (IoT), etc. Les données non structurées peuvent être créées par des humains ou des machines, et sont difficiles à stocker ou à analyser à l’aide des stratégies traditionnelles de gestion des données.

Pourquoi les données non structurées sont-elles importantes ?

Les données sont de plus en plus reconnues comme la ressource la plus précieuse des entreprises. Pourtant, peu d’entreprises ont réussi à tirer pleinement parti des énormes volumes de données non structurées (les analystes estiment que celles-ci représentent 80 % des données générées ou acquises par les entreprises dans le cadre de leurs activités). Gérer des données non structurées à grande échelle en utilisant des approches conventionnelles de services de fichiers avec des appareils de stockage en réseau (NAS) s’est révélé coûteux et difficile en raison de la réplication des données, des limitations physiques et des problèmes de gouvernance.

Les entreprises qui possèdent les bons outils peuvent tirer une valeur considérable de leurs données non structurées. Elles pourraient par exemple extraire des publications sur les réseaux sociaux des données sur la satisfaction à l’égard de leurs marques. Les médecins des hôpitaux pourraient partager un référentiel commun (et énorme) de séquences génomiques pour les besoins de la recherche.

Mais les entreprises continuent de se demander comment et où stocker toutes ces données non structurées, sous forme de fichiers ou d’objets. L’infrastructure NAS traditionnelle permet d’améliorer les performances, mais elle est coûteuse et non évolutive. Les NAS scale-out nouvelle génération sont disponibles, mais ne sont pas encore largement déployés. Le stockage d’objets logiciel commence à être déployé, mais la plupart des charges de travail des entreprises n’ont pas été conçues pour utiliser le stockage d’objets. L’adoption s’est avérée lente et difficile. Les entreprises ont besoin d’un moyen plus évolutif et efficace de gérer les données non structurées.

Un exemple de données non structurées

Voici quelques exemples de données non structurées :

  • une facture qui arrive dans votre service financier pour être traitée et qui est d’une conception unique (non standard)
  • les commandes manuscrites d’un serveur qu’une chaîne de restaurants tente de compter pour faire son inventaire alimentaire
  • une photo affichée sur votre page web qui illustre un article à vendre
  • un code-barres qui permet à votre caissier de scanner les articles pour les clients
  • une radiographie qu’un médecin peut analyser pour traiter un patient
  • un e-mail qui vous est envoyé par un collègue
  • une note de service écrite dans un document de traitement de texte
  • un dossier de présentation contenant à la fois du texte et des images

Quelles sont les sources de données non structurées ?

Les sources de données non structurées sont les suivantes :

Fichiers texte : presque tous les fichiers bureautiques que vous avez l’habitude de manipuler sont une source de données non structurées. Cela comprend les documents de traitement de texte, les présentations et les PDF, tout ce qui n’a pas un format prédéfini.

Fichiers rich media : les fichiers audio et vidéo n’entrent pas dans un modèle de données structurées. Les photographies numériques non plus. Chacun de ces types de fichiers peut se présenter sous son propre format, ce qui les rend encore plus difficile à analyser.

E-mails : certains aspects des e-mails sont considérés comme semi-structurés (les lignes « à », « de » et « objet », par exemple), mais la plupart des e-mails sont la source de texte non structuré.

Médias sociaux : les médias sociaux sont également des sources de données non structurées, bien que, comme les e-mails, certaines d’entre elles puissent être considérées comme semi-structurées.

Données IoT : les capteurs de dispositifs génèrent un énorme volume de fichiers journaux non structurés et difficiles à analyser de manière conventionnelle.

À quoi servent les données non structurées ?

Les données non structurées sont utilisées dans tous les secteurs de l’entreprise. Finance (factures). Marketing (photos). Informatique (données IoT). Ventes (e-mails avec les clients). Service clients (médias sociaux).

Les choses évoluent rapidement, mais à l’heure actuelle, la plupart des données non structurées qui sont collectées et stockées sont traitées manuellement, voire pas du tout. Les e-mails, par exemple, sont généralement traités par un être humain qui les lit, en extrait les éléments importants (parfois en les copiant et en les collant dans un autre e-mail ou dans une application) et prend des mesures en fonction de leur contenu.

Les avancées technologiques de l’IA, notamment le machine learning, la vision artificielle et le traitement automatique des langues, permettent cependant d’exploiter et d’analyser automatiquement une plus grande partie de ces informations non structurées, et donc d’obtenir des informations commerciales plus rapidement.

Quelles sont les différences entre des données structurées et des données non structurées ?

Les données structurées sont des données stockées à un endroit fixe dans un fichier ou une archive. Elles sont généralement stockées dans une base de données relationnelle (SGBDR), mais on peut également les trouver dans des bases de données NoSQL, par exemple. Les données structurées peuvent être du texte, des dates ou des chiffres.

Les données non structurées n’ont pas été définies ou stockées de manière prédéfinie. Les données non structurées sont le plus souvent du texte, mais elles peuvent également contenir des chiffres, des images et de l’audio.

Comment classer les données non structurées ?

La classification des données est le processus d’analyse des données et leur classement en catégories, généralement sur la base de métadonnées (données sur les données) telles que le type de fichier, le contenu ou la date.

Si vous classez vos données non structurées en fonction, par exemple, de leur degré de sensibilité, vous pouvez les gérer plus efficacement conformément à vos stratégies de gouvernance, en décidant où elles doivent être stockées et qui doit y avoir accès.

Les fichiers sont-ils des données non structurées ?

Les fichiers peuvent être des données structurées ou non structurées. Les fichiers de feuilles de calcul ou de bases de données SQL sont des exemples courants de données structurées. D’autres fichiers, comme les documents de traitement de texte, les présentations et les e-mails, ne sont pas structurés. Certains fichiers (notamment les modèles de factures qui affichent exactement les mêmes informations de la même manière à chaque fois que le modèle est utilisé) sont dits semi-structurés, car il existe un moyen d’en extraire les informations sans IA ni modèle d’apprentissage automatique. Il ne s’agit donc pas de savoir si les données se trouvent dans un fichier ou non, mais si, dans ce fichier, elles sont stockées dans un format prédéfini.

Quelles sont les caractéristiques des données non structurées ?

Les données non structurées sont des informations qui n’ont pas de modèle de données prédéfini ou qui ne sont pas organisées d’une manière prédéfinie. Cela signifie qu’elles :

  • ne sont pas stockées selon un modèle de données
  • n’ont pas de structure perceptible
  • n’ont pas de modèle
  • ne peuvent pas être stockées sous forme de lignes et de colonnes

Quel est le volume des données non structurées ?

Environ 80 % de toutes les données sont non structurées, et ce pourcentage augmente chaque année.

Comment les données non structurées sont-elles traitées ?

Vous pouvez utiliser un certain nombre de techniques pour traiter des données non structurées. Voici quelques-unes des plus utilisées :

Analyse des métadonnées : ces « données sur les données » sont essentielles à l’analyse des données non structurées. Un article de blog (texte non structuré), par exemple, possède des métadonnées : le titre, l’auteur, l’URL, la date de publication, des balises descriptives ou des mots-clés, et parfois un nom de catégorie. Il n’existe pas de normes en matière de métadonnées, si bien que chaque entreprise définit les siennes.

Analyse d’images : les images contiennent des types de données non structurées qui peuvent être très précieuses à extraire pour des raisons commerciales, financières, médicales et scientifiques. Les nouveaux systèmes basés sur l’IA peuvent analyser et faire correspondre une image non structurée qui présente des caractéristiques similaires à une image connue. Par exemple, la technologie de reconnaissance optique de caractères (OCR) convertit le texte des fichiers d’images en faisant correspondre les formes d’images spécifiques aux caractères d’une langue.

Traitement automatique des langues (Natural langage processing, ou NLP) : ce sous-ensemble de l’IA/du machine learning permet d’analyser des données textuelles non structurées. Le NLP utilise un certain nombre de techniques pour traiter et extraire le sens de textes non structurés, notamment la grammaire et la sémantique.

Visualisation des données : les équipes qui choisissent de visualiser des données les présentent sous forme graphique pour permettre aux lecteurs de les comprendre et de les analyser simplement en les regardant.

Une approche moderne de la gestion des fichiers et des objets

La plateforme logicielle hyperscale de Cohesity simplifie la gestion des données en consolidant les sauvegardes et les données non structurées sous forme de fichiers et d’objets provenant de plusieurs charges de travail applicatives sur une seule plateforme. La plateforme est constuite sur Cohesity SpanFS, un système de fichiers distribués unique à l’échelle mondiale qui prend en charge différents protocoles, notamment NFS, SMB et le stockage d’objets S3.

Grâce à Cohesity, votre entreprise peut protéger (et même optimiser) ses investissements NAS existants en utilisant ce stockage pour les données plus performantes et en déchargeant les données non structurées rarement consultées vers Cohesity SmartFiles. SmartFiles propose une approche moderne de la gestion des fichiers et des objets. Cette solution élimine en effet les mises à niveau massives du matériel existant et les mises à jour manuelles coûteuses et fastidieuses de l’infrastructure, tout en garantissant que vos données non structurées sont protégées où qu’elles se trouvent (dans le datacenter, dans le cloud ou sur un site distant).

Cohesity SmartFiles possède également les fonctionnalités suivantes :

  • Une évolutivité illimitée dans un modèle de paiement en fonction de l’évolution (« pay-as-you-grow »)
  • Une déduplication et une compression globales
  • Une recherche globale exploitable sur toutes les métadonnées de fichiers et d’objets
  • Des quotas d’utilisateurs et de systèmes de fichiers avec des journaux d’audit
  • L’optimisation des petits fichiers
  • Une intégration avec les applications de Cohesity Marketplace pour une visibilité accrue des données, une meilleure résilience face aux cybermenaces et une meilleure analyse
  • Une réduction du TCO pour la gestion des données non structurées
X
Icon ionic ios-globe

Vous êtes sur le point de visualiser du contenu en anglais, souhaitez-vous continuer ?

Ne pas afficher cet avertissement

Icon ionic ios-globe

Vous êtes sur le point de visualiser du contenu en anglais, souhaitez-vous continuer ?

Ne pas afficher cet avertissement