Classification des données

prise en charge du Hero Banner

Qu’est-ce qu’une classification des données ?

La classification des données est un processus de sécurité et de cyber-résilience qui consiste à organiser les données en catégories pour faciliter la découverte de données (Data Discovery) et identifier l’exposition aux risques d’une entité. Classifier les données en fonction d’attributs, de stratégies ou de niveaux de sécurité spécifiques (tels que confidentiel, secret et très secret) permet aux entreprises d’identifier plus facilement les informations dont elles disposent, de les organiser pour faciliter la découverte de données, de les protéger contre les acteurs malveillants, de gérer les stratégies de confidentialité, les ransomwares et les menaces internes, de gérer ces données pour obtenir des informations qui permettront d’atteindre les objectifs de l’entreprise, et de créer des rapports sur ces données afin de répondre aux besoins de confidentialité et autres exigences de l’entreprise.

La classification (ou étiquetage) des données est traditionnellement un processus manuel, ou qui se fait avec des outils limités comme les expressions régulières (regex). Cependant, avec l’explosion des volumes de données et la multiplication de cyberattaques de plus en plus sophistiquées, les entreprises se tournent vers l’intelligence artificielle (IA), et plus précisément vers le filtrage par motif (pattern matching) basé sur le machine learning (ML) et le traitement automatique du langage naturel (NPL), pour identifier les données sensibles et réglementées à protéger. Il s’agit souvent des données personnelles, médicales et financières que les acteurs malveillants ciblent avant d’exiger le paiement d’une rançon.

Pourquoi est-il important de classifier ses données ?

Les entreprises d’aujourd’hui produisent des quantités massives d’informations numériques sous forme de données structurées et non structurées. Si la majeure partie de ces données est sans intérêt, certaines ont beaucoup de valeur pour les cybercriminels qui cherchent à exploiter des données stratégiques à des fins lucratives. Les données sensibles présentes dans les environnements de production, de sauvegarde et de récupération des entreprises peuvent contenir de la propriété intellectuelle, des données à caractère personnel (DCP) de clients, des contrats fournisseurs, des informations de santé protégées, des informations sur les cartes de paiement (PCI), etc. Les entreprises qui mettent en place des pratiques complètes de classification des données sont les plus à même de comprendre l’impact maximal d’une violation potentielle de données sur l’ensemble de leur entreprise (que ce soit au niveau financier, opérationnel ou de la conformité réglementaire).

La classification des données est importante pour l’atténuation des risques, la gouvernance, la rentabilité et la compétitivité. La pratique permet en particulier à une entreprise de :

  • Comprendre ses données pour planifier la sécurité et la protection
  • Découvrir facilement des informations grâce à la recherche
  • Reconnaître les données à protéger à tout prix
  • Découvrir quelles données peuvent être utilisées aujourd’hui et à l’avenir pour fournir davantage d’informations commerciales
  • Identifier et suivre les données à sauvegarder pour des raisons commerciales et/ou réglementaires (par exemple, RGPD, HIPAA, PCI, etc.)
  • Éliminer en toute sécurité les doublons et les copies non autorisées des données

Quels sont les types de classification des données ?

Les entreprises peuvent choisir leurs propres niveaux de classification des données ou adopter ceux d’autres entités. L’essentiel est de définir ces niveaux en fonction des dommages que les données pourraient causer à l’entreprise si elles tombaient entre de mauvaises mains, ou si des cybercriminels les diffusaient sur le dark web ou au grand public.

Une approche courante de la classification des documents dans le domaine commercial consiste par exemple à utiliser l’un des quatre niveaux suivants :

  • Restreint
  • Confidentiel
  • Interne
  • Public

En parallèle, les entités commerciales déterminent souvent la classification des données en fonction de trois variables :

  • Contenu
  • Contexte
  • Utilisateur

Le gouvernement américain utilise les trois niveaux de classification des données recommandés par la National Archives and Records Administration pour les informations sensibles susceptibles de nuire à la sécurité nationale :

  • Confidentiel
  • Secret
  • Très Secret

Ces niveaux de classification sont à distinguer des niveaux d’habilitation de sécurité requis pour consulter les documents que le gouvernement considère comme sensibles :

  • Controlled unclassified (non classifié contrôlé)
  • Public trust position (position de confiance publique)
  • Confidential (confidentiel)
  • Secret
  • Très Secret
  • Compartmented (compartimenté)

Quels sont les avantages d’une classification des données ?

Les entreprises qui classifient minutieusement leurs données en retirent un certain nombre d’avantages significatifs en termes d’activité et de sécurité. En voici quelques-uns :

  • Atténuation des risques — La classification des données fait partie d’une stratégie complète de sécurité des données. Les entreprises qui classifient leurs données savent davantage qui a accès à quelles informations et peuvent plus facilement mettre en place des barrières pour empêcher les accès non autorisés.
  • Amélioration de la cyber-résilience et de la récupération en cas d’attaque par ransomware — Les équipes savent toujours quelles données elles possèdent et quel est leur degré de sensibilité. Les entreprises qui classifient leurs données peuvent ainsi identifier plus rapidement une violation ou une attaque par ransomware et s’en remettre.
  • Meilleure gouvernance — La conformité aux réglementations et à la confidentialité (par exemple, pouvoir trouver et supprimer des informations personnelles sur demande pour répondre rapidement aux exigences du RGPD sans pénalité financière) peut être l’une des principales raisons et l’un des principaux avantages de classifier des données.
  • Opérations rentables — Protéger toutes les informations de la même manière peut devenir coûteux pour les entreprises, surtout lorsque les volumes de données augmentent dans le cloud et en local. La classification des données permet aux équipes de découvrir et de supprimer les données en double afin d’améliorer la rentabilité.
  • Découverte d’informations plus rapide — Découverte plus rapide d’informations – Classifier les données de production et de sauvegarde facilite l’analyse des informations de toute l’entreprise, aujourd’hui et à l’avenir, et permet d’obtenir des connaissances susceptibles d’apporter un avantage concurrentiel.

Quelles sont les étapes d’une classification des données ?

Classifier manuellement des données peut être fastidieux, chronophage et coûteux, donc de plus en plus d’entreprises automatisent le processus.

Voici les principales étapes d’un processus moderne de classification des données :

  • Déterminer les catégories et les critères
  • Définir les rôles et les responsabilités pour leur mise en œuvre
  • Étiqueter les documents existants et établir un processus automatisé pour les nouveaux documents (à l’aide de ML et NLP)
  • Maintenir la classification des données

Cohesity et la classification des données

La fréquence et la gravité des cybermenaces telles que les ransomwares perpétrés par des individus ou des états-nations continuent d’augmenter, car les cyberattaques réussies permettent de faire des profits et d’obtenir un avantage politique. Les processus de classification des données gérés par les solutions de sécurité et de gestion des données de Cohesity renforcent la cyber-résilience.

Les offres de services cloud Cohesity DataHawk incluent la classification des données. Les entreprises peuvent ainsi découvrir et classifier leurs données afin de comprendre si et quand des données sensibles ont pu être compromises au cours d’une attaque. Plus précisément, Cohesity découvre et classifie les données sensibles et stratégiques grâce à une analyse extrêmement précise. Celle-ci est fondée sur plus de 230 modèles éprouvés ainsi que sur des techniques de formation basées sur le machine learning et le traitement automatique du langage naturel, et couvre les combinaisons courantes de données personnelles, médicales et financières. La solution prend en charge les exigences réglementaires et les directives de confidentialité grâce à des stratégies personnalisées.

X
Icon ionic ios-globe

Vous êtes sur le point de visualiser du contenu en anglais, souhaitez-vous continuer ?

Ne pas afficher cet avertissement

Icon ionic ios-globe

Vous êtes sur le point de visualiser du contenu en anglais, souhaitez-vous continuer ?

Ne pas afficher cet avertissement