La classification des données est un processus de sécurité et de cyber-résilience qui consiste à organiser les données en catégories pour faciliter la découverte de données (Data Discovery) et identifier l’exposition aux risques d’une entité. Classifier les données en fonction d’attributs, de stratégies ou de niveaux de sécurité spécifiques (tels que confidentiel, secret et très secret) permet aux entreprises d’identifier plus facilement les informations dont elles disposent, de les organiser pour faciliter la découverte de données, de les protéger contre les acteurs malveillants, de gérer les stratégies de confidentialité, les ransomwares et les menaces internes, de gérer ces données pour obtenir des informations qui permettront d’atteindre les objectifs de l’entreprise, et de créer des rapports sur ces données afin de répondre aux besoins de confidentialité et autres exigences de l’entreprise.
La classification (ou étiquetage) des données est traditionnellement un processus manuel, ou qui se fait avec des outils limités comme les expressions régulières (regex). Cependant, avec l’explosion des volumes de données et la multiplication de cyberattaques de plus en plus sophistiquées, les entreprises se tournent vers l’intelligence artificielle (IA), et plus précisément vers le filtrage par motif (pattern matching) basé sur le machine learning (ML) et le traitement automatique du langage naturel (NPL), pour identifier les données sensibles et réglementées à protéger. Il s’agit souvent des données personnelles, médicales et financières que les acteurs malveillants ciblent avant d’exiger le paiement d’une rançon.
Les entreprises d’aujourd’hui produisent des quantités massives d’informations numériques sous forme de données structurées et non structurées. Si la majeure partie de ces données est sans intérêt, certaines ont beaucoup de valeur pour les cybercriminels qui cherchent à exploiter des données stratégiques à des fins lucratives. Les données sensibles présentes dans les environnements de production, de sauvegarde et de récupération des entreprises peuvent contenir de la propriété intellectuelle, des données à caractère personnel (DCP) de clients, des contrats fournisseurs, des informations de santé protégées, des informations sur les cartes de paiement (PCI), etc. Les entreprises qui mettent en place des pratiques complètes de classification des données sont les plus à même de comprendre l’impact maximal d’une violation potentielle de données sur l’ensemble de leur entreprise (que ce soit au niveau financier, opérationnel ou de la conformité réglementaire).
La classification des données est importante pour l’atténuation des risques, la gouvernance, la rentabilité et la compétitivité. La pratique permet en particulier à une entreprise de :
Les entreprises peuvent choisir leurs propres niveaux de classification des données ou adopter ceux d’autres entités. L’essentiel est de définir ces niveaux en fonction des dommages que les données pourraient causer à l’entreprise si elles tombaient entre de mauvaises mains, ou si des cybercriminels les diffusaient sur le dark web ou au grand public.
Une approche courante de la classification des documents dans le domaine commercial consiste par exemple à utiliser l’un des quatre niveaux suivants :
En parallèle, les entités commerciales déterminent souvent la classification des données en fonction de trois variables :
Le gouvernement américain utilise les trois niveaux de classification des données recommandés par la National Archives and Records Administration pour les informations sensibles susceptibles de nuire à la sécurité nationale :
Ces niveaux de classification sont à distinguer des niveaux d’habilitation de sécurité requis pour consulter les documents que le gouvernement considère comme sensibles :
Les entreprises qui classifient minutieusement leurs données en retirent un certain nombre d’avantages significatifs en termes d’activité et de sécurité. En voici quelques-uns :
Classifier manuellement des données peut être fastidieux, chronophage et coûteux, donc de plus en plus d’entreprises automatisent le processus.
Voici les principales étapes d’un processus moderne de classification des données :
La fréquence et la gravité des cybermenaces telles que les ransomwares perpétrés par des individus ou des états-nations continuent d’augmenter, car les cyberattaques réussies permettent de faire des profits et d’obtenir un avantage politique. Les processus de classification des données gérés par les solutions de sécurité et de gestion des données de Cohesity renforcent la cyber-résilience.
Les offres de services cloud Cohesity DataHawk incluent la classification des données. Les entreprises peuvent ainsi découvrir et classifier leurs données afin de comprendre si et quand des données sensibles ont pu être compromises au cours d’une attaque. Plus précisément, Cohesity découvre et classifie les données sensibles et stratégiques grâce à une analyse extrêmement précise. Celle-ci est fondée sur plus de 230 modèles éprouvés ainsi que sur des techniques de formation basées sur le machine learning et le traitement automatique du langage naturel, et couvre les combinaisons courantes de données personnelles, médicales et financières. La solution prend en charge les exigences réglementaires et les directives de confidentialité grâce à des stratégies personnalisées.