Aller au contenu

Guide pratique pour automatiser la classification tout en gardant le contrôle

Les professionnels du contenu sont souvent confrontés à d’importants volumes de données à classer. La classification basée sur des règles et le classement par apprentissage automatique (machine learning) leur facilitent la tâche, mais avec une perte de précision, de rapidité ou de contrôle en contrepartie. Cet article vous explique comment trouver le juste équilibre entre précision, rapidité et contrôle pour des résultats optimaux.

Dans everteam.discover, vous pouvez classer le contenu en fonction de règles prédéfinies ou grâce à l’apprentissage automatique. De nombreux utilisateurs choisissent la première solution, car elle leur donne l’impression de maîtriser la manière dont le contenu est classé. La classification par apprentissage automatique s’appuie sur un ensemble de documents classés précédemment, ce qui peut sembler plus complexe. Cependant, il est possible de tirer profit du machine learning sans perdre le contrôle – vous allez voir.

Distinguer les différents types de classification

Avec la classification basée sur des règles, le contenu est classé selon des règles prédéfinies. Par exemple, vous souhaitez classer tous les contrats dans la catégorie Contrats.

Pour ce faire, dans everteam.discover, vous devez créer une nouvelle règle dans la rubrique Rules Management (Gestion des règles) de la page Add a New Classifier (Ajouter un nouveau classifieur). Pour définir une nouvelle règle, vous pouvez soit sélectionner les critères existants, soit créer une nouvelle requête pour trouver tous les documents auxquels vous souhaitez appliquer la règle. Une fois la règle définie et testée, vous pouvez l’activer pour l’appliquer automatiquement à tout nouveau document correspondant à la requête.

rules-based classification

Classifieur basé sur des règles dans everteam.discover

La classification automatisée des données fonctionne selon un autre principe. Elle utilise l’apprentissage automatique pour vous aider à déterminer comment classer vos informations.

« Le machine learning est une méthode d’analyse des données qui automatise la création de modèles analytiques. C’est une branche de l’intelligence artificielle qui repose sur l’idée que les systèmes peuvent apprendre des données, identifier des tendances et prendre des décisions avec un minimum d’intervention humaine. » (source : SaS)

La classification basée sur l’apprentissage automatique offre des résultats optimaux lorsque vous disposez d’un volume important de données déjà classées pouvant servir à l’entraînement de la machine, ainsi que d’un ensemble de classifications à appliquer à ces documents. Vous pouvez alors utiliser ces documents et ces classifications pour entraîner l’algorithme.

machine-learning classification

Classifieur basé sur l’apprentissage automatique dans everteam.discover

Dans un monde parfait, la machine apprendrait rapidement et le classifieur pourrait être activé pour une exécution automatique. Ce serait idéal. Mais que faire si vous n’êtes pas prêt à donner le contrôle total à un classifieur automatique ?

Automatiser la classification tout en gardant le contrôle

Avec everteam.discover, vous pouvez définir un classifieur automatique (basé sur le machine learning) sans valider automatiquement la classification, en configurant le classifieur pour qu’il vous fasse des « suggestions » que vous pouvez passer en revue et choisir d’accepter ou non. Vous pouvez effectuer ce type de classification automatisée par machine learning au cas par cas ou pour une catégorie de fichiers. Vous bénéficiez ainsi des avantages de l’apprentissage automatique tout en gardant le contrôle.

machine learning classification with suggestions

Suggestions de classification par apprentissage automatique dans everteam.discover

La classification par apprentissage automatique contrôlée vous permet de valider la qualité des correspondances. Avec ce processus en deux étapes, vous injectez vos connaissances dans le processus de classification jusqu’à que vous ayez confiance en la qualité des résultats fournis par l’algorithme.

Les avantages de la classification automatisée

L’apprentissage automatique est utile lorsque vous devez voir le document pour savoir dans quelle catégorie le classer et qu’il est difficile de définir des critères de classification spécifiques. Dans ces cas-là, le classifieur peut s’exécuter et analyser le contenu, puis classer ce dernier automatiquement en fonction des documents ayant servi à son entraînement.

Dans le cas de la classification automatisée contrôlée, la machine peut effectuer des suggestions et un évaluateur peut soit valider, soit modifier celles-ci en fonction de la connaissance qu’il a de l’information. Ce processus de classification en deux étapes fonctionne très bien pour les volumes importants de contenus dispersés dans les différents référentiels de l’entreprise, réduisant le temps nécessaire pour classer les contenus et améliorant la qualité du classement plus rapidement qu’un processus basé uniquement sur l’apprentissage automatique.

Il est quasi impossible pour une personne de connaître le contenu de chaque référentiel et de savoir comment classer ces informations, même avec des règles précises. En laissant une machine réaliser une première analyse des données, l’évaluateur dispose de résultats préliminaires qu’il peut ensuite vérifier et modifier si nécessaire. Ce processus de suggestion-évaluation peut se poursuivre jusqu’à ce que l’évaluateur ait confiance en la capacité de la machine à classer le contenu correctement.

Pour en savoir plus, consultez l’article MachineLearning, NLP and AI: Key to Information Governance (Apprentissage automatique,traitement du langage naturel et intelligence artificielle : destechnologies essentielles à la gouvernance de l’information)

Un outil d’analyse de fichiers et de contenu digne de ce nom doit proposer une classification aussi bien automatisée que semi-automatique. Bonne nouvelle : everteam.discover offre ces fonctionnalités, ainsi que la possibilité de classer les informations en fonction de règles prédéfinies. Pour voir notre solution en action, demandez une démonstration.