Analytics & Big Data, Gouvernance de l'Information

Intégrer les données structurées et non structurées : en sommes-nous déjà là ?

Web Master
mars 12, 2019

« D’ici 2022, 50% des organisations incluront des données non structurées, semi-structurées et structurées dans le même programme de gouvernance, contre moins de 10% aujourd’hui. » Gartner File Analysis Market Guide

Combien d’entreprises disposent de solutions distinctes pour gérer les données structurées (base de données, données transactionnelles) et non ou semi-structurées (documents, textes, vidéos, images, emails, médias sociaux, etc.) ? Après tout, il s’agit de types d’information très différents, et ils exigent donc des approches distinctes en matière de technologie et de gouvernance. Barb en a touché un mot lorsqu’elle a mentionné innovations en matière de gouvernance de l’information pour 2019 et je vais tenter aujourd’hui d’élaborer un peu ce sujet…

Et si cette exigence de séparation des données structurées et non structurées n’était plus vraiment nécessaire ? Et si nous fusionnons les stratégies et les technologies liées à la gouvernance des données structurées (Data Governance) et celles liées à la gouvernance des données non structurées (Information Governance)? Pouvons-nous examiner les deux types de données au sein d’un seul programme de gouvernance commun ?

Le fait est que nous le faisons déjà aujourd’hui. Considérez un objet Salesforce avec une facture jointe. Ou des enregistrements dans un système SAP connectés à certains fichiers. Ou une base de données NoSQL avec des champs texte. La plupart des données que nous devons gérer aujourd’hui sont de toute manière non ou semi-structurées et ceci même au sein des systèmes décrits comment “structurés”, alors pourquoi avoir des solutions de gouvernance distinctes pour gérer chacune d’entre elles ?

Rendre les données non structurées, structurées

« 80% des données sont non structurées. » Je suis sûr que vous avez déjà entendu cette statistique. Vous avez implémenté ou envisagez d’implémenter des solutions d’analyse de vos fichiers et de vos contenus pour vous aider à mieux gérer votre déluge informationnel. Dans vos efforts pour gérer vos données non structurées, saviez-vous que vous étiez, in fine, en train de structurer vos données non structurées ?

Les solutions d’analyse de fichiers et de contenu permettent d’analyser vos informations, de les enrichir et de les classer en leur attribuant des taxonomies et des métadonnées. Vous pouvez scanner vos informations à la recherche de données personnelles, d’expressions régulières, d’entités nommées, etc. afin précisément d’extraire un ensemble de métadonnées. Vos informations sont la plupart du temps sous forme de simple texte dans un document, une chaîne de caractères dans une base de données ou un tweet dans un réseau social. En étiquetant manuellement ou en extrayant automatiquement un ensemble de métadonnées qualificatives et contextuelles à votre information, vous fournissez en fait de la structure à votre contenu non structuré.

Une fois que vous avez extrait ces métadonnées, vous pouvez alors les associer et les relier avec d’autres sources de données structurées. Il est donc logique que vous souhaitiez une solution d’analyse de fichiers qui puisse analyser des données structurées et non structurées en même temps, n’est-ce pas ?

Bien sûr, en raison des exigences de conformité et de sécurité, vous ne pouvez pas simplement fusionner toutes vos données et les fournir à tous les employés de l’entreprise dans un grand réservoir de données ; il vous faut gouverner ces données au préalable.

La fédération de données est votre nouveau référentiel de contenu

Il n’y a pas si longtemps, nous parlions encore de transférer l’ensemble des contenus d’entreprise au sein d’un seul référentiel, que ce dernier se nomme Documentum, FileNet ou un tout autre système.

Mais l’idée de transférer l’ensemble de votre corpus informationnel au sein d’un seul système n’est jamais devenu une réalité. La multiplication des systèmes, sur site ou dans le cloud, s’est au contraire accélérée ces dernières années. ll s’agit donc désormais de fédérer et de gouverner « sur place » vos données là où elles se trouvent.

Vous avez des données dans vos systèmes ERP et CRM, du contenu dans vos disques réseaux partagés, au sein de vos sites SharePoint ou Office365, ainsi que dans vos nombreuses autres applications et référentiels de contenus. Et ces données sont bien là où elles se trouvent. Mais en même temps, vous devez vous assurer qu’elles sont gérées conformément aux cycles de vie réglementaires et autres politiques informationnelles que vous avez mis ou souhaitez mettre en oeuvre.

Vous ne voulez ainsi pas avoir affaire à des solutions distinctes pour gérer tantôt des données structurées, tantôt des contenus non structurées. Vous avez besoin d’une solution qui peut vous aider à examiner vos données dans leur ensemble et à les gouverner indistinctement de manière adéquate.

Un autre critère à conserver à l’esprit. Le RGPD, le CCPA (California Consumer Privacy Act) et les nouvelles réglementations à venir en matière de gestion des données personnelles ne font pas de distinction entre les données structurées et les contenus non structurés. Quelle qu’en soit la forme, vous devez être en mesure de gérer vos données personnelles, où qu’elles se trouvent, afin de traiter les requêtes des ayant droits comme les demandes d’information ou leur droit à l’oubli.

Supprimer la frontière entre Gouvernance des Données et Gouvernance de l’Information

Nous distinguons souvent la gouvernance des données de la gouvernance de l’information. Mais les limites tendent de plus en plus à s’estomper entre les deux notions. Souvent, il s’agit désormais plutôt de savoir à quelle audience nous nous adressons plutôt que de savoir quel est le bon terme à utiliser. Ainsi, si vous parlez à la DSI, vous parlez le plus souvent de gouvernance des données, et si vous parlez aux lignes métier ou au management, vous appelez cela de la gouvernance de l’information.

En fin de compte, nous parlons tous de la même chose : fournir les capacités nécessaires pour se connecter à différents référentiels de données et de contenu, inventorier et analyser les données qu’ils contiennent, trouver comment les organiser, les enrichir et les classer, se débarrasser si nécessaire des données devenues obsolètes , et gérer les informations utiles conformément à vos politiques de conformité.

Les catalogues de données (Data Catalog en anglais) existent aujourd’hui pour gérer un inventaire de vos données structurées et les solutions d’analyse de fichiers pour fournir un catalogue de vos données non structurées. Existe-t-il une demande pour un inventaire unique des actifs informationnels de votre organisation?

Dans le monde de la gestion documentaire et de l’archivistique traditionnel, la gestion des topologies informationnelles, des métadonnées et leurs règles de conservation, protection ou destruction, existent depuis des décennies. En les couplant avec des catalogues de données structurées et en y intégrant non seulement le périmètre traditionnellement lié aux documents engageants mais étendu à l’ensemble des informations de l’entreprise, nous obtenons alors un vrai inventaire de l’ensemble des actifs informationnels d’une organisation.

Fort de ce constat Everteam a déjà introduit dans sa feuille de route un ensemble d’évolution concernant sa suite de gouvernance de l’information (composée de everteam.discover, everteam.policy, et everteam.archive). La mise à disposition d’un connecteur de base de données structurées au sein de l’application everteam.discover principalement utilisé pour le décommissionnement d’applications en est la première étape et démontre que l’on peut analyser des données structurées et non structurées côte à côte. Il reste encore du chemin pour réaliser l’ensemble de cette convergence attendue à l’orée des prochaines années mais nous sommes enthousiastes à l’idée de pouvoir toujours aller plus loin afin d’innover et de créer les solutions de gouvernance dont vous avez le besoin. Si vous souhaitez en savoir plus sur nos produits et notre feuille de route, n’hésitez pas à nous envoyer un message.

Cookie	Durée	Description
__cf_bm		Ce cookie, défini par Cloudflare, est utilisé pour prendre en charge Cloudflare Bot Management.
__cfruid		Cloudflare définit ce cookie pour identifier le trafic web de confiance.
__hssrc	session	Ce cookie est défini par Hubspot. Selon leur documentation, chaque fois que HubSpot modifie le cookie de session, ce cookie est également défini pour déterminer si le visiteur a redémarré son navigateur. Si ce cookie n'existe pas lorsque HubSpot gère les cookies, on considère qu'il s'agit d'une nouvelle session.
_GRECAPTCHA		Le service Google Recaptcha définit ce cookie pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
cli_user_preference	1 year	Enregistre l'état du consentement de l'utilisateur en matière de cookies.
cookielawinfo-checkbox-advertisement	1 day	Le cookie est défini par le GDPR cookie consent pour enregistrer le consentement de l'utilisateur pour les cookies dans la catégorie "Publicité".
cookielawinfo-checkbox-analytics	1 day	Ce cookie est défini par le plugin WordPress GDPR Cookie Consent. Le cookie est utilisé pour mémoriser le consentement de l'utilisateur pour les cookies de la catégorie "Analytics".
cookielawinfo-checkbox-functional	1 day	Le cookie est défini par le GDPR cookie consent pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie "Fonctionnel".
cookielawinfo-checkbox-necessary	1 day	Ce cookie est défini par le plugin GDPR Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Nécessaire".
cookielawinfo-checkbox-others	1 day	Ce cookie est défini par le plugin GDPR Cookie Consent. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Autres".
cookielawinfo-checkbox-performance	1 day	Ce cookie est défini par le plugin GDPR Cookie Consent. Ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Performance".
CookieLawInfoConsent		CookieYes définit ce cookie pour enregistrer l'état du bouton par défaut de la catégorie correspondante et le statut de l'ACCP. Il ne fonctionne qu'en coordination avec le cookie principal.
elementor	never	Ce cookie est utilisé par le thème WordPress du site web. Il permet au propriétaire du site de mettre en œuvre ou de modifier le contenu du site en temps réel.
PHPSESSID		Ce cookie est natif des applications PHP. Il stocke et identifie l'identifiant de session unique d'un utilisateur afin de gérer les sessions des utilisateurs sur le site web. Il s'agit d'un cookie de session qui sera supprimé lorsque toutes les fenêtres du navigateur seront fermées.
pll_language	1 year	Ce cookie est défini par le plugin Polylang pour les sites web alimentés par WordPress. Ce cookie stocke le code de la langue de la dernière page consultée.
rc::a	never	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
rc::b	session	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
rc::c	session	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
rc::f	never	Ce cookie est mis en place par le service Google recaptcha pour identifier les robots afin de protéger le site web contre les attaques de spam malveillantes.
viewed_cookie_policy	1 year	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour enregistrer si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
wpEmojiSettingsSupports	session	WordPress place ce cookie lorsqu'un utilisateur interagit avec des emojis sur un site WordPress. Il permet de déterminer si le navigateur de l'utilisateur peut afficher correctement les emojis.

Cookie	Durée	Description
__hssc	30 minutes	Ce cookie est mis en place par HubSpot. Le but de ce cookie est de garder une trace des sessions. Il est utilisé pour déterminer si HubSpot doit incrémenter le numéro de session et les horodatages dans le cookie __hstc. Il contient le domaine, viewCount (incrémente chaque pageView dans une session), et l'horodatage du début de la session.
li_gc		Linkedin utilise ce cookie pour enregistrer le consentement du visiteur concernant l'utilisation de cookies à des fins non essentielles.
lidc		LinkedIn utilise le cookie lidc pour faciliter la sélection des centres de données.
UserMatchHistory		LinkedIn définit ce cookie pour la synchronisation de l'ID des annonces LinkedIn.
yt-player-headers-readable	never	Le cookie yt-player-headers-readable est utilisé par YouTube pour enregistrer les préférences de l'utilisateur en matière de lecture vidéo et d'interface, afin d'améliorer l'expérience de visionnage de l'utilisateur.
yt-remote-cast-available	session	Le cookie yt-remote-cast-available est utilisé pour stocker les préférences de l'utilisateur concernant la disponibilité de la diffusion sur son lecteur vidéo YouTube.
yt-remote-cast-installed	session	Le cookie yt-remote-cast-installed est utilisé pour stocker les préférences du lecteur vidéo de l'utilisateur lors de l'utilisation de vidéos YouTube intégrées.
yt-remote-fast-check-period	session	Le cookie yt-remote-fast-check-period est utilisé par YouTube pour stocker les préférences du lecteur vidéo de l'utilisateur pour les vidéos YouTube intégrées.
yt-remote-session-app	session	Le cookie yt-remote-session-app est utilisé par YouTube pour stocker les préférences de l'utilisateur et des informations sur l'interface du lecteur vidéo intégré de YouTube.
yt-remote-session-name	session	Le cookie yt-remote-session-name est utilisé par YouTube pour stocker les préférences du lecteur vidéo de l'utilisateur lors de l'utilisation de vidéos YouTube intégrées.
ytidb::LAST_RESULT_ENTRY_KEY	never	Le cookie ytidb::LAST_RESULT_ENTRY_KEY est utilisé par YouTube pour stocker le dernier résultat de recherche sur lequel l'utilisateur a cliqué. Cette information est utilisée pour améliorer l'expérience de l'utilisateur en fournissant des résultats de recherche plus pertinents à l'avenir.

Cookie	Durée	Description
_first_pageview		Il s'agit d'un cookie de session placé lors du premier affichage de la page à chaque visite. Ce cookie est utilisé pour activer certains codes lors du premier affichage de la page et pour améliorer la vitesse du site web.
AMCV_*AdobeOrg		Adobe-Dtm utilise ce cookie pour trouver l'identifiant unique qui permet de reconnaître l'utilisateur lors de ses prochaines visites.
AMCVS_*AdobeOrg		Adobe-Dtm utilise ce cookie pour stocker un identifiant unique permettant d'identifier un visiteur unique.

Cookie	Durée	Description
__hstc	1 year 24 days	Ce cookie est mis en place par Hubspot et est utilisé pour suivre les visiteurs. Il contient le domaine, l'utk, l'horodatage initial (première visite), le dernier horodatage (dernière visite), l'horodatage actuel (cette visite) et le numéro de session (incrémenté pour chaque session suivante).
_jsuid		Clicky utilise ce cookie pour stocker des informations sur la première visite d'un utilisateur sur le site.
_pk_ses.1.00ba		Permet le stockage temporaire de vos données de visite (si la mesure d’audience Piwik/Matomo est active)
AnalyticsSyncHistory		Linkedin utilise ce cookie pour stocker des informations sur l'heure à laquelle une synchronisation a eu lieu avec le cookie lms_analytics.
cluid	9 hours	Ce cookie est utilisé pour les sites web qui ont plusieurs domaines afin d'identifier le même visiteur à travers plusieurs domaines.
CONSENT	16 years 5 months 19 days 15 hours	Ces cookies sont installés via des vidéos youtube intégrées. Ils enregistrent des données statistiques anonymes sur, par exemple, le nombre de fois que la vidéo est affichée et les paramètres utilisés pour la lecture. Aucune donnée sensible n'est collectée, sauf si vous vous connectez à votre compte Google, auquel cas vos choix sont liés à votre compte, par exemple si vous cliquez sur "J'aime" sur une vidéo.
demdex		Le cookie demdex, placé sous le domaine demdex.net, est utilisé par Adobe Audience Manager pour aider à identifier un visiteur unique à travers les domaines.
hubspotutk	1 year 24 days	Ce cookie est utilisé par HubSpot pour garder une trace des visiteurs du site web. Ce cookie est transmis à Hubspot lors de la soumission d'un formulaire et utilisé lors de la déduplication des contacts.
s_cc		Adobe Analytics utilise ce cookie pour déterminer si les cookies sont activés dans le navigateur de l'utilisateur.
vuid	2 years	Le domaine de ce cookie est la propriété de Vimeo. Ce cookie est utilisé par Vimeo pour collecter des informations de suivi. Il définit un identifiant unique pour intégrer des vidéos sur le site web.

Cookie	Durée	Description
bcookie		LinkedIn met en place ce cookie à partir des boutons de partage LinkedIn et des balises publicitaires pour reconnaître les identifiants de navigateur.
bscookie		LinkedIn utilise ce cookie pour mémoriser les actions effectuées sur le site web.
li_sugr		LinkedIn utilise ce cookie pour collecter des données sur le comportement des utilisateurs afin d'optimiser le site web et de rendre les publicités sur le site web plus pertinentes.
PREF	8 months	Le cookie PREF est défini par Youtube pour stocker les préférences de l'utilisateur telles que la langue, le format des résultats de recherche et d'autres personnalisations pour les vidéos YouTube intégrées dans différents sites.
test_cookie	15 minutes	Ce cookie est mis en place par doubleclick.net. Le but de ce cookie est de déterminer si le navigateur de l'utilisateur accepte les cookies.
VISITOR_INFO1_LIVE	5 months 27 days	Ce cookie est mis en place par Youtube. Il est utilisé pour suivre les informations relatives aux vidéos YouTube intégrées sur un site web.
YSC	session	Ce cookie est mis en place par Youtube et est utilisé pour suivre les vues des vidéos intégrées.
yt.innertube::nextId		YouTube utilise ce cookie pour enregistrer un identifiant unique afin de stocker des données sur les vidéos de YouTube que l'utilisateur a vues.
yt.innertube::requests		YouTube utilise ce cookie pour enregistrer un identifiant unique afin de stocker des données sur les vidéos de YouTube que l'utilisateur a vues.

Pourquoi Everteam

Equipe de direction

Everteam lab

Clients

Carrière

Ils parlent de nous

Nos solutions

Pilotage du cycle de vie des documents

Analyse et traitement de vracs numériques

Audit et Recherche multi-sources

Archivage de l’information

GED et Case

Connecteurs

Expertise/Consulting

Formations

Portail client

Plaquettes

Podcast

Evènements

Infographies

Webinar

Lexique

Livre blanc

Articles

FAQ

Intégrer les données structurées et non structurées : en sommes-nous déjà là ?

Rendre les données non structurées, structurées

La fédération de données est votre nouveau référentiel de contenu

Supprimer la frontière entre Gouvernance des Données et Gouvernance de l’Information