Business Intelligence PDF

Title	Business Intelligence
Author	Yasmine Guessous
Course	Informatique
Institution	Université Paris 8 Vincennes-Saint-Denis
Pages	10
File Size	152.3 KB
File Type	PDF
Total Downloads	10
Total Views	180

Preview

CLICK TO PREVIEW PDF

Summary

Download Business Intelligence PDF

Description

Business Intelligence La BI se définit par l’ensemble des moyens, outils et méthodes qui supportent le processus de collecte, consolidation, modélisation, analyse et restitution des informations. Le processus de BI vise à récupérer des données brutes (contenues dans des outils type ERP, CRM, sources externes provenant des clients / fournisseurs, données de marches,…), a les transformer en information et a les diffuser sous forme de tableaux de bord ou reporting.

L’objectif de la BI L’objectif de la BI est de créer, à partir des données de l’entreprise mais aussi externe a celle-ci, l’information et le savoir aidant les membres de l’entreprise, des cadres dirigeants aux opérationnels, dans leur pilotage.

Le processus de BI peut se schématiser de la manière suivante : ^ Savoir /

// BI \

Information /

\ Données

________________________ Processus Business Système d’information d’aide à la décision

Collecte de données (données de protection) => stockage de données (data warehouse, data hart) => exploitation (reporting datamining, tableau de bord). Pour répondre aux opérations d’entreposage de données on doit créer une base de données multidimensionnelle exemple data warehouse La collecte des données : cette fonction fait généralement appel à un logiticiel ETL (Extract Transform load). Un outil ETL permet à partir de diverses sources de données, d’extraire de l’information, de faire des transformations afin de nettoyer des données et de charger des données utile dans l’entrepôt de données ( data warehouse) ou le magasin de données (datamart). Le stockage des données : les données des bases de données relationnelles ne se pretent pas facilement a des analyses multidimensionnelles. Pour pallier a ce probleme, les données sont donc stockées dans les bases specialisees (datawarehouse, data Mart). Le createur du concept de datawarehouse, BILL Inmon, le de definit comme suit : « Un datawarehouse est une collection de donnees thematiques, integrees, ,non volatiles et historisees pour la prise de decisions . » Le terme de datamart (litteralement magasin de données) est dedie a un secteur parrticulier de l entreprise ( departement, direction, service, gamme de produit,..). les données sont presentees sous une forme semantique (vues metiers ayant du sens ) qui permettent aux decideurs d interagir avec les données sans avoir a connaitre leur structure de stockage physique. L exploitation : les données sont alors accessibles et exploitables par différentes familles d’outils

La génération de rapports qui fournit aux utilisateurs des rapports sur l’etat des analyses. Cette génération est assurée par des outils de Reporting. Les tableaux de bords (ou dashboards en anglais ) mettent en place les indiicateurs clés de l activité. Ils permettent le pilotage de la performance de l entreprise. L’analyse des données notamment avec les outils de type OLAP pour les analyses multidimensionnelles. OLAP, désigne l’ensemble des technologies permettent la prise de décision stratégique rapide et fiable sur des données extraites de bases de données multidimensionnelles. Le data Mining (littéralement « forage de données ») , a pour but de mettre en evidence des corrélations éventuelles dans un volume important de données afin de valider, d’expliquer ou de prédire des tendances/faits/événement, etc. Concept fondamentaux  L’entreposage des données ( conception et alimentation d’une base de données multidimensionnelles : modélisation dimensionnelle des données, Alimentation de la base de données )  L’exploitation de la BDDM 1. L’analyse de données doit se faire en ligne ou OLAP (On line Analytic Processing). 2. Génération des rapports et/ou des états d’analyse menant à des documents. 3. Dashboarding 4. Le dataamining : extraction des connaissances des données multidimensionnelles I. Conception et alimentation d’un entrepot de données : Modélisation Dimensionnelle Alimentation d’un entrepot de données

    

Modélisation dimensionnelle Faits & Dimensions Hiérarchies Modèle en flocon Assemblage des modèles dimensionnelles Dimensions à évolutions lentes

Les données sont alors résumées et regroupées dans une structure en étoile ou en flocon de neige, représentant le modèle logique d’un hypercube. Cette structure permet d’analyser des faits mesurables (ventes, unités vendues, coût) selon plusieurs dimensions (produit, magasin, temps). Attribut ou fait Il est important de bien comprendre la différence entre un attribut et un fait afin de placer ceux-ci dans les bonnes tables (dimensions || faits). On peut s’inspirer des règles simples suivantes. . Attributs Attribut de type numérique Attribut de type caractère Valeur discrète

Faits

X X X

Variation continue

X X

Table de faits Table de dimensions

X

Table de faits Une table de faits est une table qui contient les données à analyser .

-Une table de fait est souvent reconnaissable par sa taille. En effet, lorsqu’on visualise un schéma, c’est celle qui est au centre et qui est la plus grande. -Ce type de table est aussi facilement reconnaissable car elle comporte un grand nombre de clés étrangères afin de la lier avec des tables de dimensions. La table de faits peut aussi contenir des champs qui ne sont pas des clés étrangères. Ce sont les faits (ou mesures) Certains faits sont dérivés de faits élémentaires, on les normme des faits calculés Ils doivent être pris en compte lors de la modélisation * Dans un star schéma, les tables qui entourent la table de fait sont appelées tables de dimensions. Ces tables sont composées d’attribut qui sont souvent de type caractère et discret. Ces attributs servent à stocker la description des dimensions et sont utilisés comme source de contraintes et d’en-têtes de lignes dans le jeu de réponses de l’utilisateur. Hiérarchie d’une dimension -> Dimension avec des niveaux d’information hiérarchie Exemple Dimension temps 3 niveaux d’information => -jour

région=>- ville

-mois

-région

-année

-pays

La hiérarchie définit ce qu’on appelle les grains d’information L’accès au niveau supérieur dans une hiérarchie est appelé « rolling up » et au niveau inférieur « drilling down «

Anné e Mois

Marque

Jour

________ Modele _________ Chiffres

Vehicule

Région _________

=>année => indicateur => marque

Concession _________ vendeur L alimentation d un DW est une procedure qui s effectue en plusieurs etapes - Sélection des données sources - Extraction des données - Transformation - Chargement - Administration Sélection des données sources Quelles sont les données de productions qu il faut sélectionner pour alimenter le DW ? Toutes les données sources ne sont forcément pas utiles Doit-on prendre l’adresse complète ou séparer le code postal Les données sélectionnées seront réorganisées pour devenir des informations

La synthèse de ces données sources a pour but de les enrichir La sélection des données utiles a partir des BD de production n est pas simple a faire Les données sont Hétérogènes (différentes SGBD et différentes méthodes d’accés) ; Diffuses(différents environnements matériels et différents réseaux interconnectés ou non ) ; Complexes(différents modèles logiques et physiques principalement orientés vers les traitements transactionnels). La définition de la granularité dépend du niveau de raffinement de l’information qu’on veut obtenir C est l operation qui consiste a charger les données nettoyees et preparees dans le dw C est une operation qui risque d etre assez longue il faut mettre en place des strategies pour assurer de bonnes conditions a sa realisation et definir la politique de rafraichissement C est une phase plutôt mecanique et la moins complexe ______________________________________________ Permet d’exploiter les données multidimensionnelles en temps réels 3. Exploitation des données dans un SIAD Les axes des cubes représentent les dimensions d’analyses Représentation des données Les données sont perues a travers plusieurs dimensions. Elles sont qualifiées de multidimensionnelles,

-

-

indépendamment de leur support (tables relationnelles ou tableaux multidimensionnels Le reporting Structure d’un document B.O selon PRAT Les données se présentent dans un rapport sous forme de : Tableaux simples, Tableaux croisés , Ou graphes Opérations OLAP Roll up : Agréger selon une dimension Semaine-> mois Drill down : Détailler selon une dimension Mois -> Semaine Slice et Dice : Sélection et projection selon 1 axe Mois = 04-2003 ; Projeter(Région, Produit) Pivot : Tourne le cube pour visualiser une face -(Région, Produit) ->(Région,Mois) Datawarhouse { - modele dimensionnel  Table et les relations  Table de faits  Table de dimensions Alimentation de la base de données par utulisation d un

Outile logiciel appelé (ETL) Data Mining Le terme de datamining signifie littéralement exploitation des données.

But de recherché : pouvoir extraire la connaissance de l’entreprise grâce à l’exploitation des ressources de données cachées par l’utilisation d’un certain nombre de techniques spécifiques Nous appellerons dataminig l’ensemble des techniques qui permettent de transformer les données en connaissances Expliquer Le datamining pourra tenter d’expliquer un événement ou un incident indiscernable Exemple : Pour quelle raison une entreprise perd des clients pour un produit spécifique dans une région précise ? Le datamining va aider à trouver des hypothèses d’explications Confirmer Le dataminig aidera à confirmer un comportement ou une hypothèse. Dans le cas ou le décisionnaire aurrait un doute concernant une hypothèse, le datamining pourra tenter de confirmer cette hypothèse en la vérifiant en appliquant des méthodes statistiques ou d’intelligence artificielle. Explorer Enfin, le datamining peut explorer les données pour découvrir un lien « inconnu » jusque là. Quand le décisionnaire n’as pas d’hypothèse ou d’idée sur un fait précis, il peut demander au système de proposer des associations ou des corrélations qui pourront aboutir a une explication ARBRES DE DECISION Les arbres de décision sont dédiés à l’apprentissage supervisé ou l’on essaie de prédire (expliquer) les valeurs prises par une variable

discrète (Etre malade ou pas, répondre positivement a une offre promotionnelle ou pas, etc.) à* partir d’une série de variables discriminantes de type quelconque Construction d un arbre de decision Comment choisir, parmi l’ensemble des variables disponibles la variable de segmentation d un sommet ? Comment déterminer la bonne taille de l’arbre ? est il souhaitable de produire absolument des feuilles pures selon la variable à prédire meme si le groupe correspondant correspond à une fraction très faible des observations ? Enfin comment affecter la valeur de la variable à prédire dans les feuilles ? lorsque le groupe est pur la réponse est évidente, dans le cas contraire, il nous faut adopter une stratégie.

Critère de segmentation Pour choisir la variable de segmentation sur un sommet, l’algorithme teste toutes les variables potentielles et choisit celle qui maximise un critère utilisé caractérise la pureté(ou le gain en pureté) lors du passage du sommet à segmenter vers les feuilles produites par la segmentation Il existe un grand nombre de critères informationnels ou statistiques, les plus utilisés sont : L’entropie des Shannon et le coefficient de Gini et leurs variantes Le lien du KHI-2 et ses dérivés. Il permet de mesurer le lien entre la variable candidate et la variable à prédire...