Il existe deux types de données essentiels sont : les données nominales (données catégorique ou qualitative) ou données d’intervalle (données quantitatives ou données continues).

Il existe deux types de données essentiels sont : les données nominales (données catégorique ou qualitative) ou données d’intervalle (données quantitatives ou données continues). Les données nominales sont juste des catégories de variables comme les noms des clients, états civiles, vous ne pouvez pas effectuer des opérations mathématiques sur ces types de données. En générales ces données sont décrites à l’aide du type Varchar… . D’un autre côté, les données d’intervalle contiennent les valeurs numériques et les variables comme l’âge, montant facturé, vous pouvez effectuer des opérations mathématiques sur ces données. Les histogrammes sont utilisés généralement pour décrire des données d’intervalle.

La classification est l’activité fondamentale dans le Management:

Etant donné que la classification est l’étape fondamentale du Management, une variable spécifique contenant les données d’intervalle peut être classée dans différentes catégories et/ou transformée en donnée nominale. Par exemple une société de télécom comme Bell peut classer ses clients dans différents groupes en se basant sur leurs montants facturés (qui sont des variables de données d’intervalle). Disons que Bell reçoit les données des montants facturés de 200 clients d’une zone géographique spéciale comme présenté dans le tableau. Comment ces données peuvent être catégorisées ? 

Customer id $ Billing amount
1 89
2 79
... ...
200 110

Dans ce cas, les règles de Sturges peuvent aider à déterminer le nombre de groupes et/ ou la classification des données dans l’ensemble des données d’intervalle.

Ci-après les étapes clés pour classifier l’ensemble des données d’intervalle ou plutôt transformer les données d’intervalle en données nominales.

Etape 1 : Trouver la plage des valeurs dans l’ensemble des données.

Plage = valeur maximale –valeur minimale= $129.63 – $10  = 119.63

Etape 2 : Appliquer les règles de Sturges pour déterminer le nombre de classes

Classes=1+3.3 (log n) / n est le nombre des observations

Classes=1+3.3*(log 200)=1+3.3*2.3=8.5 groupes (vous pouvez considérer 9 groupes)

Etape 3 : Déterminer la largeur de la classe

Largeur de la classe=plage/nombre de classes=119.63/8=14.95=15 ( si on arrondi)

Ça signifie qu’il y aura 8 groupes/classes séparés par $15.

  • Classe 1 = $0 à $15 billing
  • Classe 2 = $16 à $30 billing
  • Classe 3 = $31 à $45 billing
  • Classe 4 = $46 à $60 billing
  • Classe 5 = $61 à $75 billing
  • Classe 6 = $76 à $90 billing
  • Classe 7 = $91 à $105billing
  • Classe 8 = $106 à $120 billing

 

Etape 4 : utiliser Excel pour représenter l’histogramme (et définir la fréquence des clients pour chacune des 8 classes)

Premièrement il faut s’assurer que vous avez téléchargé “Data Analysis Toolpak” dans Excel. Puis allez à Data –> Data Analysis – >Histogram

 

Entrer les données comme indiqué dans ce qui suit.

Le résultat affiché sera le suivant :

Etape 5 Nettoyer la table et l’histogramme

Tout d’abord il faut s’assurer que vous avez sélectionné (in the Histogram) et cliquer sur “Format Data Series”. Puis réduire le “Gap Width” de 150% (la valeur par défaut) à 0%.

 

L’histogramme final nettoyé avec 8 groupes est le suivant :

 

 

Maintenant vous avez divisé votre clientèle en 8 différentes classes homogènes en se basant sur les montants facturés et probablement vous pouvez avoir des évènements spécifiques promotionnels pour un groupe de clients ; disons ceux de la classe 1(le groupe qui a la valeur maximale de la fréquence/clients dans les 8 classes).

La classification est la clé d’un bon management. Quand vous pouvez être en mesure de capturer de grands montants de séries temporelles /données continues, la catégorisation des données est un élément fondamental pour dériver des idées et mener les actions appropriées.