Examiner un Data Frame avec RStudio
Share
Plusieurs fonctions et commandes permettent d’examiner un Data Frame rapidement. Elle nous aide à visualiser sa structure, explorer son contenu, ses colonnes, les formats et types des données présente, ect …
Examiner la structure d’un data frame
Commençons par une fonction déjà exploré dans l’article « Examiner un Data Frame » la fonction str(). Elle nous permet de visualiser les détails de la structure d’un data frame et ainsi observé un descriptif de son contenu. Le data frame précédement créé à la structure suivante :
str(df)
## 'data.frame': 6 obs. of 2 variables:
## $ taille: num 177 167 181 179 168 175
## $ poids : num 71 68 78 75 68 64
Il contient 6 observations (les colonnes) et 2 variables (les lignes). Les informations des colonnes « taille » et « poids » sont au formation « numérique« .
Visualiser les entêtes de colonnes
Il est parfois utile de n’afficher que les entête de colonnes, par exemple dans le cas de data frame particulièrement grand, comportant un important nombre d’entrée. Dans ce cas, la fonction name() est la plus adapté.
data(murders)
names(murders)
## [1] "state" "abb" "region" "population" "total"
La fonction head() affiche par défaut les 6 premières lignes d’un data frame et permet d’avoir un aperçu de ce dernier. Par défaut On peut ajouter le paramètre n = x pour définir le nombre de ligne à afficher.
head(murders, n = 3)
## state abb region population total
## 1 Alabama AL South 4779736 135
## 2 Alaska AK West 710231 19
## 3 Arizona AZ West 6392017 232
Connaitre le nombre et la longueur d’une variable d’un data frame
Plusieurs fonctions permettent de rentrer dans les détails concernant la taille et le nombre d’entrée présente dans les différentes variables.
La fonction levels() donne la liste des obs. d’une variable,
La fonction length() donne la longueur/le nombre des obs. d’une variable.
levels(murders$region)
[1] "Northeast" "South" "North Central" "West"
length(murders$region)
[1] 51
On peut voir avec ces deux fonctions qu’il y a dans la variables « région » du data frame murders (présent dans le package dslabs) les observations unique, sont « Northeast/South/North Central/West ». Par ailleurs sa longueur est de 51 lignes.
En combinant les deux fonctions on obtient la longueur/le nombre d’entrée unique dans la variable et non pas la liste ou le nombre de ligne. On voit ainsi qu’il y a 4 entrée différentes (précédemment cité)
length(levels(murders$region))
[1] 4
Connaître les valeurs minimum et maximum d’une variable numérique dans RStudio
Il existe 4 fonctions principales pour obtenir les valeurs mini/maxi ou leur position dans un data frame.
Les fonctions max() ou min() affichent les valeurs la plus grande ou la plus petite d’une variable.
Tandis que les fonctions which.max() et which.min() donne les numéros des entrées/lignes des valeurs minimale et maximale.
max(murders$total)
## [1] 1257
which.max(murders$total)
## [1] 5
# L'entrée la plus grande est située à la 5ème ligne, sa valeur est 1257.
min(murders$total)
## [1] 2
which.min(murders$total)
## [1] 46
#L'entrée la plus petite est située à la 46ème ligne, sa valeur est 2.