Warning: Undefined array key "options" in /htdocs/wp-content/plugins/elementor-pro/modules/theme-builder/widgets/site-logo.php on line 192
Examiner un Data Frame avec RStudio - Rstudio Data
Débuter avec R

Examiner un Data Frame avec RStudio

Share

Plusieurs fonctions et commandes permettent d’examiner un Data Frame rapidement. Elle nous aide à visualiser sa structure, explorer son contenu, ses colonnes, les formats et types des données présente, ect …

Examiner la structure d’un data frame

Commençons par une fonction déjà exploré dans l’article « Examiner un Data Frame » la fonction str(). Elle nous permet de visualiser les détails de la structure d’un data frame et ainsi observé un descriptif de son contenu. Le data frame précédement créé à la structure suivante :

str(df)
## 'data.frame':    6 obs. of  2 variables:
##  $ taille: num  177 167 181 179 168 175
##  $ poids : num  71 68 78 75 68 64

Il contient 6 observations (les colonnes) et 2 variables (les lignes). Les informations des colonnes « taille » et « poids » sont au formation « numérique« .

Visualiser les entêtes de colonnes

Il est parfois utile de n’afficher que les entête de colonnes, par exemple dans le cas de data frame particulièrement grand, comportant un important nombre d’entrée. Dans ce cas, la fonction name() est la plus adapté.

data(murders)
names(murders)
## [1] "state"      "abb"        "region"     "population" "total"

La fonction head() affiche par défaut les 6 premières lignes d’un data frame et permet d’avoir un aperçu de ce dernier. Par défaut On peut ajouter le paramètre n = x pour définir le nombre de ligne à afficher.

head(murders, n = 3)
##     state abb region population total
## 1 Alabama  AL  South    4779736   135
## 2  Alaska  AK   West     710231    19
## 3 Arizona  AZ   West    6392017   232

Connaitre le nombre et la longueur d’une variable d’un data frame

Plusieurs fonctions permettent de rentrer dans les détails concernant la taille et le nombre d’entrée présente dans les différentes variables.
La fonction levels() donne la liste des obs. d’une variable,
La fonction length() donne la longueur/le nombre des obs. d’une variable.

levels(murders$region)
[1] "Northeast"     "South"         "North Central" "West"
         
length(murders$region)
[1] 51

On peut voir avec ces deux fonctions qu’il y a dans la variables « région » du data frame murders (présent dans le package dslabs) les observations unique, sont « Northeast/South/North Central/West ». Par ailleurs sa longueur est de 51 lignes.
En combinant les deux fonctions on obtient la longueur/le nombre d’entrée unique dans la variable et non pas la liste ou le nombre de ligne. On voit ainsi qu’il y a 4 entrée différentes (précédemment cité)

length(levels(murders$region))
[1] 4

Connaître les valeurs minimum et maximum d’une variable numérique dans RStudio

Il existe 4 fonctions principales pour obtenir les valeurs mini/maxi ou leur position dans un data frame.
Les fonctions max() ou min() affichent les valeurs la plus grande ou la plus petite d’une variable.
Tandis que les fonctions which.max() et which.min() donne les numéros des entrées/lignes des valeurs minimale et maximale.

max(murders$total)
## [1] 1257

which.max(murders$total)
## [1] 5
# L'entrée la plus grande est située à la 5ème ligne, sa valeur est 1257.

min(murders$total)
## [1] 2

which.min(murders$total)
## [1] 46
#L'entrée la plus petite est située à la 46ème ligne, sa valeur est 2.
Tags:

You Might also Like

Related Stories

Next Up