Principales fonctions du package ggplot2
Share
Si vous ne le connaissez pas encore ggplot2 est l’un des packages les plus populaires de R. On peut même dire que c’est le package le package le plus emblématique pour RStudio, également connu et envié par les utilisateurs de python. En plus d’avoir beaucoup de possibilité pour pouvoir créer des graphiques à la fois attrayant et performant, il est relativement simple d’utilisation mais également très puissant. Dans cet article, nous vous montrons les principales fonctions de ggplot2, depuis ses fonctions de bases, la création de graphiques de base jusqu’à la personnalisation avancée, vous apprendrez à utiliser ggplot2 pour visualiser vos données de manière claire et concise.
Les 5 fonctions principales pour créer un graphique avec ggplot2
ggplot()
: cette fonction permet de créer un nouveau graphique à partir de données brutes ou de données préalablement organisées dans un objet de type « data frame » dans R.aes()
: cette fonction permet de définir les variables à utiliser pour l’axe x et l’axe y du graphique, ainsi que les éventuelles couleurs ou tailles à utiliser pour représenter les données.geom_*()
: il existe de nombreuses fonctions « geom » dans ggplot2, chacune d’entre elles servant à tracer un type de graphique particulier (par exemple,geom_point()
pour tracer des points,geom_histogram()
pour tracer un histogramme).scale_*_*()
: ces fonctions permettent de personnaliser l’échelle des axes du graphique, ainsi que d’autres aspects de la présentation (par exemple,scale_x_log10()
pour utiliser une échelle logarithmique à base 10 pour l’axe x).facet_*()
: ces fonctions permettent de créer des « facettes », c’est-à-dire de diviser le graphique en plusieurs sous-parties en fonction d’une variable supplémentaire. Par exemple,facet_wrap()
permet de créer des facettes en enroulant les sous-parties les unes sur les autres.
On peut mettre en pratique ces fonctions en utilisant le package dslabs comme ceci :
(pour rappel le package dslabs
est un ensemble de données et d’outils pour l’enseignement de la statistique et de la science des données. Il contient de nombreux jeux de données intéressants qui peuvent être utilisés pour créer des graphiques à l’aide de ggplot2.)
Les principaux graphiques ggplot2
geom_point()
Commençons par faire un nuage de point, scatterplot ou encore diagramme de dispersion montrant la relation entre deux variables numériques, en utilisant la fonction geom_point(). Nous utiliserons les données les data(mammals) de la library(mass).
library(MASS)
library(ggplot2)
# Charger les données
data(mammals)
# Créer le graphique
ggplot(mammals, aes(x = body, y = brain)) +
geom_point()
geom_histogram()
Maintenant, nous allons faire un histogramme montrant la distribution d’une variable numérique. Pour cela, nous allons utiliser la fonction geom_histogram(), toujours avec les data(mammals) de la library(mass).
ggplot(mammals, aes(x = body)) +
geom_histogram()
geom_bar()
Nous allons maintenant réaliser un diagramme en barres ou barplot montre l’effet d’une variable catégorielle sur une variable numérique. Nous allons le réaliser en utilisant la fonction geom_bar() en utilisant cette fois les data(murders) de la library(dslabs). Nous allons utiliser la library « gridExtra » pour rentre l’échelle x lisible.
library(dslabs)
library(gridExtra)
data(murders)
library(ggplot2)
ggplot(murders, aes(x=state, y=total)) +
geom_bar(stat="identity") +
xlab("État") +
ylab("Total de meurtres") +
theme(axis.text.x = element_text(angle = 90))