10 meilleurs package R pour la manipulation de données
![](https://rstudio-data.com/wp-content/uploads/2022/12/Copie-de-How-to-use-3-820x394.png)
Que vous soyez un utilisateur chevronné ou à l’inverse encore assez débutant, la manipulation de données peut rapidement devenir complexe en fonction de la nature des données à traiter. Vous pouvez (et vous allez surement) rencontrer des difficultés lors de l’importation de données de différents formats, de la conversion de timestamp en date, du nettoyage et de la transformation des données, et bien d’autres actions de manipulation. Heureusement, la communauté R a développé de nombreux packages pour faciliter la manipulation de données. Ces packages fournissent des fonctions pour simplifier le travail des programmeurs en leur permettant de manipuler facilement des données complexes. Grâce à ces packages, les programmeurs peuvent gagner du temps et améliorer leur productivité en évitant de coder des fonctions qui ont déjà été implémentées
Les package RStudio de manipulation et transformation :
dplyr
Bien connu de tous, le package RStudio dplyr est une syntaxe simplifiant la manipulation de donnée. Les fonctions et synthaxes les plus connus sont
- %>%, pipe permet d’enchainer plusieurs opérations et de simplifier l’écriture.
- mutate(), permet de créer de nouvelles colonnes dans le tableau de données, par exemple en partant de données existantes et en réalisant des opérations mathématique, ou en convertissant des données timestamps en données lisibles.
- group_by(), permet de définir des groupes de lignes à partir de valeurs communes d’une ou plusieurs colonnes. On groupe par exemple les valeur dont les années, mois ou jours sont similaires pour pouvoir les analyser ensemble.
- select(), permet d’afficher un sub-set des données via la selection d’un certain nombre de colonnes. On peut aussi fonctionner à l’inverse en retirant certaine colonne en faisant précéder leur nom par le signe moin « -« .
- filter(), permet de sélectionner/filtrer les données selon une ou plusieurs conditions. On peut des signes mathématiques par exemple :« == », « > » « < » « >= » « <= »
- summarise(), permet de résumé des données d’un tableau ou d’un data frame en une seule ligne. Elle peut être utilisée pour calculer des statistiques simples, comme la moyenne, la somme, le minimum, le maximum, etc., sur un ou plusieurs groupes de données.
- arrange(), permet de réordonner une ou plusieurs lignes d’un tableau de façon croissante ou décroissante desc() par exemple.
Tidyverse
Le package Tidyverse pour RStudio est un regroupement de plusieurs package et extension RStudio qui couvre aussi bien la manipulation de données, la visualisation, l’import/export de données, la programmation encore l’extraction de données web (scrapping)
Tidyr
Le package Tidyr pour RStudio fourni à l’utilisateurs des fonctions permettant d’arranger les données et de les convertir dans un format dit « tidy ». Similaire à celle de dplyr, elle s’intègre simplement dans les séries de pipes. On trouve par exemple les fonctions pivot_xx (longer/wider), separate() pour diviser une colonnes en plusieurs, separate_rows() pour réaliser la même opérations sur des lignes, ou unite() pour fusionner des colonnes.
Stringr
Le package stringr
pour R est une bibliothèque de fonctions qui facilitent le traitement des chaînes de caractères (strings ou REGEX) en R. Il fournit un ensemble d’outils qui permettent de manipuler et de traiter facilement les chaînes de caractères, tels que :
str_trim()
: permet de supprimer les espaces en début et en fin de chaîne de caractèresstr_pad()
: permet d’ajouter des caractères à une chaîne de caractères, afin de la rendre plus longue ou plus courtestr_replace()
: permet de remplacer une sous-chaîne de caractères par une autrestr_split()
: permet de diviser une chaîne de caractères en plusieurs sous-chaînesstr_detect()
: permet de vérifier si une chaîne de caractères contient une sous-chaîne donnée
Et bien d’autres encore. Le package stringr
est particulièrement utile pour le nettoyage et la préparation de données textuelles avant de les analyser ou de les visualiser.
Lubridate
Le package lubridate
pour R est une bibliothèque de fonctions qui facilite le traitement des dates et des durées en R. Il fournit un ensemble d’outils qui permettent de manipuler et de traiter facilement les dates et les durées, tels que :
ymd()
: permet de créer une date à partir de trois valeurs séparées pour l’année, le mois et le jourhms()
: permet de créer une durée à partir de trois valeurs séparées pour les heures, les minutes et les secondesinterval()
: permet de créer une durée à partir de deux datesdays()
: permet de calculer le nombre de jours entre deux dateshours()
: permet de calculer le nombre d’heures entre deux durées
Et bien d’autres encore. Le package lubridate
est particulièrement utile pour travailler avec des données temporelles en R, et pour effectuer des opérations courantes comme le calcul de durées ou la comparaison de dates.
Les package RStudio lire des fichiers :
Readr & Readxl
Les packages readr
et readxl
sont des bibliothèques de fonctions pour R qui facilitent la lecture de données depuis des fichiers externes.
Le package readr
est principalement conçu pour lire des données tabulaires stockées au format CSV (Comma Separated Values). Il fournit une série de fonctions pour lire des données à partir de fichiers CSV, y compris read_csv()
qui lit tout le fichier d’un coup, et read_csv2()
qui est spécifique au format CSV utilisé en Europe, où les virgules sont utilisées comme séparateur de décimaux et les points-virgules comme séparateur de colonnes.
Le package readxl
est conçu pour lire des données à partir de feuilles de calcul Excel. Il fournit une série de fonctions pour lire des données à partir de fichiers Excel, y compris read_excel()
qui lit toute la feuille de calcul d’un coup, et read_xlsx()
qui est spécifique au format de fichier .xlsx utilisé par Excel 2007 et versions ultérieures.
Jsonlite
Le package jsonlite
pour R est une bibliothèque de fonctions qui permet de lire et d’écrire des données au format JSON (JavaScript Object Notation). JSON est un format de données couramment utilisé pour échanger des données sur internet, car il est facile à lire et à écrire pour les humains, et facile à parser et à générer pour les ordinateurs.
Le package jsonlite
fournit une série de fonctions pour travailler avec des données au format JSON en R, y compris :
fromJSON()
: permet de lire des données JSON à partir d’une chaîne de caractères ou d’un fichier, et de les convertir en un objet R (comme une liste ou un data frame)toJSON()
: permet de convertir un objet R en une chaîne de caractères au format JSON
Le package jsonlite
peut également être utile pour travailler avec des API qui retournent ou acceptent des données au format JSON.
Purrr
Le package purrr
pour R est une bibliothèque de fonctions qui étend les capabilities de la fonction map()
du langage R.
map()
est une fonction très utile qui permet d’appliquer une fonction à chaque élément d’une liste ou d’un vecteur, et de retourner un nouvel objet (comme une liste ou un vecteur) avec les résultats.
Par exemple, si vous avez une liste de nombres et que vous voulez les multiplier par 2, vous pouvez utiliser map()
comme ceci:
x <- list(1, 2, 3, 4) map(x, function(n) n * 2) [1] 2 4 6 8
Le package purrr
étend cette fonctionnalité en fournissant une série d’outils pour travailler avec les listes et les vecteurs de manière plus expressive et concise. Par exemple, vous pouvez utiliser map_dbl()
pour appliquer une fonction à chaque élément d’une liste et retourner un vecteur de nombres à virgule flottante, ou utiliser map_chr()
pour retourner un vecteur de chaînes de caractères. Il peut fournit également un certain nombre d’autres fonctions utiles pour travailler avec des listes et des vecteurs, comme reduce()
qui permet de combiner tous les éléments d’une liste en une seule valeur, ou keep()
qui permet de filtrer une liste en conservant seulement certains éléments.