Introduction

L’objectif de ce document de travail est d’ouvrir et de lire le contenu d’un fichier xlsx contenant des données dans l’onglet comptages_automatiques et de réaliser une classification hierarchiques des sites

Ouverture du fichier

La fonction read_compt_auto() permet de lire les comptages automatiques et de calculer les indicateurs utilisés pour la classification hierarchique

  • pred_wd_wp (Working Day proportion on Working period): La proportion de donnée en jours ouvrés dans la données en excluant les vacances
  • pred_wd_ho (Working Day proportion on Holiday): La proportion de donnée en jours ouvrés pendant les vacances
  • pred_jul_aug (July-August proportion): La proportion de donnée en Juillet-Août par rapport au total.
  • pred_pont_jul_aug: La proportion de données pendant les ponts de Juillet-Août par rapport à toute la période Juillet-Août
  • pred_wp_17_9 :La proportion de données avant 9h et après 17h pour les jours ouvrés de la semaine
  • pred_we_09_11: La proportion de données entre 9h et 11h pendant les week-end
xlsx_path <- system.file("example-data/02_simplified.xlsx", package = "evavelo")

predictors <- evavelo::read_compt_auto(xlsx_path)

predictors
#> # A tibble: 17 × 12
#>    site_name         id_site id_channel name  pred_wd_wp pred_wd_ho pred_jul_aug
#>    <chr>             <chr>   <chr>      <chr>      <dbl>      <dbl>        <dbl>
#>  1 Barbâtre          200000… 200000081  Barb…      0.641      0.714        0.627
#>  2 Blain             200000… 251000188  Blai…      0.519      0.599        0.449
#>  3 Bouin             200000… 200000082  Bouin      0.664      0.692        0.534
#>  4 Brétignolles Sur… 200000… 200000083  Brét…      0.587      0.680        0.421
#>  5 La Chapelle sur … 200000… 200000238  La C…      0.621      0.605        0.277
#>  6 La Tranche Sur M… 200000… 200000085  La T…      0.680      0.699        0.395
#>  7 Le Pellerin - 44  200000… 353246746  Le P…      0.587      0.616        0.444
#>  8 Le Pellerin - Na… 200000… 200000162  Le P…      0.534      0.598        0.350
#>  9 Les Sables d'Olo… 200000… 200000086  Les …      0.601      0.661        0.471
#> 10 Saint Hilaire De… 200000… 200000087  Sain…      0.626      0.719        0.579
#> 11 Saint Jean De Mo… 200000… 200000088  Sain…      0.567      0.701        0.638
#> 12 Saint-Brevin      200000… 200000187  Sain…      0.627      0.660        0.418
#> 13 Sainte Radegonde… 200000… 200000089  Sain…      0.685      0.678        0.523
#> 14 St-Michel-Chef-C… 200000… 200000231  St-M…      0.613      0.684        0.504
#> 15 Tortière_nord     200000… 201000165  Tort…      0.849      0.755        0.168
#> 16 Tortière_sud      200000… 201000166  Tort…      0.841      0.767        0.166
#> 17 V6 Caurel-2012    200000… 201000176  V6 C…      0.719      0.724        0.481
#> # ℹ 5 more variables: pred_pont_jul_aug <dbl>, pred_wp_17_9 <dbl>,
#> #   pred_we_09_11 <dbl>, missing_perc <dbl>, n_missing_days <int>

Classification hierarchique

pred_df <- predictors %>% 
  select(starts_with("pred")) %>% 
  as.data.frame() 
rownames(pred_df) <- paste0(predictors$name,"(",predictors$id_site, ")")


clust <- pred_df %>% 
  dist() %>% 
  hclust(method = "ward.D2") 

fviz_dend(clust, cex = 0.6,k = 5, rect = TRUE, horiz = TRUE)
#> Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
#> of ggplot2 3.3.4.
#>  The deprecated feature was likely used in the factoextra package.
#>   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
#> This warning is displayed once every 8 hours.
#> Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
#> generated.