Jean-Michel Le Floch et al., « Les configurations de points », HAL-SHS : économie et finance, ID : 10670/1.hy8ghw
Les statisticiens examinent de près des données spatialisées, telles que la répartition des revenus des ménages, la localisation des établissements industriels ou commerciaux, la répartition des écoles dans les villes, etc. Les analyses à une ou plusieurs échelles géographiques prédéfinies, telles que les quartiers, les districts ou les îlots statistiques, permettent de trouver des réponses. Cependant, il est tentant de conserver les données individuelles et de travailler avec la position exacte des entités étudiées. Dans ce cas, les statisticiens doivent effectuer des analyses basées sur des données de géolocalisation sans procéder à une quelconque agrégation géographique. Les observations sont prises comme des points dans l'espace et l'objectif est de caractériser ces distributions ponctuelles. La compréhension et la maîtrise des méthodes statistiques qui traitent ces informations individuelles et spatialisées permettent de travailler sur des données qui sont aujourd'hui de plus en plus accessibles et recherchées car elles fournissent des analyses très précises des distributions étudiées (Ellison et al. 2010 ; Barlet et al. 2013). Dans ce cadre d'analyse, les statisticiens qui ont des ensembles de points à analyser sont confrontés à plusieurs questions méthodologiques importantes : comment représenter et caractériser spatialement de telles données comportant des milliers, voire des millions d'observations ? Quels sont les outils statistiques permettant d'étudier ces observations relatives aux ménages, aux salariés, aux entreprises, aux magasins, aux équipements ou aux déplacements, par exemple ? Comment prendre en compte les caractéristiques qualitatives ou quantitatives des observations étudiées ? Comment mettre en évidence des attractions ou des répulsions entre des points ou entre différents types de points ? Comment évaluer la signification des résultats obtenus, etc. L'objectif de ce chapitre est d'aider les statisticiens à fournir des résultats statistiquement robustes à partir de l'étude de données spatialisées qui ne sont pas basées sur un zonage prédéfini. Pour ce faire, nous ferons une revue de la littérature sur le sujet des méthodes statistiques utilisées pour caractériser les distributions ponctuelles et nous expliquerons les enjeux associés. A l'aide d'exemples simples, nous expliquerons les avantages et les inconvénients des approches les plus fréquemment adoptées. Le code fourni en R sera utilisé pour reproduire les exemples traités.