Génération de Données Synthétiques Corrélées

Fiche du document

Date

18 janvier 2016

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Juste Raimbault, « Génération de Données Synthétiques Corrélées », HAL-SHS : géographie, ID : 10670/1.ipp1nz


Métriques


Partage / Export

Résumé Fr

L'utilisation de données synthétiques, au sens de populations statistiques d'individus générées aléatoirement sous la contrainte de reproduire certaines caractéristiques du système étudié, est une pratique méthodologique largement répandue dans de nombreuses disciplines, et particulièrement pour des problématiques liées aux systèmes complexes , telles que par exemple l'évaluation thérapeutique [Abadie et al., 2010], la géographie [Moeckel et al., 2003], ou l'apprentissage statistique [Bolón-Canedo et al., 2013]. Si le premier ordre est bien maitrisé, il n'a à notre connaissance pas été proposé de méthode systématique permettant un contrôle au second ordre, c'est à dire où la structure de correlation estimée sur les données générées est maitrisée. Nous proposons une telle méthode ainsi que son application à deux exemples de systèmes complexes dans des domaines relativement éloignés.Soit un ensemble de processus stochastiques (l'index pouvant être le temps ou l'espace par exemple). On se propose, à partir d'un jeu de réalisations X, de générer une population statistique X' telle que d'une part un certain critère de proximité aux données est vérifié, i.e. étant donné une précision ε et un indicateur f ,||f (X) − f (X') < ε||, et d'autre part le niveau de correlation est controlé, i.e. étant donné une matrice fixant une structure de covariance R, Var (X') = R, où la matrice de variance/covariance est estimée sur la population synthétique.Un premier domaine d'application proposé pour notre méthode est celui des séries temporelles financières, signaux typiques de systèmes complexes hétérogènes et multi-scalaires [Mantegna et al., 2000] et pour lesquels les corrélations ont fait l'objet d'abondants travaux (voir matrices aléatoires [Bouchaud and Potters, 2009], analyse de réseaux [Tumminello et al., 2005]). Considérons un réseau d'actifs (X i (t)) 1≤i≤N échantillonés à haute fréquence (typiquement 1s), vus comme la superposition de signaux à des multiples échelles temporelles, sur lesquels est appliqué un modèle de prédiction de tendance à une échelle temporelle donnée, représenté formellement comme un estimateur dont l'objectif est la minimisation de l'erreur sur la tendance réelle. Dans le cas d'estimateurs auto-regressifs multivariés, la performance dépendra entre autre des correlations respectives entre actifs et on peut alors l'estimer en appliquant la méthode. On assume une dynamique de Black-Scholes pour les actifs : dX = σ · dW avec W processus de Wiener. Il est alors aisé de générer X' tel que Var X' = ΣR (Σ variance estimée et R matrice de corrélation fixée), par la simulation de processus de Wiener au niveau de corrélation fixé et tel que X(ω

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en