Automatisation du pré-traitement des données par l'optimisation métaheuristique

Fiche du document

Date

2023

Type de document
Périmètre
Langue
Identifiants
  • handle:  10670/1.6gz41p
  • Ouedraogo Issouf. (2023). Automatisation du pré-traitement des données par l'optimisation métaheuristique. Mémoire de maîtrise, Université du Québec à Chicoutimi.
Relations

Ce document est lié à :
https://constellation.uqac.ca/id/eprint/9278/




Citer ce document

Issouf Ouedraogo, « Automatisation du pré-traitement des données par l'optimisation métaheuristique », Constellation - Université du Québec à Chicoutimi, ID : 10670/1.6gz41p


Métriques


Partage / Export

Résumé 0

Depuis quelques années, plusieurs entreprises ont commencé à exploiter les données qu’ils ont emmagasinées pour pouvoir extraire des connaissances et faire des prévisions. Une bonne utilisation de ces données permet aux entreprises de comprendre leurs clients et pouvoir améliorer leurs services. Les techniques d’intelligence artificielle se présentent comme des moyens pour révolutionner les prises de décisions. Plus d’entreprises embauchent des data scientists pour concevoir des modèles de prédiction. Le but des data scientists est de concevoir des modèles et de les performer. L’un des défis majeurs rencontré par ces data scientists est le prétraitement des données. Le prétraitement des données impact la qualité du modèle mis en place. Ce problème est dû au fait qu’il n’existe pas une seule bonne manière de prétraité les données. Les techniques utilisées dépendent du problème et du type de donnée. Ce mémoire a pour objectif d’évaluer la possibilité de développer une solution qui permet d’automatiser les opérations de prétraitement des données pour les acteurs de données (data scientistes, chercheurs, etc.). Nous utiliserons le terme pipeline afin de nommer la chaîne de pré-traitement et de traitement des données (de la donnée brute jusqu’à la classification de la donnée). En effet, nous proposons un pipeline qui permet de choisir les meilleures techniques de prétraitements en fonction du problème. Plusieurs techniques sont répertoriées et nous utilisons des techniques d’optimisation métaheuristique pour minimiser le temps de recherche du meilleur modèle. Ces techniques sont par la suite comparées avec des techniques d’optimisation standard comme la recherche par grille. Le pipeline est par la suite testé sur des données d’une entreprise d’assurance automobile du Canada. Les résultats nous montrent que les méthodes d’optimisation métaheuristique sont plus efficaces sur des big data. Elles ont permis de diminuer d’environ 30% le temps nécessaire pour retrouver un bon modèle. En plus, le pipeline se présente comme un outil qui permet au personnel expert ou non de passer moins de temps pour le prétraitement. Le pipeline applique de façon automatisé différentes techniques de prétraitement et propose celui qui convient.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en