L’algorithme FP-Growth – Les bases (1/3)
Nous avons vu que l’algorithme Apriori effectue plusieurs passes (scans) de la base de données. Ceci peut être très pénalisant lorsqu’il s’agit de données volumineuses.
Nous avons vu que l’algorithme Apriori effectue plusieurs passes (scans) de la base de données. Ceci peut être très pénalisant lorsqu’il s’agit de données volumineuses.
Ce papier présente les premiers éléments de définition d’un algorithme permettant de déterminer le nombre optimal de machines virtuelles (VM – Virtual Machines) lors de l’exécution des applications de fouille de données dans un environnement Cloud.
Ceci est la deuxième partie de l’article autour de MapReduce. La première partie peut être consultée ici.
MapReduce est un modèle de calcul distribué sur de gros volumes de données. Il s’agit d’un modèle de programmation parallèle dont les fonctions Map et Reduce sont inspirées du langage fonctionnel Lisp.
Au cours du séminaire de Recherche Informatique qui a eu lieu le 17 mars 2011 à l’université de Cergy-Pontoise, j’ai présenté le model de programmation MapReduce.
Définitions : L’algorithme A-priori1 est un algorithme d’exploration de données conçu en 1994, par Rakesh Agrawal et Ramakrishnan Sikrant, dans le domaine de l’apprentissage des règles d’association. Il sert à reconnaître des propriétés qui reviennent fréquemment dans un ensemble de données et d’en déduire une catégorisation. A-Priori détermine les règles d’association présentes dans un jeu […]