Ce papier présente les premiers éléments de définition d’un algorithme permettant de déterminer le nombre optimal de machines virtuelles (VM – Virtual Machines) lors de l’exécution des applications de fouille de données dans un environnement Cloud.
L’efficacité de traitement des problèmes de fouille de données requiert d’obtenir au préalable un partitionnement intelligent de données par clustering de manière à effectuer le plus indépendamment que possible les traitements des fragments de données à cohérence sémantique forte.
Nous pensons que l’exécution sur les données distribuées dans le Cloud d’une variante parallèle de l’algorithme de clustering h-means adaptée en phase de présélection du processus PMML [18] pour (Predictive Model Markup Language) permettrait d’assurer un partitionnement optimal des données et de déterminer un nombre de VM optimal avant l’exécution de l’application.
Mots-clés : Cloud computing, h-means, classification, parallélisme dans des grilles, partitionnement de données, fouille de données.
La totalité de l’article au format pdf : Application de K-Means à la définition du nombre de VM optimal dans un Cloud.
La présentation associée lors des présentations EGC 2012 : Presentation Khaled TANNIR KCloud- Bordeaux 2012