Contribute Media
A thank you to everyone who makes this possible: Read More

Comment faire pousser des forets aleatoires dans les nuages

Summary

Présentation de l'implémentation d'une méthode d'apprentissage statistique à la mode avec scikit-learn, IPython.parallel et des machines dans le cloud.

scikit-learn est une lib de Machine Learning écrite en Python. Son implémentation de l'algorithme des forets aléatoires a beaucoup de succès auprès des "Data Scientists" [1] qui participent aux compétitions de Machine Learning sur le site kaggle.com. Cette présentation sera l'occasion de présenter comment paralléliser la culture de telles forets grâce à un cluster de calcul provisionné dans le cloud.

Cette présentation sera l'occasion de rappeler les concepts de base du Machine Learning et de présenter rapidement les projets scikit-learn et IPython.

Nous nous intéresseront ensuite plus particulièrement à l'algorithme des random forests (ou plutôt de sa variante belge appelée Forests of Extremely Randomized Trees) et comment accélérer l'apprentissage de grandes forets grâce au module de calcul distribué du projet IPython et à un cluster de machines monté dans un cloud public tel que Amazon, Rackspace, Microsoft Azure ou Digital Ocean.

Si vous êtes sage vous aurez peut être droit à une démo live.

[1] un statisticien qui utilise un macbook air.

Details

Improve this page