Summary
[EuroPython 2011] Simone Leo - 23 June 2011 in "Track Italiana Big Mac "
Description
Hadoop è la principale implementazione open source di MapReduce, il paradigma di calcolo distribuito su larga scala di Google. L'API nativa di Hadoop è in Java e le opzioni built-in per la programmazione in Python - Streaming e Jython - presentano diversi inconvenienti: la prima consente di accedere solo a un piccolo sottoinsieme delle funzionalità di Hadoop, mentre la seconda ha tutte le limitazioni di Jython rispetto a CPython.
Pydoop è un'API per Hadoop che rende disponibile buona parte delle funzionalità di Hadoop al programmatore Python, consentendo lo sviluppo in CPython. I suoi moduli di base sono wrapper Boost.Python per l'interfaccia C/C++ di Hadoop.
Il talk consiste in un tutorial su MapReduce/Hadoop e in una presentazione dell'API Pydoop, con l'obiettivo principale di avvicinare le community di Hadoop e Python. Può essere utile, anche se non strettamente necessaria, una conoscenza di base della programmazione distribuita.