Description
NumPy, Pandas y Matplotlib, entre otros, han revolucionado el procesamiento, manipulación y visualización de datos en Python. ¿Pero, qué hacemos cuando nuestro dataset es demasiado grande para caber en la memoria de nuestro ordenador? ¿Usar una base de datos como Postgres o MongoDB, almacenar en disco con PyTables o BColz, o usar sistemas distribuidos como Hadoop o Spark?Cada una de estas opciones tiene sus ventajas e inconvenientes. Aprender cada una de estas herramientas consume tiempo que podría estar empleándose en el análisis de los datos en sí. La librería Blaze ofrece una interfaz común para una variedad de backends y abstracciones para el procesamiento y la migración de datos.
Por otro lado, ¿cómo visualizamos nuestro dataset cuando tenemos más individuos que píxeles tiene nuestra pantalla? Bokeh es una librería para la visualización interactiva de datos en el navegador al estilo de D3.js en Python, que incluye la funcionalidad de Abstract Rendering para estos casos.
La charla consistirá en una introducción al análisis y visualización de large datasets, cómo las librerías Blaze and Bokeh nos pueden facilitar el trabajo y un ejemplo práctico con un dataset de tweets.