Como compartir grandes Datasets entre procesos sin perder la salud mental

YouTube

Description

Juan Francisco Huete Verdejo nos presenta "Como compartir grandes Datasets entre procesos sin perder la salud mental".

Resumen: Cuando hablamos de datasets grandes y procesos que pueden ejecutar de forma paralela quizás no lo sabemos pero tenemos un buen reto por delante. Para compartir estos datasets a un proceso de python, incluso de celery o airflow, generalmente tendremos que pasar por pickle o escribir en csv y esto nos va a consumir mucho tiempo. Tanto que realmente no va a merecer la pena la paralelización de procesos. Pero existen alternativas con distintos enfoques. En esta charla se va a exponer como resolver este problema según la complejidad, viendo tecnologías como redis para datasets pequeños, pyarrow y plasma para datasets un poco más grandes y por último pondremos toda la carne en el asador con Vaex en un file system HDFS utilizando formato parquet.

--- La novena edición de la PyConES se celebra como un evento en línea y totalmente gratuito durante los días 2 y 3 de Octubre de 2021. Web: https://2021.es.pycon.org Agenda: https://2021.es.pycon.org/#schedule

PyVideo

Como compartir grandes Datasets entre procesos sin perder la salud mental

Description

Details