Description
Juan Francisco Huete Verdejo nos presenta "Como compartir grandes Datasets entre procesos sin perder la salud mental".
Resumen: Cuando hablamos de datasets grandes y procesos que pueden ejecutar de forma paralela quizás no lo sabemos pero tenemos un buen reto por delante. Para compartir estos datasets a un proceso de python, incluso de celery o airflow, generalmente tendremos que pasar por pickle o escribir en csv y esto nos va a consumir mucho tiempo. Tanto que realmente no va a merecer la pena la paralelización de procesos. Pero existen alternativas con distintos enfoques. En esta charla se va a exponer como resolver este problema según la complejidad, viendo tecnologías como redis para datasets pequeños, pyarrow y plasma para datasets un poco más grandes y por último pondremos toda la carne en el asador con Vaex en un file system HDFS utilizando formato parquet.
--- La novena edición de la PyConES se celebra como un evento en línea y totalmente gratuito durante los días 2 y 3 de Octubre de 2021. Web: https://2021.es.pycon.org Agenda: https://2021.es.pycon.org/#schedule