Optimizando el procesamiento de cadenas de ADN con Pandas y Multiprocessing

Accepted

Demostrar como en uBiome bajamos los tiempos de procesamiento para cadenas de ADN usando Pandas + Multiprocessing


Type: Charla estandard, 25 minutos

Level: Medium

Speakers: Daniel Espinoza

Speakers Bio: Data Engineer @ uBiome

Time: 17:00 - 17:30 - 11/24/2018

Room: C - J.P. Morgan

Labels: pandas multiprocessing microbioma pipelines optimización big data data engineer

Description

El objetivo de la charla es presentar cómo se optimizo el tiempo de procesamiento del viejo pipeline usando la dupla de Pandas con Multiprocessing. A su vez, relatar también como herramientas de big data no siempre calzan con volúmenes medios de datos, como Dask.