Optimizando el procesamiento de cadenas de ADN con Pandas y Multiprocessing

Aceptada

Demostrar como en uBiome bajamos los tiempos de procesamiento para cadenas de ADN usando Pandas + Multiprocessing


Tipo: Charla estandard, 25 minutos

Nivel: Medio

Disertantes: Daniel Espinoza

Speakers Bio: Data Engineer @ uBiome

Horario: 17:00 - 17:30 - 24/11/2018

Sala: C - J.P. Morgan

Etiquetas/Tags: pandas multiprocessing microbioma pipelines optimización big data data engineer

Descripción completa

El objetivo de la charla es presentar cómo se optimizo el tiempo de procesamiento del viejo pipeline usando la dupla de Pandas con Multiprocessing. A su vez, relatar también como herramientas de big data no siempre calzan con volúmenes medios de datos, como Dask.