Optimizando el procesamiento de cadenas de ADN con Pandas y Multiprocessing
Aceptada
Demostrar como en uBiome bajamos los tiempos de procesamiento para cadenas de ADN usando Pandas + Multiprocessing
Tipo: Charla estandard, 25 minutos
Nivel: Medio
Disertantes: Daniel Espinoza
Biografiá del Disertante: Data Engineer @ uBiome
Horario: 17:00 - 17:30 - 24/11/2018
Sala: C - J.P. Morgan
Etiquetas/Tags: pandas multiprocessing microbioma pipelines optimización big data data engineer
Descripción completa
El objetivo de la charla es presentar cómo se optimizo el tiempo de procesamiento del viejo pipeline usando la dupla de Pandas con Multiprocessing. A su vez, relatar también como herramientas de big data no siempre calzan con volúmenes medios de datos, como Dask.