Procesamiento de datos con PySpark + SnowFlake

Aceptada

Data Engineer at Enlyft - Yo trabajo en un DataPlatform que colecta y transforma millones de records con PySpark + Databricks + Snowflake.


Tipo: Charla estandard, 25 minutos

Nivel: Medio

Disertantes: Humberto Rodríguez

Biografiá del Disertante: https://www.linkedin.com/in/zilohumberto/

Horario: 13:00 - 13:30 - 28/10/2021

Sala: Main

Etiquetas/Tags: pyspark snowflake airflow python databricks

Descripción completa

La idea es repasar mi experiencia de 6 meses trabajando con PySpark - Comandos básicos y ventajas. La verdad ha sido bastante más fácil de lo que esperaba y quiero que los que vean mi presentación sientan lo mismo. Motivar a trabajar con esta herramienta que la verdad esta muy buena y soluciona grandes problemas. Detalle los puntos que voy a cubrir: 1. Pandas vs PySpark ventajas de uno y del otro 2. Cuando usar PySpark 3. Comandos básicos de PySpark con ejemplos - Leer datos de un csv y de una tabla de snowflake - Escribir datos en un csv y a una tabla snowflake - Filter, query, UDF, Renombrar columns, Counts, Display 4. Configurar y ejecutar un cluster Databricks con airflow 5. Caso de uso en la vida real (por definir) sería un caso que englobe todos los puntos anteriores.