Procesamiento de datos con PySpark + SnowFlake
Aceptada
Data Engineer at Enlyft - Yo trabajo en un DataPlatform que colecta y transforma millones de records con PySpark + Databricks + Snowflake.
Tipo: Charla estandard, 25 minutos
Nivel: Medio
Disertantes: Humberto Rodríguez
Biografiá del Disertante: https://www.linkedin.com/in/zilohumberto/
Horario: 13:00 - 13:30 - 28/10/2021
Sala: Main
Etiquetas/Tags: pyspark snowflake airflow python databricks
Descripción completa
La idea es repasar mi experiencia de 6 meses trabajando con PySpark - Comandos básicos y ventajas. La verdad ha sido bastante más fácil de lo que esperaba y quiero que los que vean mi presentación sientan lo mismo. Motivar a trabajar con esta herramienta que la verdad esta muy buena y soluciona grandes problemas. Detalle los puntos que voy a cubrir: 1. Pandas vs PySpark ventajas de uno y del otro 2. Cuando usar PySpark 3. Comandos básicos de PySpark con ejemplos - Leer datos de un csv y de una tabla de snowflake - Escribir datos en un csv y a una tabla snowflake - Filter, query, UDF, Renombrar columns, Counts, Display 4. Configurar y ejecutar un cluster Databricks con airflow 5. Caso de uso en la vida real (por definir) sería un caso que englobe todos los puntos anteriores.