Procesamiento de datos con PySpark + SnowFlake
Accepted
Data Engineer at Enlyft - Yo trabajo en un DataPlatform que colecta y transforma millones de records con PySpark + Databricks + Snowflake.
Type: Charla estandard, 25 minutos
Level: Medium
Speakers: Humberto Rodríguez
Speakers Bio: https://www.linkedin.com/in/zilohumberto/
Time: 13:00 - 13:30 - 10/28/2021
Room: Main
Labels: pyspark snowflake airflow python databricks
Description
La idea es repasar mi experiencia de 6 meses trabajando con PySpark - Comandos básicos y ventajas. La verdad ha sido bastante más fácil de lo que esperaba y quiero que los que vean mi presentación sientan lo mismo. Motivar a trabajar con esta herramienta que la verdad esta muy buena y soluciona grandes problemas. Detalle los puntos que voy a cubrir: 1. Pandas vs PySpark ventajas de uno y del otro 2. Cuando usar PySpark 3. Comandos básicos de PySpark con ejemplos - Leer datos de un csv y de una tabla de snowflake - Escribir datos en un csv y a una tabla snowflake - Filter, query, UDF, Renombrar columns, Counts, Display 4. Configurar y ejecutar un cluster Databricks con airflow 5. Caso de uso en la vida real (por definir) sería un caso que englobe todos los puntos anteriores.