Ingestum: Tu ingesta sana de datos con Python
Accepted
Ingestum (pronunciado "ingest’em") [4], es una librería de código abierto, escrita puramente en Python, que simplifica el proceso de extracción y transformación de múltiples fuentes de datos. El objetivo de Ingestum es proveer una interfaz unificada que permita, a expertos en ciencia datos y procesamiento del lenguaje natural, abstraerse de los problemas de ingestión y enfocarse en los problemas que verdaderamente importan. [4] https://sorcero.gitlab.io/community/ingestum
Type: Charla estandard, 25 minutos
Level: Medium
Speakers: Ernestina Plate, Martin Abente Lahaye
Speakers Bio: Ernestina es estudiante de tercer año de Ingeniería Informática [1]. Fue medallista de oro de la Olimpiada Nacional de Matemática de Paraguay, y participó en la Olimpiada Internacional de Matemática y la Olimpiada Iberoamericana de Matemática. Mentora en talleres de programación con Python. Actualmente, es desarrolladora de Ingestum en Sorcero [2]. Martín es miembro de la Fundación GNOME y de Sugar Labs [3], donde contribuye con el desarrollo de aplicaciones de escritorio para educación y privacidad. Previamente, fue Ingeniero en Software para One Laptop Per Child, Líder del desarrollo del escritorio Sugar para Linux, Mentor en los programas Summer of Code y Code-in de Google, Ingeniero en Software para el sistema operativo Endless, entre otras cosas. Actualmente, lidera el desarrollo de Ingestum en Sorcero. [1] https://www.linkedin.com/in/ernestinaplate [2] https://www.sorcero.com [3] https://www.linkedin.com/in/tchx84
Time: 17:00 - 17:30 - 10/27/2021
Room: Main
Labels: código abierto ciencia de datos procesamiento del lenguaje natural ingestión
Description
Todos conocemos la gran variedad de formatos utilizados hoy en día: el predominante Adobe PDF (una extensión de PostScript), los formatos Microsoft Office tan populares (Word, Excel, PowerPoint), páginas web HTML, archivos XML (que, aún estando bien estructurados, contienen etiquetas arbitrarias por diseño), entre decenas más. El problema está en que la gran mayoría de estos formatos no fueron diseñados para facilitar la extracción de texto, o más precisamente, de texto estructurado. Y, aunque todo el mundo está de acuerdo en que la inteligencia artificial puede transformar el texto procesado en conocimiento a grandes escalas, todavía no fuimos capaces de resolver el problema de cómo lograr alimentar este texto a los modelos de inteligencia artificial de forma robusta. (¡El primer paso, y uno fundamental!) Lógicamente, uno podría escribir un script aislado para, por ejemplo, extraer el texto de PDFs similares (facturas de un mismo proveedor), o de una página HTML, o incluso de redes sociales. Pero eso es ineficiente y no escala. ¿Qué ocurriría si existiese una forma de modelar el proceso de ingestión tal que nuevos modelos puedan ser agregados y los existentes puedan ser actualizados con gran facilidad? Mejor aún, ¿qué pasaría si dicho framework estuviese disponible para todo aquel que necesite extraer texto de documentos desestructurados? Con esto en mente, Ingestum fue diseñado para enfrentar tres desafíos: * Facilitar la escritura de scripts para extraer contenido desestructurado de fuentes y formatos arbitrarios * Proveer un framework para extraer contenido de el diverso universo de formatos fuente existente * Permitir la integración con scripts y servicios de Python con distintos niveles de granularidad.