Bueno, brillante y barato. Éxito en Aplicaciones LLM

Aceptada

Abordo el caos evaluativo en proyectos de IA: el 95% de los pilotos de IA generativa fracasan (MIT) y el 40% de los agentes serán cancelados (Gartner). Spoiler: no tenemos control. Evaluar LLMs es difícil: son impredecibles, con fallos sutiles y respuestas múltiples válidas. La solución? Buenas prácticas: Langfuse para observabilidad (trazas, monitoreo, gestión de prompts) y DeepEval para pruebas unitarias tipo PyTest, métricas basadas en modelos y detección de fallos. Conclusión: sin evaluación sistemática, estás adivinando. Y si no mides, no mejoras… solo sufres.


Tipo: Charla estandard, 25 minutos

Nivel: Medio

Disertantes: María Andrea Vignau

Biografiá del Disertante: Ingeniera en Sistemas de Información y senior Python engineer con más de 20 años de experiencia. Especializada en arquitecturas escalables, ha trabajado con tecnologías como FastAPI, Flask, Django, AWS (Lambda, S3, EC2), Docker y microservicios, optimizando sistemas de alto rendimiento en empresas como Turing, Celara y ShipHero. Domina bases de datos relacionales y no relacionales (PostgreSQL, MySQL, MongoDB) y buenas prácticas de desarrollo con PyTest, CI/CD y GitLab Actions. Además, posee experiencia en análisis forense digital, aplicando herramientas como Autopsy y Cellebrite UFED. Como speaker internacional, ha impartido charlas técnicas en eventos como PyCon US, EuroPython y NotPinkConf, abordando temas como SQLAlchemy, testing con mocks y desarrollo backend. Organizadora de comunidades tecnológicas (PyDay NEA, AguaraTech), es también contribuidora activa en proyectos open source y apasionada por la mentoría y la divulgación técnica. Su perfil combina profundidad técnica, liderazgo en desarrollo backend y compromiso con la comunidad global de software.

Horario: 15:45 - 16:15 - 29/11/2025

Sala: AUDITORIO

Etiquetas/Tags: ai testing benchmarking

Descripción completa

Evaluar LLMs es como intentar predecir el clima: impredecible, lleno de variables y, a veces, te mojas. El 40% de los proyectos de IA agéntica serán cancelados para 2027 (Gartner lo dice, no nosotros), y el 95% de los pilotos de IA generativa están fracasando. ¿El motivo? No tenemos ni idea de qué pasa en producción. Un cambio inocente en un prompt puede desencadenar una catástrofe en cadena. ¿Tu pipeline RAG funciona? ¿O solo está fingiendo? Para triunfar en este caos, necesitas tres pilares: calidad de evaluación, depuración y adaptabilidad. Y para eso, herramientas como Langfuse son tu mejor amigo. Piensa en Langfuse como el “GPS del flujo de tus LLMs”: traza cada llamada, cada recuperación, cada embedding, y te muestra si tu agente se perdió en el desierto del contexto o se quedó sin tokens (la gasolina de las IA). Luego entra DeepEval, el pytest pero para LLMs. Aquí haces pruebas unitarias de verdad: métricas basadas en referencia (¿se pareció a la salida ideal?), libres de referencia (¿el tono fue profesional o le contó un chiste inapropiado al CEO?) y hasta detección de vulnerabilidades. Puedes evaluar desde componentes individuales hasta flujos completos, todo con trazas en tiempo real. La clave es cerrar el ciclo: analizar fallos con Langfuse, mejorar prompts o modelos, y medir con DeepEval para que no rompas nada más. Si no puedes implementar cambios sin causar estragos, estás haciendo IA al estilo “ensayo-error-y-que-dios-se-apiade”. Pero si usas evaluaciones sistemáticas, observabilidad y pruebas automatizadas… entonces, felicitaciones: estás haciendo ingeniería, no adivinanza.