ESLWorks: Plataforma de Evaluación NLP y Suscripciones desde Cero
ESLWorks (operando como Opus) era una plataforma basada en chat que proporcionaba entrenamiento de inglés a trabajadores esenciales. Me uní en septiembre de 2019 como la primera contratación de ingeniería. Los fundadores tenían un concepto funcional (práctica de inglés conversacional entregada a través de plataformas de mensajería) pero no tenían evaluación automatizada, ni facturación por suscripción, y un proceso de calificación que era completamente manual.
Mi trabajo era construir la base técnica que permitiría escalar el producto más allá de lo que los evaluadores humanos podían manejar.
El problema
El núcleo de ESLWorks era una promesa: trabajadores esenciales (auxiliares de salud a domicilio, personal de almacén, empleados de servicio de alimentos) podían mejorar su inglés a través de práctica diaria en las apps de mensajería que ya usaban. El modelo era sólido. El cuello de botella era la calificación.
- Cada evaluación se calificaba a mano. Un instructor humano revisaba las respuestas de cada estudiante, las puntuaba y proporcionaba retroalimentación. Esto funcionaba con 50 estudiantes. No podía funcionar con 500.
- El registro era manual. Los nuevos estudiantes se inscribían a través de una combinación de formularios, correos electrónicos e hilos de mensajería. No había flujo de autoservicio ni onboarding automatizado.
- Sin infraestructura de suscripción. El modelo de negocio dependía de ingresos recurrentes de organizaciones que patrocinaban el entrenamiento de sus empleados. No había sistema de facturación, ni gestión de planes, ni seguimiento de uso.
Tech Stack
| Capa | Tecnología |
|---|---|
| Motor NLP | Pipeline NLP personalizado (evaluación basada en rúbricas) |
| Plataforma | Aplicación web full-stack |
| Integración | APIs de plataformas de mensajería |
| Facturación | Sistema personalizado de suscripción y facturación |
| Evaluación | Calificación automatizada con escalamiento a humanos |
Lo que construí
Motor de evaluación con NLP. Construí un sistema de calificación automatizado que analizaba las respuestas de los estudiantes en gramática, uso de vocabulario, estructura de oraciones y fluidez conversacional. El pipeline NLP puntuaba las respuestas contra rúbricas definidas por el equipo de instrucción, produciendo tanto una nota numérica como retroalimentación específica. El sistema manejaba la mayoría de las evaluaciones rutinarias automáticamente, escalando los casos ambiguos a instructores humanos.
Integración con plataformas de mensajería. Los estudiantes interactuaban con la plataforma a través de apps de mensajería, los canales que ya usaban a diario. Integré el motor de evaluación con estas plataformas para que las sesiones de práctica, evaluaciones y retroalimentación ocurrieran dentro de una sola interfaz familiar. Sin descargar apps. Sin nuevos logins que recordar.
Sistema de suscripción y facturación. Construí la infraestructura de suscripción end-to-end: creación de planes, inscripción, ciclos de facturación, seguimiento de uso y reportes para las organizaciones que patrocinaban el entrenamiento de sus trabajadores. Este era el motor de ingresos que hacía funcionar el modelo de negocio.
Flujo de onboarding de estudiantes. El registro de autoservicio reemplazó el proceso manual de correos y hojas de cálculo. Los nuevos estudiantes podían inscribirse, tomar una evaluación de ubicación, ser asignados al nivel apropiado y comenzar su primera sesión de práctica, todo sin intervención humana.
Resultados
| Métrica | Antes | Después |
|---|---|---|
| Carga de calificación manual | 100% calificada por humanos | -90% (automatizado) |
| Registros de estudiantes | Manual (días) | +80% (autoservicio, minutos) |
| Tiempo de instructores | Calificación rutinaria | Diseño curricular y coaching |
La reducción de 90% en calificación manual significó que el equipo de instrucción pudo pasar de puntuación rutinaria al trabajo que realmente requería experiencia humana: diseñar currículos, dar coaching a estudiantes con dificultades y desarrollar contenido nuevo. El sistema automatizado manejaba el volumen; los humanos manejaban los matices.
El aumento de 80% en registros fue el efecto compuesto de eliminar fricción del proceso de inscripción. Cuando registrarse toma 2 minutos en lugar de 2 días, más personas completan el proceso.
Aprendizajes
Como primera contratación de ingeniería, construyes todo. No existe el "eso no es responsabilidad de mi equipo." Evaluación, facturación, integraciones, infraestructura: todo era el alcance de una sola persona. Esto me obligó a tomar decisiones de priorización despiadadas. No podía construir el motor NLP perfecto y también construir un sistema de suscripción. Tenía que construir ambos lo suficientemente bien para que el negocio operara, e iterar desde ahí.
La mejor interfaz es ninguna interfaz nueva. Los trabajadores esenciales no descargan apps. No crean cuentas en plataformas web. Envían mensajes de texto. Construir sobre plataformas de mensajería significó encontrar a los usuarios donde ya estaban, eliminando la barrera de adopción por completo. Esta lección (reducir fricción construyendo dentro del comportamiento existente en lugar de pedir comportamiento nuevo) ha informado cada decisión de producto que he tomado desde entonces. Es el mismo principio detrás del enfoque WhatsApp-first de Arepa.AI para PyMEs de habla hispana.
NLP para evaluación no es NLP para conversación. El motor de evaluación necesitaba determinar si una respuesta demostraba habilidades lingüísticas específicas, no solo si era gramaticalmente correcta o semánticamente coherente. "She go to store yesterday" es gramaticalmente incorrecto pero demuestra vocabulario, marcadores temporales e intención comunicativa. El enfoque basado en rúbricas (medir contra objetivos instruccionales específicos) produjo mejores resultados pedagógicos que la puntuación gramatical genérica.
Trabaja Conmigo en Algo Similar
Si estás construyendo evaluación con IA, calificación automatizada, o pipelines NLP estructurados donde la precisión y la alineación con rúbricas importan más que la coherencia general, este trabajo aplica directamente al desafío. El mismo enfoque (rúbricas específicas de dominio, escalamiento automatizado a humanos y onboarding que reduce fricción) aplica a cualquier sistema donde "suficientemente bueno" no es un estándar aceptable.
Explorar Servicios de Consultoría de IA o enviar una consulta - respondo dentro de un día hábil.