El principio de falsación y la IA
El caso del sistema Aurora nos sitúa ante una paradoja que Karl Popper habría reconocido inmediatamente: un algoritmo que promete objetividad científica pero que, bajo escrutinio riguroso, revela las mismas debilidades epistemológicas que Watson for Oncology. Con una precisión predictiva del 62% fuera de su conjunto de entrenamiento —apenas superior al azar—, Aurora encarna perfectamente el «overfitting institucional» que hemos analizado: un sistema que aprendió a hackear sus propias métricas de evaluación sin desarrollar una comprensión genuina del fenómeno que pretende predecir.

Dilema 4. El principio de falsación y la IA
Un sistema que aprendió a hackear sus propias métricas de evaluación sin desarrollar una comprensión genuina del fenómeno que pretende predecir
Sin embargo, la relevancia de este dilema trasciende lo meramente técnico. A diferencia de Watson, cuyos errores afectaban a pacientes individuales en contextos clínicos específicos, Aurora opera sobre una población vulnerable —estudiantes en formación— cuyas trayectorias vitales están siendo moldeadas por categorizaciones algorítmicas. El efecto Pigmalión que genera no es un fallo de software, sino una profecía autocumplida sistémica: las etiquetas del algoritmo modifican el comportamiento de docentes y estudiantes, validando retrospectivamente predicciones que eran estadísticamente débiles desde el origen.
Este caso nos obliga a confrontar la tensión más incómoda del capítulo: ¿qué hacemos cuando un sistema que fracasa los tests de falsación popperiana sigue produciendo algunos resultados positivos medibles? La reducción del 18% en el abandono escolar es real, pero ¿a qué precio? ¿Podemos justificar el uso de una herramienta pseudocientífica si genera beneficios parciales, o su falta de rigor epistemológico la convierte en éticamente insostenible independientemente de sus efectos?
El dilema que plantean las dos opciones —optimización falsacionista versus desmantelamiento total— reproduce el debate fundamental del capítulo entre rigor científico y pragmatismo urgente. La Opción A apuesta por la posibilidad de redención epistemológica: convertir un sistema pseudocientífico en uno genuinamente falsable mediante transparencia, humildad sobre sus límites y auditoría continua. La Opción B, en cambio, argumenta que cuando las apuestas son tan altas —el futuro de menores en situación vulnerable— ningún grado de sofisticación técnica justifica perpetuar un sistema cuyas bases científicas son fundamentalmente frágiles.
Lo que está en juego aquí no es solo el destino de un algoritmo educativo, sino nuestra capacidad colectiva como sociedad para distinguir entre herramientas que realmente comprenden la realidad y simulaciones estadísticas elocuentes que se desmoronan bajo presión. La pregunta popperiana es clara y brutal: ¿estamos dispuestos a someter nuestras intervenciones algorítmicas más ambiciosas a pruebas diseñadas para refutarlas, incluso cuando eso signifique renunciar a soluciones aparentemente eficientes? La respuesta que demos definirá si la inteligencia artificial será una aliada del conocimiento científico o su simulacro más peligroso.
El Sistema de Predicción de Éxito Académico “Aurora” es un algoritmo de aprendizaje automático implementado por el Ministerio de Educación de un país europeo para identificar de forma temprana a estudiantes en riesgo de abandono escolar. Utiliza datos históricos de rendimiento (calificaciones, asistencia), socioeconómicos (nivel educativo de los padres, barrio de residencia) y conductuales (participación en clase, uso de biblioteca digital) para asignar a cada estudiante una “puntuación de riesgo”. Su objetivo declarado es “optimizar los recursos de apoyo educativo y personalizar las intervenciones pedagógicas”.
Tras tres años de implementación piloto en 500 centros, los resultados presentan una dualidad alarmante:
- A favor:
- Reducción del 18% en la tasa de abandono escolar en los grupos identificados como de “alto riesgo” que recibieron intervención temprana.
- Mejora del 12% en las calificaciones promedio de matemáticas y lengua en estudiantes apoyados mediante tutorías asignadas por el sistema.
- En contra:
- Efecto Pigmalión algorítmico: El 40% de los docentes encuestados admitió reducir expectativas y atención sobre estudiantes etiquetados como “bajo riesgo”, asumiendo que “no necesitaban ayuda”.
- Profecía autocumplida: El 15% de los estudiantes catalogados como “alto riesgo” desarrollaron ansiedad performativa y desmotivación, internalizando la etiqueta del sistema.
- Sesgo estructural: El algoritmo mostró una correlación espuria entre “riesgo de abandono” y indicadores de pobreza (código postal, renta familiar), perpetuando estigmas sobre barrios desfavorecidos.
El detonante es un estudio independiente que revela que el Aurora tiene una precisión predictiva real de solo el 62% —apenas mejor que el azar— cuando se evalúa fuera de su conjunto de datos de entrenamiento. Una coalición de sindicatos de docentes y asociaciones de familias exige su retirada inmediata.
La Comisión Permanente de Política Educativa del Parlamento debe decidir el futuro del sistema.
Opción A: Optimización Popperiana con Falsación Integrada
Mantener Aurora pero rediseñarla bajo principios falsacionistas: incorporar tests adversarios continuos, especificar explícitamente sus límites de aplicabilidad (ej. “no válido para estudiantes inmigrantes de menos de 2 años en el sistema”), y etiquetar cada predicción con un intervalo de confianza.
- Pros: Aprovecha el potencial preventivo del sistema; introduce transparencia y humildad epistémica; permite mejorar iterativamente mediante falsación.
- Contras: No elimina el riesgo de estigmatización; la complejidad técnica puede hacer incomprensibles los intervalos de confianza para docentes y familias; requiere una inversión continua en auditoría.
Opción B: Sustitución por un Modelo de Apoyo Universal No Predictivo
Desmantelar Aurora y reasignar sus recursos a un programa de mentoría universal y refuerzo educativo para todos los estudiantes, independientemente de su “riesgo” calculado. Se basaría en el principio de equidad rawlsiana y evitaría por completo la categorización algorítmica.
- Pros: Elimina el riesgo de etiquetaje y sesgo algorítmico; fomenta una cultura educativa inclusiva; es más simple de implementar y entender.
- Contras: Menos eficiente en la asignación de recursos; podría no llegar a tiempo a estudiantes con necesidades invisibles no capturadas por datos; coste económico más alto a corto plazo.
El verdadero problema de Aurora no radica en su precisión del 62%, sino en algo más profundo: se desplegó como un oráculo hermético, no como una hipótesis abierta al cuestionamiento. Cuando un algoritmo emite veredictos sobre el futuro de estudiantes sin especificar en qué condiciones sus predicciones podrían ser falsas, no estamos ante ciencia, sino ante una nueva forma de dogmatismo tecnológico.
La Opción A tiene el mérito de incorporar el espíritu falsacionista: tests adversarios, intervalos de confianza, auditorías continuas. Convierte el sistema en una conjetura sometida a refutación permanente, no en una verdad revelada. Sin embargo, incluso un sistema como Aurora científicamente riguroso preserva un riesgo más sutil y peligroso: la creación de lo que Popper llamaría una “sociedad cerrada educativa”, donde el futuro de los estudiantes queda encadenado a una predicción algorítmica, por transparente que esta sea.
Popper no solo revolucionó la filosofía de la ciencia; también vivió el horror del totalitarismo y comprendió que las sociedades abiertas requieren mantener el futuro abierto. Cuando etiquetamos a un adolescente de 14 años como “alto riesgo” —aunque sea con intervalos de confianza del 95%—, no solo predecimos su trayectoria: la condicionamos. El propio acto de medir altera lo medido, especialmente cuando lo medido son seres humanos en formación cuya identidad aún está cristalizando.
Por eso propongo una tercera vía que reconcilia el rigor científico con la apertura existencial:
- Primero, mantener Aurora exclusivamente como herramienta de diagnóstico agregado para centros educativos, nunca para estudiantes individuales. Prohibir legalmente que docentes, familias o el propio estudiante accedan a puntuaciones de riesgo personalizadas. El algoritmo puede decirnos que un centro tiene un 40% de su alumnado en situación de vulnerabilidad, pero no puede señalar con el dedo a María, a Ahmed o a Lucas.
- Segundo, utilizar sus predicciones para asignar recursos entre centros, pero no dentro de ellos. Un colegio con mayor concentración de indicadores de riesgo recibiría más profesores de apoyo, psicopedagogos o programas de refuerzo. Sin embargo, la distribución de ese apoyo dentro del aula se decidiría mediante criterio pedagógico humano, contextual y relacional. Los docentes observarían, conversarían, intuirían. El algoritmo asigna medios, pero no destinos.
- Tercero, institucionalizar una “auditoría de falsación” semestral independiente. Equipos mixtos —pedagogos, sociólogos, representantes estudiantiles— probarían activamente las predicciones de Aurora buscando errores sistemáticos, sesgos ocultos y correlaciones espurias. Los resultados se publicarían de forma abierta, incluyendo los fallos. No como un ejercicio de transparencia cosmética, sino como un compromiso institucional con la posibilidad de estar equivocados.
Esta solución reconoce la utilidad de la predicción estadística para la gestión de recursos colectivos, pero blinda la apertura del futuro individual de cada estudiante. Convierte el algoritmo en una hipótesis refutable sobre necesidades agregadas, no en un veredicto inapelable sobre destinos personales.
Al final, honrar el legado de Popper en la era de la inteligencia artificial significa algo más que aplicar el método científico a los algoritmos. Significa recordar que toda predicción, por sofisticada que sea, es provisional. Que nuestras mejores teorías —y por extensión, nuestros mejores modelos— pueden estar equivocadas. Y que la libertad humana para sorprendernos, para contradecir las expectativas, para convertirnos en alguien que ningún dato histórico anticipó, debe estar siempre por encima de cualquier predicción estadística, por rigurosa que esta sea.
Los algoritmos pueden ayudarnos a distribuir recursos con más justicia, pero nunca deben tener la última palabra sobre quién puede llegar a ser una persona. Esa pregunta, en una sociedad abierta, debe permanecer siempre sin respuesta definitiva.