Todas las entradas de: Guillermo Nasarre

El making of de los expedientes de Educación

La base de datos de los expedientes del Archivo del Ministerio de Educación que incorporamos a ihr.world es útil para el objetivo por el que se creó: encontrar en el Archivo el expediente solicitado entre más de medio millón. El Archivo pasó años elaborándola.

Hemos querido calcular cuánto tiempo se tardaría únicamente en teclear la información que contiene.  Los casi 30 millones de caracteres que la conforman suponen un mínimo de tiempo de 340 días laborales tecleando a un ritmo de 36 palabras por minuto, la velocidad media para acceder a un puesto de la Administración Pública que implique esta tarea. Es decir, solo introducir los datos habría ocupado más de un año de trabajo. No estamos teniendo en cuenta la tarea de traslado de los expedientes para su consulta y laboriosa descripción. El trabajo con esta documentación histórica se llevó a cabo de forma adicional al trabajo diario del Archivo.

Igual que cada registro se refiere a una persona -y nunca olvidamos esto-, quien introduce cada registro desde un archivo también lo es, y todas las personas podemos cometer errores. 

Limpiar los datos nos permite analizarlos y extraer nuevas conclusiones. En ihr.world asignamos género a cada uno de los registros, aunque este trabajo no es visible en la base de datos. 

Para asignar género a cada uno de los nombres, hemos utilizado una base de datos de uso interno, elaborada por Carla Ymbern con datos del Instituto Nacional de Estadística (INE) y el Institut Català d’Estadística (IDESCAT). Esto nos permite concluir que es muy superior el porcentaje de hombres con un expediente de titulación, mientras que el número de expedientes de depuración a hombres y mujeres es paritario.

Porcentaje de expedientes por género

La descripción del siguiente trabajo de limpieza de los datos no tiene como objetivo la crítica, sino explicar una parte de la actividad de ihr.world con los conjuntos de datos que integramos en la base de datos centralizada de la Guerra Civil y el franquismo. 

El número de registros era inicialmente 565.218, y acabamos con 562.298. Se eliminaron casi 3.000 porque se detectó que eran duplicados. Nadie sería capaz de crear una base de datos uniforme  La tecnología avanza rápidamente y los criterios pueden cambiar, así como las personas que dirigen el trabajo y quienes lo llevan a cabo.

Errores tipográficos que no tienen importancia en otros contextos cobran importancia en el caso de una búsqueda en una base de datos con tantos registros.  Por ejemplo, existían nombres con caracteres imposibles, como números o símbolos diferentes al guión o el apóstrofe, o bien espacios y signos de puntuación adicionales.  También había palabras incompletas o escritas incorrectamente. 

Se reemplazaron expresiones como  “Mª” o “Antº” por María o Antonio, aunque a veces no fue posible por su ambigüedad. Por ejemplo  “Fº” podría ser “Fernando” o “Francisco”, incluso otros, y se optó por transformarlo en “F.” 

Las máquinas que nos ayudan a limpiar los datos tenían que recibir instrucciones claras. Por ejemplo, 

  • Todos los apóstrofes deben tener caracteres alfabéticos antes y después. 
  • Todos los puntos deben ir precedidos por una mayúscula y seguidos de un espacio. 
  • No puede haber mayúsculas en el interior de una palabra. 

Asimismo, en el campo de nombres y apellidos, no puede haber ni dígitos, ni interrogantes ni guiones sueltos para indicar que “no consta”,  ni espacios extra en blanco, porque esto dificulta la búsqueda. 

Nombre y apellidos con mayor número de expedientes

Núm totalDepuraciónTitulación
josegarcia garcia33231
manuelfernandez garcia27423
josesanchez garcia25223
josemartinez martinez25124
franciscogarcia garcia25223
maria del carmengarcia garcia21021
maria del carmengarcia fernandez16016
josefagarcia garcia14212
maria del carmenperez garcia11011
maria de los angelesgarcia garcia11110

Utilizamos la existencia de la serie de caracteres “depura” en Tipo de expediente y Especialidad para separar los datos del Ministerio de Educación en

Hemos creado un notebook para explicar este proceso de limpieza y está disponible aquí.

IMAGEN: Título de Maestra de primera enseñanza elemental de Tomasa Sevilla Aranda (1913). Cedido por su bisniesta Raquel Herrera, quien estudia la depuración de sus bisabuelos en el proyecto difundido como #maestrosyrehenes en la red social twitter.