La base de dades dels expedientes de l’Arxiu del Ministeri d’Educació que incorporàrem a ihr.world és útil per a l’objectiu pel que fou creada: trobar dins l’Arxiu l’expedient sol·licitat entre més de mig milió. Han calgut molts anys de feina per fer-ho possible.
Hem volgut calcular el temps necessari per teclejar la informació que conté. Els casi 30 milions de caràcters que la conformen suposen un mínim de temps de 340 dies laborals teclejant a un ritme de 36 paraules per minut, la velocitat mitjana per accedir a un lloc a l’Administració Pública que requereixi d’aquest tipus de feina. És a dir, només introduir les dades hagués requerit més d’un any de treball. No estem tenint en compte la tasca del trasllat dels expedientes per la seva consulta i laboriosa descripció. La feina amb aquesta documentació històrica es va dur a terme de forma adicional al treball diari de l’Arxiu.
De la mateixa manera que un registre fa referència a una persona -i això mai ho oblidem-, qui introdueix cada registre des d’un arxiu també ho és, i totes les persones podem cometre errors.
Netejar les dades ens permet analitzar-les i extreure’n noves conclusions. A ihr.world assignem gènere a cadascun dels registres, tot i que aquesta feina no es fa visible a la base de dades.
Per tal d’assignar gènere a cadascun dels noms hem utilitzat una base de dades d’ús intern, elaborada per la Carla Ymbern amb dades de l’Instituto Nacional de Estadística (INE) i l’Institut Català d’Estadística (IDESCAT). Això ens permet concloure que és molt superior el percentatge d’homes amb un expedient de titulació, mentre que el nombre d’expedients de depuració a homes i dones es paritari.
Percentatge d’expedients per gènere
La descripció del següent treball de neteja de les dades no té com a objectiu la crítica, sino explicar una part de l’activitat de ihr.world amb els conjunts de dades que integrem a la base de dades centralitzada de la Guerra Civil i el franquisme.
El nombre de registres era inicialment de 565.218, i en acabar hi havia 562.298. S’eliminaren gairebé 3.000 perquè es detectà que eren duplicats. Ningú seria capaç de crear una base de dades uniforme. La tecnología avança ràpidament i els criteris poden canviar, així com les persones que dirigeixen el treball i les que el duen a terme.
Errors tipogràfics que no tenen importància en altres contexts cobren rellevància en el cas d’una cerca a una base de dades amb tants de registres. Per exemple, existíen noms amb caràcteres imposibles, com números o símbols diferents al guió o l’apòstrof, o bé espais i signes de puntuació addicionals. També hi havia paraules incompletes o escrites incorrectament.
Es varen reemplaçar expressions com “Mª” o “Antº” per María o Antonio, tot i que per ambigüitat no sempre fou possible. Per exemple “Fº” tant podia ser “Fernando” com “Francisco”, entre d’altres, així que s’optà per transformar-lo a “F.”
Els sistemes que ens faciliten la neteja de dades han de rebre instruccions molt concretes. Per exemple:
- Tots els apòstrofs han de tenir caràcters alfabètics tant abans com després.
- Tots els punts dins un nom han d’anar darrera de majúscula i seguits d’un espai.
- No hi pot haver majúscules a l’interior d’una paraula.
Asimismo, en el campo de nombres y apellidos, no puede haber ni dígitos, ni interrogantes ni guiones sueltos para indicar que “no consta”, ni espacios extra en blanco, porque esto dificulta la búsqueda.
Igualment, en el camp de noms i cognoms no hi poden haver dígits, interrogants o guions aïllats para indicar “no consta”, ni espais en blanc addicionals, perquè això dificulta la cerca.
Nom i cognoms amb major número d’expedients
Núm total | Depuració | Titulació | ||
jose | garcia garcia | 33 | 2 | 31 |
manuel | fernandez garcia | 27 | 4 | 23 |
jose | sanchez garcia | 25 | 2 | 23 |
jose | martinez martinez | 25 | 1 | 24 |
francisco | garcia garcia | 25 | 2 | 23 |
maria del carmen | garcia garcia | 21 | 0 | 21 |
maria del carmen | garcia fernandez | 16 | 0 | 16 |
josefa | garcia garcia | 14 | 2 | 12 |
maria del carmen | perez garcia | 11 | 0 | 11 |
maria de los angeles | garcia garcia | 11 | 1 | 10 |
Utilitzarem l’existència de la sèrie de caracteres “depura” a Tipo de expediente i Especialidad per a separar les dades del Ministeri d’Educació en:
- Expedientes de depuración de maestros/as, amb 49.045 expedients.
- Expedientes de titulación del Ministerio de Educación, amb 513.253 expedients de Títols d’Escoles Especials i de Títols de mestres.
Hem creat un notebook per a explicar aquest procés de neteja i està disponible aquí.
IMATGE: Títol de Mestra de primera ensenyança elemental de Tomasa Sevilla Aranda (1913). Cedit per la seva besnéta Raquel Herrera, què estudia la depuració dels seus besavis al projecte difòs com #maestrosyrehenes a la xarxa social twitter.