Mostra totes les entrades de Guillermo Nasarre

El making of dels expedients d’Educació

La base de dades dels expedientes de l’Arxiu del Ministeri d’Educació que incorporàrem a ihr.world és útil per a l’objectiu pel que fou creada: trobar dins l’Arxiu l’expedient sol·licitat entre més de mig milió. Han calgut molts anys de feina per fer-ho possible. 

Hem volgut calcular el temps necessari per teclejar la informació que conté. Els casi 30 milions de caràcters que la conformen suposen un mínim de temps de 340 dies laborals teclejant a un ritme de 36 paraules per minut, la velocitat mitjana per accedir a un lloc a l’Administració Pública que requereixi d’aquest tipus de feina. És a dir, només introduir les dades hagués requerit més d’un any de treball. No estem tenint en compte la tasca del trasllat dels expedientes per la seva consulta i laboriosa descripció. La feina amb aquesta documentació històrica es va dur a terme de forma adicional al treball diari de l’Arxiu.

De la mateixa manera que un registre fa referència a una persona -i això mai ho oblidem-, qui introdueix cada registre des d’un arxiu també ho és, i totes les persones podem cometre errors.

Netejar les dades ens permet analitzar-les i extreure’n noves conclusions. A ihr.world assignem gènere a cadascun dels registres, tot i que aquesta feina no es fa visible a la base de dades.

Per tal d’assignar gènere a cadascun dels noms hem utilitzat una base de dades d’ús intern, elaborada per la Carla Ymbern amb dades de l’Instituto Nacional de Estadística (INE) i l’Institut Català d’Estadística (IDESCAT). Això ens permet concloure que és molt superior el percentatge d’homes amb un expedient de titulació, mentre que el nombre d’expedients de depuració a homes i dones es paritari.

Percentatge d’expedients per gènere

La descripció del següent treball de neteja de les dades no té com a objectiu la crítica, sino explicar una part de l’activitat de ihr.world amb els conjunts de dades que integrem a la base de dades centralitzada de la Guerra Civil i el franquisme.

El nombre de registres era inicialment de 565.218, i en acabar hi havia 562.298. S’eliminaren gairebé 3.000 perquè es detectà que eren duplicats. Ningú seria capaç de crear una base de dades uniforme. La tecnología avança ràpidament i els criteris poden canviar, així com les persones que dirigeixen el treball i les que el duen a terme.

Errors tipogràfics que no tenen importància en altres contexts cobren rellevància en el cas d’una cerca a una base de dades amb tants de registres. Per exemple, existíen noms amb caràcteres imposibles, com números o símbols diferents al guió o l’apòstrof, o bé espais i signes de puntuació addicionals. També hi havia paraules incompletes o escrites incorrectament.

Es varen reemplaçar expressions com  “Mª” o “Antº” per María o Antonio, tot i que per ambigüitat no sempre fou possible. Per exemple  “Fº” tant podia ser “Fernando” com “Francisco”, entre d’altres, així que s’optà per transformar-lo a “F.” 

Els sistemes que ens faciliten la neteja de dades han de rebre instruccions molt concretes. Per exemple:

  • Tots els apòstrofs han de tenir caràcters alfabètics tant abans com després.
  • Tots els punts dins un nom han d’anar darrera de majúscula i seguits d’un espai.
  • No hi pot haver majúscules a l’interior d’una paraula.

Asimismo, en el campo de nombres y apellidos, no puede haber ni dígitos, ni interrogantes ni guiones sueltos para indicar que “no consta”,  ni espacios extra en blanco, porque esto dificulta la búsqueda. 

Igualment, en el camp de noms i cognoms no hi poden haver dígits, interrogants o guions aïllats para indicar “no consta”,  ni espais en blanc addicionals, perquè això dificulta la cerca. 

Nom i cognoms amb major número d’expedients

Núm totalDepuracióTitulació
josegarcia garcia33231
manuelfernandez garcia27423
josesanchez garcia25223
josemartinez martinez25124
franciscogarcia garcia25223
maria del carmengarcia garcia21021
maria del carmengarcia fernandez16016
josefagarcia garcia14212
maria del carmenperez garcia11011
maria de los angelesgarcia garcia11110

Utilitzarem l’existència de la sèrie de caracteres “depura” a Tipo de expediente i Especialidad per a separar les dades del Ministeri d’Educació en:

Hem creat un notebook per a explicar aquest procés de neteja i està disponible aquí.

IMATGE: Títol de Mestra de primera ensenyança elemental de Tomasa Sevilla Aranda (1913). Cedit per la seva besnéta Raquel Herrera, què estudia la depuració dels seus besavis al projecte difòs com #maestrosyrehenes a la xarxa social twitter.