Big data aplicado a los apellidos catalanes y las elecciones 21-d

Por Geojuanjo
Este fin de semana, me ha dado por darle vueltas a las listas electorales de los partidos que se presentan a las elecciones de Catalunya del 21-D, mi objetivo era aplicar algo así como un BIG DATA casero.
El caso es que he cogido los datos que publica el IDESCAT (Institut d’Estadística de Catalunya) en referencia a los apellidos catalanes de la provincia de Barcelona, estos datos los tenéis aquí. He determinado tres familias de apellidos:
  •        Los 6 primeros apellidos más habituales, los cuales representan el 10% de la población de la provincia de Barcelona.
  •         Los 46 primeros apellidos más habituales, los cuales representan el 25% de la población de la provincia de Barcelona .
  •         Los 489 primeros apellidos más habituales, los cuales representan el 50% de la población de la provincia de Barcelona.

Con estos datos he pasado a analizar las listas electorales de los partidos políticos que se presentan a las elecciones catalanas y tienen mayor probabilidad de gobernar, concretamente Junts per Catalunya, PSC, ERC, Ciutadans, CUP, Els Comuns y el Partido Animalista. Al final de esta entrada explicaré porqué he analizado también el Partido Animalista.
El objeto de este análisis ha sido estudiar la “transversalidad” de los partidos, es decir, quiero ver hasta que punto las listas electorales de estos partidos reflejan la realidad de la población catalana. 

Mi teoría es que si los primeros apellidos de los políticos que salen en las listas por la provincia de Barcelona, en total 85 por partido, tienen una distribución razonablemente similar a la distribución de los primeros apellidos de toda la población de la provincia de Barcelona, este hecho indicaría que dicho partido SÍ puede considerarse “ transversal”.
Por cierto, las listas las he obtenido directamente del DOGC (Diari Oficial de la Generalitat de Catalunya) aquí Para hacer este análisis únicamente he utilizado una hoja de EXCEL y los datos anteriores, los cuales son totalmente públicos, entiendo que esto os motivará a hacer las verificaciones pertinentes.
Dicho lo anterior os pongo varias figuras que resumen los resultados obtenidos.

En la siguiente figura se representa el porcentaje de primeros apellidos para cada una de las listas electorales, en la figura he puesto las líneas correspondientes a las familias del 10%, 25% y 50%. La figura anterior ya a de permitir tener una idea de la “transversalidad” de los partidos, pero para que quede más claro, calculo una variable resultado de restar el valor real de cada lista respecto a los valores 10, 25 y 50 que representan la población de la provincia de Barcelona. A este parámetro lo bautizo como COEFICIENTE DE DESAJUSTE.
Un coeficiente de desajuste bajo implicaría que la lista se ajusta a la distribución de apellidos de la provincia de Barcelona. Un coeficiente positivo implica que la lista se aleja de la distribución barcelonesa y sus partícipes tienen apellidos, digamos que menos habituales de lo normal. Un coeficiente negativo implica que la lista se aleja de la distribución barcelonesa y sus partícipes tienen apellidos digamos que más habituales de lo normal.
A modo de ADN abajo os pongo las gráficas comparadas para cada una de las listas analizadas, las columnas en rojo transparente son los parámetros 50, 25 y 10 que refleja la “normalidad” barcelonesa. En este punto indicaros que he analizado la lista del Partido Animalista, no tanto por pensar que tienen posibilidades reales de gobernar sino por asumir que para una lista de esta naturaleza parece lógico asumir una cierta transversalidad, curiosamente así ha sido.
Cada cual que saque sus conclusiones, yo he sacado las mías.
Aquí os dejo una entrada de GEOJUANJO con más ejemplos de mi enfermiza obsesión con los datos.

Los números de la crisis (1ª parte)

Siguiendo la entrada llegaréis a más entradas parecidas.
Un saludo y gracias por vuestro tiempo. juanjo