dimecres, 16 desembre de 2009

Com expliquem la participació (II)

Sembla clar que el factor principal que explica la participació en les consultes sobiranistes del passat diumenge és la dimensió de la població, i més concretament, el logaritme d'aquesta. Ara bé, tal i com ha quedat pal·lès en els moltíssims comentaris que hem rebut en el darrer dels apunts al blog (moltes gràcies a tots, de veritat!) hi ha molts matisos que cal tenir en compte al moment d'explicar la participació. Sense entrar en un anàlisi qualitatiu dels resultats -que és necessari igualment-, pretenem en aquesta segona part de l'explicació dels resultats, continuar l'anàlisi amb la incorporació de noves variables.

Mitjançant igualment el procediment de la regressió lineal pel mètode d'OLS hem anat incorporant, conjuntament amb el professor de la Universitat Autònoma de Barcelona Jordi Muñoz, noves variables que poden explicar la participació en les consultes. A continuació en presentem algunes, a l'espera de poder treure en un futur ben pròxim un article d'anàlisi una mica més profund sobre les consultes. Totes les variables que es presenten són significatives al 99%. Vegem-les:

1. Dimensió de la població: aquest continua essent un mecanisme molt potent per explicar la participació. Malgrat que difícil d'interpretar, direm que per cada augment marginar en el logaritme de la població, la participació decreix en més de dos punts.

2. Vots a ERC: el partit que és capaç d'explicar un major percentatge de la participació. Sembla ben clar que Esquerra va mobilitzar bastant els seus votants.

3. Vots a CiU: Té menys capacitat per explicar la participació (la meitat dels vots a ERC), si bé continua essent un mecanisme molt potent.

4. Vots a ICV: sorprenentment també explica la participació si bé en menor mesura que els anteriors partits. Es pot explicar probablement per un major grau de catalanisme dels votants del partit ecosocialista en els pobles amb tradició nacionalista. En altres ciutats del país probablement aquesta variable cauria.

5. Estrangers (log): lamentablement a mesura que augmenta el percentatge d'estrangers, la participació cau bastant en picat. Per cada augment marginal del logaritme en el nombre d'estrangers, la participació cau dos punts; es tracta d'un percentatge molt elevat, que manifesta que aquesta consulta no va aconseguir majoritàriament atraure el vot de la nova ciutadania. Sens dubte, uns deures a fer pel catalanisme.

6. "Efecte López-Tena": ja dèiem en els comentaris de l'anterior apunt que tot semblava indicar que el fet de celebrar-se la consulta a Osona ja de per si feia augmentar la participació.
Doncs bé, es confirma: controlant per totes les anteriors variables, el fet que la consulta s'hagi fet a Osona suposa un augment en un 10% de la participació. Què vol dir això? doncs que comparant dos pobles amb el mateix percentatge de vots per a CiU, ERC i ICV, amb la mateixa població i amb el mateix nombre d'immigrants, el poble d'Osona hauria registrat una participació 10 punts per sobre de la del poble de fora de la comarca. Simplement, espectacular; cal sens dubte felicitar a la gent d'Osona Decideix per la gran feina feta.

Malgrat que hi ha algunes altres variables que sembla indicar que poden influenciar en la participació, de moment us deixem amb aquestes sis. Continuarem treballant-hi!
Apa, a debatre!

24 comentaris:

Toni Rodon ha dit...

Brutal.

Primera pregunta: has introduït la dicotòmica pel Pla de l'Estany? (per allò que també tenien coordinadora comarcal).

Població dispersa?

Es podria demanar a la coordinadora que us passés el nombre de col·laboradors per municipi/comarca. Potser explica força.

Hi seguim pensant...

Marc Guinjoan ha dit...

Toni,

Introduint el Pla de l'Estany no surt absolutament res. Significació inexistent!

Amb la població dispersa tampoc; em sembla estrany però és així. Potser les meses estaven ben repartides.

Tan de bo ens donessin aquestes dades...

Cristian ha dit...

Bona nit,

Felicitats per la feina. M'agradaria fer-vos però una observació i és que jo també he estat treballant amb dades prou semblants (val a dir que no he fet servir les dades d'ICV).

La variable logpoblació presenta una important correlacionada tant amb el percentatge de vot de CIU (r=0,45), com amb el percentatge de vot de ERC(r=0,53), així com
amb el percentatge de vot de CIU+ERC (r=0,66). Aquest fet fa que al introduir conjuntament el logpoblació i el % de vot de CIU i/o d'ERC en un model
de regressió lineal múltiple pugui aparèixer un problema que els estadístics anomenem colinealitat. La majoria de paquets estadístics tenen eines per al seu diagnòstic.
Habitualment mitjançant l'estadístic VIF (variance inflation factor) o de forma més precísa mitjançant una anàlisi de components principals tot observant
els valors propis i l'índex de condició (eigenvalues i condition index). Per fer-ho curt, quan hi ha valors propis que són pràcticament 0, com és el cas que ens ocupa, és pot parlar amb tota seguretat de l'existència de colinealitat entre algunes de les variables independents. La presència de la colinealitat és un problema prou seriós que afecta tant a les estimacions dels coeficients, com a la dels errors estàndards. Impactant doncs en la interpretació i la significació dels coeficients.

Una sortida prou elegant i senzilla, és retirar la variable logpobació. Doncs tant el % de vots a CIU, com el % de vots a ERC (per separat i conjuntament) poden suplir el seu paper explicatiu dins el model amb un R2 ajustat igualment elevant (0,6), evitant així els problemes de la colinealitat.

Bé això és tot, espero que us sigui d'ajuda. Felicitats de nou pel treball, i resto obert a col·laborar amb el que calgui. L'estadística i la política són dos dels meus deliris.

Marc Sanjaume ha dit...

Caram, tenim col·laboradors sota les pedres! Gràcies Cristian! A mi no em queda clar això d'Osona. Crec que el mecanisme causal pot ser diferent: perquè hi havia en López Tena; perquè a la comarca hi ha mitjans de comunicació propis amb un consum més elevat; perquè la gent no treballa a Barcelona com al Vallès sinó dins la mateixa comarca...No penso que aquest 10% estigui completament relacionat amb l'organització.

El que diu en Toni ajudaria a comprovar-ho però és difícil d'aconseguir suposo.

Marc Guinjoan ha dit...

Cristian, moltes gràcies pel comentari. La veritat és que no m'havia parat a mirar els problemes de colinealitat que hi podien haver entre ambdues variables.

Ara bé, a mi les correlacions que em surten per ERC i CiU, amb logpoblació són respectivament 0.3669 i 0.4377. Empro el % de vots, no els totals eh, que evidentment estan extremadament correlacionats. No he fet test de colinealitat, ara bé, si corro la regressió amb els dos grups de variables obtinc una R2 de 0,80, mentre que si excloc logpoblacio em cau fins a 0,76. Això vol dir que hi ha una porció d'aquesta variable logpoblacio que no està compresa dins de les altres variables...

De totes maneres deixa'm donar-hi algunes voltes més i ja te'n comentaré el què!

Moltes gràcies de debò pel nivell del comentari!! No cal que et digui que la política i l'estadísitica també són la meva passió... :P

Marc Guinjoan ha dit...

Marc, tens raó. Ho he anomenat "efecte López-Tena" per crear una mica de marca, però està clar que el mecanisme causal de la variable Osona no és la mera presència del López Tena. És molt possible que aquesta variable estigui recollint fets com ara una bona coordinació, tenir molts recursos humans i econòmics, però també altres com pot ser que la gent treballa més a la pròpia comarca, creant així un món més "endogàmic", on la comunicació es fa més fàcil.

Toni Rodon ha dit...

Cristian,

Em sumo a les gràcies pel comentari. Ens agrada el nivell!! :P

Crec que això que diu en Marc (Sanjaume) és força important. Però també és difícil trobar una variable que ho mesuri. Es podria mirar els índexs d'audiència de tv3 a nivell comarcal els dies anteriors (ep: no vull entrar en si en va parlar molt o no! en tot cas, segur que en va parlar més que els altres!), la quantitat de col·laboradors de les plataformes organitzadores (jo crec que aquesta dada us la donarien)...
Per cert, quant a associacions:
Ves al Departament de Justícia>Guia d'entitats i allà hi ha un buscador d'entitats per tipologia i comarca. És un registre que té problemes, però és l'únic que hi ha...

Marc Guinjoan ha dit...

Marc i Toni,

ho he estat pensant i l'efecte d'Osona crec que ha de tenir bastant a veure amb l'organització: introduïnt una dicotòmica pel Pla de l'estany (igual que hem fet amb Osona), on podríem considerar que es donen també algunes de les característiques que apunta en Marc (la gent treballa a la pròpia comarca, premsa autòctona), no surten resultats favorables. Sembla doncs que el mecanisme causal no és el perfil sociològic del ciutadà de la societat osonenca sinó la gran organització que van muntar i la gran propaganda que van fer de la consulta, allunyant-se de postures massa pròximes al "Sí".
Evidentment puc estar equivocat, però em sembla que els resultats del Pla de l'estany, en contraposició amb els d'Osona són un indicador bastant suggerent..
cal continuar pensant però en més mecanismes causals!!

Cristian ha dit...

Marc,

Efectivament he introduït les vots de CIU i ERC en %, resultats per municipi a les eleccions al parlament de Catalunya 2006.

Si no voleu retirar la variable logpoblació, entenc que conceptualment és molt atractiva. Aleshores caldrà sofisticar una mica més els anàlisis deixant de fer servir els OLS, per passar a treballar amb WLS (Weighted least squares). Doncs resulta que la varibale logpoblació a més de ser causa de colinealitat, també genera heterosedasticitat. Si feu gràfic entre els residus del model i la variable logpoblació veureu que aquests són més grans com més petits són els valors de logpoblació.

Treballar amb WLS obliga a definir un pes. La ponderació, per no complicar en excés l'anàlisi, pot ser proporcional al logpoblació. D'aquesta manera podrem corregir l'heterocedasticitat, sense deixar de tenir en compte quelcom tant rellevant com la dimensió del municipi.

Salut!

Toni Rodon ha dit...

Cristian,

Ho acabo de provar i tens raó. Desconec l'ús del WLS. Entenc que d'aquesta manera evites que es correlacionin els errors, oi?

Anònim ha dit...

Que tal?
Ja sabeu que el meu tema d'investigació no és el comportament electoral però m'interessa aquesta qüestió, des que li vaig fer un comentari al Toni.
Despres de veure el comentari de Cristian tinc més clara la meva tesi. Comentava que la variable població pot dur en el seu interior moltes teorias, algunes fins i tot contraposades:

1)Sostinc que d'una banda l'elevat % de participació en municipis reduït es pot deure en part a l'elevat control social que existeix. El ciutadà en municipis petits es pot veure obligat a participar. Exemple: he d'anar a votar ja que en cas contrari el meu veí, el del bar , el de l'escola, etc, veran que no participo i em podran identificar amb determinada ideologia. Els sociolegs lo denominem estigmatizació. El problema és que és dificil de quantificar i introduir alguna variable.

2)En municipis més grans la participació podria reduirse degut al fet que el vot de classe treballadora és molt més important que en poblacions més petits i mes rurals.

Encara que les causes poden ser molt diferents en aquest cas, hi ha un vot de classe que no heu tingut en compte. Això si que crec es pot quantificar, fen mes robust el model. Incorporeu el votants del PSOE en les eleciones generals i possiblement us porteu alguna sorpresa.

Salutacions

Luis Recuenco

Toni Rodon ha dit...

Luis,

Gràcies. Ho comprovarem a veure què surt.

Ateneu Popular 217 ha dit...

Molt bones des de la garrotxa. Els paràmetres aquí descrits m'han semblat d'allò més interessants. A la nostra comarca hem tret un 38% de participació, casi casi com Osona,.. no sé quin seria el fet que ho explicaria... potser en comptes d'efecte lopeztena podríem dir efecte qui no vota a la garrotxa no vota enlloc jeje. conyes a part, volia comentar-vos que nosaltres vam comparar les dades amb el referèndum europeu i sortien dades curioses.

Salut i seguiu així. soposo que de cares a pròximes consultes tindreu més d'un que us consultarà (jiji) per poder millorar les xifres.

Cristian ha dit...

Toni,

Quan s'aplica OLS cal que els residus acompleixin normalitat i homocedasticitat. Aplicant WLS habitualment es corregeixen els problemes d'heterocedasticitat, tot i que no té perquè. En aquest cas i amb les meves dades es corregeix.

Per cert, l'heterocedasticitat es produeix quan els residus no són constants. Una de les seves funestes conseqüencies es la sobrestimació de la bondat d'ajust del model. Al loro amb les R2 de 0,8 i 0,9!

Aplicar WLS no es pas complicat. No se pas quin paquet estadístic feu servir però els més habituals tenen la instrucció. Si ho voleu puc mirar de fer-vos els càlculs, m'haurien però d'enviar les dades.

Salut!

Toni Rodon ha dit...

Cristian,

Gràcies de nou. Veig que no m'he expressat bé (últimament em passa sovint...). Les assumpcions de l'OLS i el tema de l'heteroscedesticitat ja el conec. El que no entenc és amb quin criteri s'assigna el pes que comentes. En tot cas, no pateixis que me n'informaré!

Ateneu Popular garrotxí,
Com deia en Marc abans, i com qualsevol anàlisi quantitatiu, a aquest anàlisi li falta un toc qualitatiu (en M.Sanjaume en prepararà un...). La participació sempre té moltes lectures, però jo animo a qualsevol entitat privada que organitzi una consulta fent qualsevol pregunta. Si superen el percentatge del 13D, podrem concloure que es van fer malament les coses. Però dubto que això passi...

aukeran ha dit...
L'autor ha eliminat aquest comentari.
aukeran ha dit...

1.- La dimensión de la población es una variable que influye sobre el porcentaje de voto nacionalista. Si se analiza el % erc+ciu de cualquier proceso electoral previo también se encuentra esta correlación con el tamaño de la población. En este referendum simplente se ha manifestado ese hecho de una forma especialmente gráfica.
2.- Los analisis de correlación los he realizado con número de votos puesto que la incorporación de la emigración al censo distorsionaba sobremanera el análisis porcentual. Lo que me he preguntado es ¿cuandos de los votantes nacionalistas han votado, obviamente afirmativamente, en el referendum? y la correlación es altísima, casi habas contadas.
3.- Desde mi punto de vista la variable para comparar el éxito entre municipios es el diferencial de votos erc-ciu-ic frente a votos afirmativos obtenidos. Así se mide el éxito de la movilización del votante natural y los posibles incorporados. Desde este punto de vista el "caso de éxito" es Vich, que ha captado mucho emigrante (porque no creo que un pepero haya votado afirmativamente ;).

aukeran ha dit...

Y la dimensión de la población influye sobre el voto nacionalista por razón de existir una correlación entre el tamaño de la población y el porcentaje de emigrantes en las decadas de los 50-60. Sería interesante estudiar el % de voto erc+ciu frente al % población apellidada "rodrigez".

Jordi M. ha dit...

1. El tamany de municipi no respon només al vot nacionalista: quan introduïm totes dues variables totes dues tenen efecte.

2. No hi ha problemes greus de multicol·linialitat. Els VIF estan tots en valors acceptables

3. Estimat per WLS el model és relativament estable, tret de la significativitat del vot a CiU, que desapareix per algun motiu.

4. El model té un problema evident de variable omesa: no tenim una mesura fiable d'intensitat de la mobilització/organització més enllà de la dicotòmica d'Osona.

5. La comparació en números absoluts no té gaire sentit. Però 'for the record', hi ha 48 municipis en què més gent va votar que sí dels que van votar ERC i CIU el 2006, i curiosament 22 d'aquests 48 pertanyen a una determinada comarca (Osona).

6. Ja posarem dades de mobilitat de població per lloc de feina -les audiències de premsa a nivell de municipi o comarca no són fàcils d'obtenir.

Toni Rodon ha dit...

Gràcies pels comentaris Jordi "M." :P

Cristian ha dit...

Marc G,

El criteri del pes és una mica arbitrari, i va molt en funció del tipus de dades que es disposa. Altrament provar diferents pesos i comparar-ne els resultats també et pot donar alguna pista. En aquest cas però és clar que sembla prou assenyat utilizar la "demografia" del municipi per representar el seu pes.


Jordi M,

És cert que els VIF estan tots en valors acceptables, però això no vol dir que no hi hagi colinealitat. Quan la colinealitat no afecta a totes les variables independents els VIF poden pendre valors <10.
VIF=1/(1-R2)
on R2 és el coeficient de determinació de cada variable independent amb la resta. En el cas que ens ocupa cal fer una análisi de components principals.
Observar els valors propis propers a 0 i els índexs de condició >30, aleshores identificar les variables afectades que seran aquelles que tinguin una proporció de variancia alta (per exemple >0.3) en més d'un component.

Salut!

Jordi ha dit...

Merci, Cristian. Ho he mirat amb més detall i Els autovalors i índexs de condició revelen problemes només en la variable de densitat de població que podem treure sense problemes. Quan ho fem, la mitjana dels VIF és baixa (1,96), i la matriu de correlacions inversa no mostra cap valor alt. ens hem de quedar, crec amb el model de 7 variables que és força robust, també quan l'estimem per WLS -i en aquest cas el vot a CiU segueix sent significatiu que és el que podríem esperar teòricament.

Jordi

L'home del sac ha dit...

Em sembla molt interessant aquest estudi. Felicitats!

Cristian, heterosedasticitat, magnífi a paraula que no sentia des de la facultat i que no he aconseguit pronunciar mai bé!

Roser Rifà ha dit...

Apassionant anàlisi, nois!

Espero amb candeletes l'anàlisi complet que ens heu promès!