Siffrornas magi, om metodförändringar i väljarbarometrar
Både sifo och ipsos har nu börjat labba med metoder på sin publicerade väljarbarometer.
Det blev mycket väsen när vi kompletterade vår enkät pga misstroendeeffekten https://www.svt.se/opinion/matfelen
En statsvetare gick i taket och jag fick mycket fokus i tidningen Fokus. En rätt rolig artikel ändå, kan läsas här: https://www.fokus.se/2016/02/mathatet/
En väljarbarometer hos alla etablerade aktörer består av en kombination av frågor som sedan resulterar i vad svenska folket skulle rösta på om det var val i dag, där kompletterade vi på Novus med några frågor till bland de som inte kunde uppge ett parti.
Vi byggde vidare på en beprövad metod och täppte till det misstroendehål vi kunde konstatera efter valet 2014. Först då var det faktiskt möjligt att göra, även om det fanns många tyckare som trodde sig veta det ena och det andra, så gick det inte att fastställa att det var något systematiskt fel innan valet 2014. (förresten det finns inget bevis på shy Trump voters heller)
Sen hände inte mycket i undersökningsbranschen på drygt två år, men sommaren 2016 kom Ipsos med sin metodförändring efter flera månader med ganska stora variationer i sina siffror. Ipsos sa att det var för att kompensera för att de underskattade SD, men när metoden lanserades så såg man inget sådant den månaden: Vill man nörda ned sig har jag lagt in SD:s siffror från alla undersökare här: https://novus.se/blogginlagg/hur-mycket-skiljer-valjarbarometrarna-sig-pa-sd/
Nu gör Ipsos två undersökningar, en på telefon med oklart antal intervjuer. Samt en på webben, oklart antal intervjuer.
Dessa behandlas som separata undersökningar och slås sedan ihop efter modellen:
Hela telefonundersökningen och halva webb.
Totalt säger man att den består av 2000 intervjuer.
Men om det betyder:
- 1000 telefon och 1000 webb som slås ihop?
- 1000 + halva 1000?
- Eller 1000 + halva 2000?
- Eller 500 + halva 3000?
- Eller 500 + 1500?
Har inte jag lyckats reda ut. (om inte information om fördelning kommit nu på senare tid, men jag har inte sett det när jag letat)
Men det enda jag med säkerhet kan konstatera är att det blir billigare, och att felmarginalerna försvann. Mao undersökningen ger ingen ledtråd alls om hur träffsäker den är.
Det verkar vara något magiskt med sommaren, för nu sommaren 2017 publicerade Sifo en undersökning på 12000 intervjuer. Jag trodde det var ett tryckfel.
Sen visade de att de gjorde samma sak som ipsos.
Två undersökningar, en på webb och en på telefon som sen slås ihop.
Men här vet vi ungefär fördelningen. Så här står det på SvD:s hemsida, hittar inget på Sifos ”De traditionella knappt 2 000 telefonintervjuerna har kompletterats med en slumpmässig webbpanel” (resten av detaljerna är oklara, jag har skickat några frågor men ännu inte fått svar. Så texten utgår från det som är publikt)
knappa 2000 telefon och 10 000 webb = 12 000
Wow! Det låter ju jättemycket. Även om jag är precis lika tveksam till metoden som på ipsos, mer om det längre ned.
Sen gör sifo så här
2000 + 10% av undersökningen med 10000 webintervjuer
Mao 2000 + 1000 = 12 000…
Om man slår ihop två undersökningar och bara räknar den andra till en tiondels värde kan man verkligen säga att alla intervjuer används?
Sen kommer nästa frågetecken, Ipsos tycker att webb är hälften så pålitlig som telefon. Sifo att webb är en tiondel så pålitlig.
Båda verkar överens om att webb är sämre, även slumpmässig webb. Varför då fylla på med något man själv värderar ned? Sen undrar man ju också hur de kom fram till en tiondel eller hälften, men detaljer egentligen, båda är överens om att webb är sämre än telefon.
Sen blir det för Sifo precis som med Ipsos att jag undrar om man inte nu tappar möjligheten till att beräkna felmarginalen.
Intressant nog ser jag att Sifo räknar felmarginalen i sin rapport på en ”vägd bas på 2195”, av de totalt 12 022 intervjuer som de säger de gjort. Månaden innan genomförde de 1900 intervjuer på telefon.
Sifos rapport för väljarbarometern finns här
Sifo räknar därmed felmarginalen på 18% av de intervjuer de genomför… Alternativt inga av webbintervjuerna från deras nya metod, och lite fler telefonintervjuer denna månad jämfört med 1900 månaden innan, vilket är det troliga, de ignorerar helt webintervjuerna, och använder bara telefonintervjuerna. Mao Sifos 12 000 intervjuer är inte mer träffsäker än deras gamla med knappa 2000 intervjuer enligt de själva. Vilket ju stämmer, men det blir ju extremt missvisande om man säger att det är 12 000 intervjuer.
Samtidigt säger de att den andra undersökningen med sina 10 000 intervjuer påverkar resultatet för väljarbarometern, men inte träffsäkerheten? Det blir ju inte heller rätt.
Metoden kallas av båda företagen för mixed mode, eller multimode (om det inte ändrats eller personerna jag pratat med på respektive företag sagt fel).
Men mixed/multi mode är en annan sak, då har man ett urval (en undersökning) och låter respondenterna svara antingen på web eller telefon. SOM har gjort det länge och SCB gör så sedan ett tag tillbaka.
Det centrala här är ETT urval.
Men det sifo och ipsos gör är att ha TVÅ olika urval och undersökningar som behandlas olika, och sedan slås ihop
Hel + halv för ipsos
Hel + en tiondel för sifo
Detta är inte mixed mode, utan låter snarare som en poll of polls där undersökningarna som ingår värderas efter trovärdighet. Det som fungerade bra för Nate Silver och gjorde honom till en superstjärna. Men det många glömmer är att det fungerade bra en gång och om jag inte räknat fel för 5 val sedan.
Samtidigt blir det ironiskt när amerikanska undersökningsföretagen i USA idag är överens om att största problemet i USA var ”aggregatorerna” som Nate Silver (jag kom nyss tillbaka som enda svensk undersökare från amerikanska branschens stora eftervalsanalys, ja jag vet borde skriva om den). Det dolde vital information och fick det att se ut som ett mindre osäkert val än det var.
Det som fungerade bäst var telefon i USA (men man mätte fel sak, en annan historia)
Har man två urval som kan överlappa blir det svårt att räkna felmarginaler. För det förutsätter att man har koll på sånt, och det är väldigt bökigt med två undersökningar.
Mao vi har nu både Ipsos och Sifo som kommer med vad de kallar förbättrade metoder där båda ökar på antalet intervjuer med undersökningar de själva värderar som mindre värda.
Båda får problem felmarginalen, eller som Sifo sm verkar ignorerar web helt där trots att de låter webintervjuerna påverka resultatet.
Båda liknar snarare en poll of polls.
Båda är tveksamt hur många intervjuer man egentligen gör, och vad som räknas
Sen får man så klart göra hur man vill. Men jag tycker det är tråkigt när man säger att man förbättrar med data som man själv värderar som mindre värd.
Sen kommer nästa steg, hur gör man en poll of polls på poll?
I teorin vet jag så klart, men praktisk nytta? Kan man göra en pytt i panna på pytt i panna?
Undersökningar är ingen exakt vetenskap, men rätt använt är den otroligt värdefull. Att ett eller flera partier har någon procentenhets skillnad jämfört med valet kan vi snarare räkna med, det kallas felmarginalen. Att någon siffra kommer utanför felmarginalen är en risk på tjugo.
Att då två etablerade undersökningsföretag gör det svårt att räkna felmarginalen gör det inte bättre, utan tyder tyvärr på att man bara ändrar för ändrandets skull, inte för att det behövs.
Är det en konsekvens av faktaresistens i det publika rummet, åsikter jämställs med kunskap?
Borde man inte som kunskapsleverantör försvara den vetenskap som finns istället för att laborera?
Stora experiment med metodutveckling gör vi på Novus vid sidan av våra publicerade undersökningar, inte med dom, vi kastar heller inte ut den vetenskap och beprövad erfarenhet som finns. Särskilt inte som det kan verka vara på grund av högljudda tyckares krav på förändring.
MEN trots det kunde alla seriösa undersökningsföretag i Sverige i valet 2014 korrekt ange det parlamentariska läget vi har nu. Svensk träffsäkerhet i politiska mätningar är en av de bästa i världen, Holland som hyllades nyss hade sämre träffsäkerhet, Frankrikes presidentval lite högre. I Sverige är vi otroligt bortskämda med bra undersökningar och statistik. Det skall man inte kasta bort.
Något som Ipsos och Sifo bekräftar (och ju så klart vet att så är fallet) genom att nedvärdera web som de gör. Telefon funkar idag bäst på väljarbarometern. MEN slumpmässig webb är otroligt träffsäker också. Problemet ligger snarare i att man blandar urval här, det går emot allt jag vet om undersökningar. Därför kommer vi inte göra så.
Men att säga att Sifos väljarbarometer innehåller 12 000 intervjuer är vilseledande, oavsett hur man tänker när de bara använder 3000 av dom, om man ens kan säga 3000 är jag inte ens säker på, iom det mer verkar likna en poll of polls.
Sen slutligen, det som jag insett är absolut viktigaste för undersökare som skall vara relevanta i framtiden är integritet, kunderna köper kunskap, inte siffror. Vad är den värd om man inte känner att man kan lita på avsändaren? Vi måste stå för den kunskap vi levererar, det innebär att tro på datan vi baserar analysen på, hela datan, inte halva eller en tiondel.
Torbjörn Sjöström
VD
Novus