Príloha B: Súbor údajov o syntetickej populácii

Niekoľko úprav upravených v tejto štúdii vyžaduje súbor údajov, ktorý je vysoko reprezentatívny pre dospelú populáciu v USA. Tento súbor údajov slúži v podstate ako referencia na zvýšenie reprezentatívnosti prieskumu (napr. Online prihlásených vzoriek). Pri výbere súboru údajov o obyvateľoch výskumníci zvyčajne používajú veľký súbor federálnych referenčných údajov, ako je napríklad American Community Survey (ACS) alebo Current Population Survey (CPS), pretože tieto prieskumy majú vysokú mieru odozvy, vysokú mieru pokrytia populáciou a prísny výber založený na pravdepodobnosti. vzory.


Jedným z obmedzení použitia jedného prieskumu, napríklad ACS, je to, že jediné premenné, ktoré je možné použiť pri úprave, sú tie, ktoré sa merajú v ACS. To znamená, že výskumný pracovník sa môže prispôsobiť charakteristikám, ako je vek, príjem a vzdelanie, ale nie príslušnosť k politickej strane, náboženská príslušnosť alebo registrácia voličov. Jedným z riešení je zobrať niekoľko porovnávacích súborov údajov merajúcich trochu odlišné premenné a skombinovať ich tak, aby vytvorili asyntetickýsúbor údajov o populácii.25

Otázky, ktoré má ACS spoločné s inými referenčnými prieskumami, sa používajú na štatistické modelovanie pravdepodobných odpovedí na otázky, ktoré neboli v rámci ACS položené. Nasledujúce časti podrobne popisujú, ako bol zostavený súbor údajov o syntetickej populácii pre túto štúdiu.

Konštrukcia súboru údajov o syntetickej populácii

Súbor údajov o syntetickej populácii bol zostavený v troch hlavných krokoch:

Vedci stiahli verejné súbory údajov o použití pre deväť referenčných prieskumov a potom prekódovali bežné premenné (napr. Vek a vzdelanie), aby boli v rámci všetkých prieskumov konzistentné. Potom zmenili váhy každého prieskumu, aby dosiahli súčet nominálnej veľkosti vzorky.

Každý súbor údajov bol potom zoradený podľa váhy každého záznamu a rozdelený do 20 vrstiev na základe kumulatívneho súčtu váh prieskumu, takže každá vrstva predstavovala 5% z celkovej populácie. Ďalej bola z každej vrstvy náhodne vybraná vzorka 1 000 prípadov (rozhovorov) s výmenou a pravdepodobnosťou úmernou hmotnosti prípadu. To malo za následok „zrušenie“ váh a vytvorenie súboru údajov o 20 000 prípadoch pre každý prieskum, ktorý bol reprezentatívny pre celú populáciu.


Týchto 20 000 súborov údajov o prípadoch sa potom skombinovalo do jedného veľkého súboru údajov. Pomocou tohto kombinovaného súboru údajov vytvorili vedci 25 násobných imputovaných súborov údajov pomocou prístupu reťazených rovníc.



Po imputácii bolo ponechaných iba 20 000 prípadov pochádzajúcich z AKS a všetky ostatné boli vyradené. Toto bolo urobené s cieľom zabezpečiť, aby sa distribúcia hlavných demografických premenných presne zhodovala s distribúciou ACS, zatiaľ čo imputované premenné odrážajú distribúciu, ktorá sa dá očakávať na základe demografického profilu ACS.


Každý z týchto krokov je podrobne popísaný nižšie.

Výber a prekódovanie množiny údajov

Na zostavenie súboru syntetickej populácie bolo použitých deväť súborov údajov: 2015 ACS, 2015 CPS Annual Social and Economic Supplement (CPS ASEC), 2013 CPS Civic Engagement Supplement (CPS CivEng), 2015 CPS Computer and Internet Use Supplement (CPS Internet ), 2015 CPS Volunteer Supplement (CPS Volunteer), 2014 CPS Voting and Registration Supplement (CPS Voting), 2014 General Social Survey (GSS), 2014 Pew Research Center Religious Landscape Study (RLS) a 2014 Pew Research Center. Prieskum politickej polarizácie a typológie (Pol.). Každý prieskum prispel do rámca množstvom premenných. Celkovo rámec obsahuje 37 premenných, pričom veľa z týchto premenných je prítomných vo viacerých prieskumoch.


Všetkých deväť súborov údajov obsahovalo množstvo bežných demografických premenných, ako sú pohlavie, vek, rasa a hispánske etnikum, vzdelanie, rozdelenie podľa sčítania ľudu, rodinný stav, veľkosť domácnosti, počet detí, narodenie v USA, stav občianstva a rodinný príjem. Ostatné premenné sa merali iba v podskupine prieskumov. Napríklad dobrovoľníctvo je prítomné iba v doplnku dobrovoľníctva CPS, zatiaľ čo identifikácia strany je iba v GSS, prieskumu polarizácie RLS a Pew Research Center, z ktorých žiaden nie je federálnym.

Premenné, ktoré sa v rámci prieskumov merali alebo kódovali odlišne, boli prekódované tak, aby boli čo najviac porovnateľné. To často znamenalo, že premenné boli zhrubnuté. Napríklad top-kódy CPS majú vek 85 rokov alebo viac, takže rovnaká schéma kódovania sa použila aj na všetky ostatné prieskumy. V ostatných prípadoch to zahŕňalo zaobchádzanie s nekonzistentnými hodnotami ako s chýbajúcimi. Napríklad ACS aj rôzne prieskumy CPS sa pýtajú respondentov, koľko hodín týždenne zvyčajne pracujú. Prieskumy CPS však tiež umožňujú respondentom naznačiť, že počet hodín, ktoré zvyčajne týždenne odpracujú, sa líši, zatiaľ čo ACS túto možnosť nemá. V tabuľke vyššie chýbajú údaje o odpracovaných hodinách týždenne v rámci prieskumov CPS; Pozostáva skôr z ľudí, ktorí naznačili, že sa ich hodiny líšia. S týmito údajmi sa však zaobchádza ako s chýbajúcimi kvôli konzistencii so spôsobom, akým sú požadované v ACS. Imputované hodnoty možno interpretovať ako predpovedanie toho, ako by títo jedinci odpovedali, keby im bola namiesto toho položená otázka ACS.

Stratifikovaný odber vzoriek

Porovnávacie súbory údajov sa líšili dizajnom vzorky a veľkosťou vzorky. Aby sme tieto rozdiely vyriešili, vybrali sme presne 20 000 pozorovaní na množinu údajov predtým, ako sme ich spojili. Odber vzoriek sa uskutočňoval s výmenou a s pravdepodobnosťou úmernou hmotnosti prípadu. Veľkosť vzorky bola vybraná s cieľom poskytnúť dostatok údajov pre použité metódy úpravy, pričom je výpočtovo stále možné. V prípade internetového doplnku CPS, GSS a polarizačného prieskumu to zaručilo, že pozorovania budú vzorkované viackrát.

Pre každú množinu údajov sme použili príslušné váhy. Hmotnosť na úrovni osoby bola použitá pre ACS, hmotnosť doplnku pre osobu pre CPS ASEC a hmotnosť doplnku pre vlastnú odpoveď pre doplnok CPS Civic Engagement. CPS internetový doplnok bol filtrovaný nadol na respondentov, ktorí mali náhodnú váhu respondenta, pretože textové a sociálne sieťové premenné boli merané iba pre týchto respondentov. Váha neodpovedí bola použitá pre doplnok dobrovoľníkov CPS, zatiaľ čo váha odpovedí zodpovedajúca prierezovým a panelovým prípadom bola použitá pre GSS. Pre RLS a Polarizačný prieskum sa použili plné hmotnosti vzoriek. Nakoniec pre doplnok hlasovania CPS boli váhy druhého stupňa upravené tak, ako to odporúčali Hur a Achen26opraviť zaujatosť vyplývajúcu z neodpovedania na položku, ktorá sa považuje za nevolenie. Každá z týchto váh bola zmenená, aby sa dosiahol súčet veľkosti vzorky každého z ich príslušných súborov údajov.


Aby sa zabezpečilo, že vzorky obsahujú správny podiel prípadov s veľkými aj malými váhami, bol každý súbor údajov zoradený podľa váh a rozdelený do 20 vrstiev, z ktorých každá predstavovala 5% váženej vzorky.

Imputácia

Deväť súborov údajov sa potom skombinovalo do jedného súboru údajov a všetky chýbajúce hodnoty sa imputovali pomocou prístupu „reťazených rovníc“, ktorý iteruje prostredníctvom modelovania každej premennej ako funkcie všetkých ostatných.27Napríklad, ak by vek, pohlavie a vzdelanie boli jedinými premennými, prístup reťazených rovníc by mohol spočiatku spočítať vek na základe pohlavia a vzdelania, potom pohlavie na základe veku a vzdelania, potom vzdelávanie na základe veku a pohlavia a opakoval by tento cyklus pre určitý počet iterácií s cieľom dosiahnuť stabilitu. Celý tento postup sa tiež opakuje 25-krát, nezávisle na sebe, za vzniku viacerých syntetických rámcov, ktoré je možné navzájom porovnať a vyhodnotiť tak odchýlku vyplývajúcu z procesu imputácie. Každý rámec prešiel 10 iteráciami.

Existuje veľké množstvo modelov, ktoré možno použiť na prisúdenie každej jednotlivej premennej v závislosti od všetkých ostatných, napríklad regresné modely alebo metódy „hot-deck“, kde je každá chýbajúca hodnota nahradená pozorovanou reakciou „podobnej“ jednotky. Pre súbor údajov o syntetickej populácii bola každá premenná imputovaná pomocou metódy náhodného lesa „hot-deck“.28

Po imputácii bol výsledný súbor údajov o syntetickej populácii vytvorený odstránením všetkých okrem prípadov, ktoré boli pôvodne z ACS. To zaisťuje, že demografické rozdelenie sa tesne zhoduje s pôvodným ACS, zatiaľ čo imputované premenné odrážajú spoločné rozdelenie, ktoré by sa dalo očakávať na základe premenných, ktoré mal každý súbor údajov spoločné.

Hodnotenie kvality imputácie

Urobili sme niekoľko krokov, aby sme zabezpečili, že postup imputácie priniesol výsledky, ktoré presne odrážali pôvodné súbory údajov. Najprv sme skrížili každú z imputovaných premenných (napr. Registráciu voličov a identifikáciu strany) s plne pozorovanými premennými (napr. Vek, pohlavie a vzdelanie) a pre každú bunku sme porovnali veľkosť bunky v súbore údajov ACS s jej veľkosť v pôvodnom súbore údajov, z ktorého sa im počítalo. Celkovo sa imputované distribúcie blížili k originálu. Priemerný absolútny rozdiel medzi imputovanými a pôvodnými hodnotami pre každú krížovú klasifikáciu bol 2 percentuálne body. To znamená, že imputované hodnoty v priemere zodpovedali nielen distribúcii pre celú populáciu, ale zodpovedali tiež distribúcii v rámci demografických podskupín.

Aj keď postup mnohonásobnej imputácie vytvoril 25 verzií súboru údajov o syntetickej populácii, na vykonanie úprav v tejto štúdii sa použil iba jeden z nich. Jednou z obáv tohto prístupu je možnosť, že výsledky sa môžu veľmi líšiť v závislosti od toho, ktorá z 25 syntetických populácií bola použitá. Aj keď nebolo výpočtovo uskutočniteľné opakovať celú analýzu pre každý z imputovaných súborov údajov, opakovali sme jeden z postupov úpravy vo všetkých 25 súboroch údajov, aby sme mohli posúdiť mieru, do akej môže postup imputácie ovplyvniť zistenia štúdie.

Pre každý z 25 imputovaných súborov údajov sme vykonali zhrabnutie s demografickými aj politickými premennými na 1 000 vzorkách bootstrapu n = 3 500 podľa rovnakého postupu, aký bol použitý v tele tejto správy. Pre každú podstatnú kategóriu v 24 referenčných premenných sme vypočítali vážené percento pre každú bootstrapovanú vzorku. Potom sme vypočítalicelková odchýlka(stredná štvorcová chyba) pre každý odhad so všetkými 25 000 vzorkami bootstrapu dokopy. Nakoniec sme vypočítali odchýlku pre každú z 25 súborov odhadov osobitne a vzali sme priemer. To jeodchýlka v rámci imputácie. Tento proces sa opakoval pre všetkých troch dodávateľov.

Ak je celková odchýlka omnoho väčšia ako odchýlka v rámci imputácie, potom by sa podceňovala odhadovaná variabilita a rozpätie chyby, ktoré používajú iba jednu imputáciu (ako sa to stalo v tejto štúdii). V tomto prípade bola celková odchýlka iba 1,002-krát vyššia ako priemerná odchýlka v rámci imputácie. To znamená, že odhadovaná variabilita opísaná v správe je pre všetky praktické účely rovnaká, ako keby sa analýza opakovala pre všetkých 25 imputácií.

Dôvod, prečo sú si navzájom tak blízki, je pravdepodobne spôsobený skutočnosťou, že imputácia ovplyvňuje nepriamo iba variabilitu odhadov prieskumu a tvorí len malú časť variability prieskumu. Ak by sme mali porovnať celkovú a medzimputačnú variabilitu pre samotné imputované hodnoty (ako by sme to mohli, keby bolo hlavným zameraním analýzy skôr syntetický súbor údajov o populácii, ako iba vstup do váženia), rozdiel by bol pravdepodobne väčší.

Nastavovacie premenné použité v štúdii

Hlavné premenné demografické úpravy použité v štúdii boli vek 6, kategória pohlavia, dosiahnuté vzdelanie kategórie 5, rasa a hispánske etnikum a rozdelenie podľa sčítania ľudu. Rozšírené politické premenné pridávajú k príslušnosti k politickej strane v 3 kategóriách, politickej ideológii v 3 kategóriách, registrácii voličov a k tomu, či sa respondent identifikuje ako evanjelický kresťan.

Nasledujúca tabuľka porovnáva rozdelenie premenných úprav v súbore údajov syntetickej populácie v porovnaní s jedným z pôvodných vysoko kvalitných súborov údajov prieskumu použitým na vytvorenie súboru syntetických údajov. Všetky demografické premenné boli na ACS plne pozorované, takže syntetický rámec sa bude líšiť od pôvodného zdroja iba na súbore rozšírených politických premenných.

Najväčší rozdiel medzi prieskumom zdrojov a syntetickým rámcom bol v politickej ideológii. Odhadovaný podiel konzervatívcov, ktorí sami seba opísali, bol 32% v GSS oproti 35% v syntetickom rámci. Posledný odhad je podobný opatreniam z Pew Research Center’s Religious Landscape Study a Political Polarization and Typology Survey, ktoré boli taktiež použité v rámci. Presný dôvod tohto rozporu je nejasný, ale existuje niekoľko potenciálnych faktorov. Na rozdiel od opatrení strediska, ktoré sa zhromažďujú prostredníctvom živých telefonických rozhovorov, sa otázka GSS podáva osobne pomocou vizitky. Otázka GSS navyše používa sedembodovú stupnicu, zatiaľ čo otázky centra používajú päťbodovú stupnicu. Napokon môžu existovať významné rozdiely medzi demografickým zložením respondentov GSS a respondentov ACS.