Módulo 7: Recopilación de datos posteriores Vídeo 1 ...
Transcript of Módulo 7: Recopilación de datos posteriores Vídeo 1 ...
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Módulo 7: Recopilación de datos posteriores
Vídeo 1: Introducción + codificación de respuestas abiertas
y preparación de datos
Sharan Sharma
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Al final del módulo, los participantes
deberían...
...estar familiarizados con los pasos clave de recopilación
de datos posteriores
2
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
¡No tan rápido!
3
Ya ha recopilado los datos. ¿Quiere publicarlos ya?
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 4
Fuente: https://www.oecd.org/pisa/data/pisa2018technicalreport/PISA2018%20TecReport-Ch-10-Data-Management.pdf
Gestión de datos del estudio principal PISA 2018: Validación de datos
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Codificación de respuestas abiertas
2. Preparación de los datos
3. Sintetización y visualización
4. Edición de datos
5. Imputación y ponderación (tratado en el módulo 2)
6. Control de divulgación
7. Procesamiento final, documentación y difusión
5
Muchas actividades...
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Codificación de preguntas abiertas
• Antes de eso: hacer copia de seguridad de los originales como
datos recopilados sin procesar.
• Aquí hay que centrarse en respuestas a preguntas del siguiente
tipo: «¿A qué clase de trabajo se dedica?»: la respuesta de la
secuencia debe codificarse posteriormente con un código de
ocupación.
• Dos métodos de codificación:
– Completamente manual
– Automatizada
6
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Codificación manual
• Los codificadores envían una respuesta a un marco de
codificación y la clasifican en categorías previamente decididas.
– Para preguntas atípicas o nuevas, puede ser necesario revisar las
categorías: el problema de «muchas otras».
• Es útil codificar doblemente un porcentaje de casos para calcular
la fiabilidad.
7
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Codificación manual...
• La fiabilidad de los codificadores se mide mediante:
– Una concordancia de porcentaje simple
– Más medidas aplicadas, p. ej., el índice kappa de Cohen (𝜅) se utiliza
mucho; también tiene en cuenta la probabilidad de acuerdo.
– 𝜅 inferior a un umbral, p. ej., 70 %, justifica una revisión
• Existe el mito de que las respuestas largas siempre se codifican
de forma más fiable [Belloni et al. (2016), Conrad et al. (2016)].
– En ocasiones, más texto puede añadir confusión.
8
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Codificación manual...
• Algo que no suele hacerse en la práctica, pero que también resulta útil: tomar casos con desacuerdos y debatirlos con los codificadores. Los codificadores normalmente usan reglas informales (Conrad et al., 2016); esto se puedeutilizar para ayudar a formalizar más.
• Animar a los codificadores a ser explícitos sobre las dudas (p. ej., asignar una posibilidad de codificación secundaria).
– Aquí el propio esquema de codificación puede ayudar. P. ej., la Clasificación
Internacional Uniforme de Ocupaciones de 1988 (ISCO-88) tiene una estructura
jerárquica → 10 grupos principales, 28 subgrupos principales, 116 grupos
menores, 390 grupos unitarios.
– Los códigos de nivel superior se usan en caso de falta de información a niveles
inferiores.9
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 10
I. Grupos principales II. Grupos y subgrupos principales
III. Grupos y subgrupos principales y grupos menores
IV. Grupos y subgrupos principales, grupos menores y grupos unitarios
«Director de hotel» = 1411
«Director» = 1000
Fuente: https://www.ilo.org/wcmsp5/groups/public/---dgreports/---dcomm/---publ/documents/publication/wcms_172572.pdf
Gerentes
Profesionales
Técnicos y profesionales asociados
Trabajadores de apoyo administrativo
Trabajadores de servicios y ventas
Trabajadores agrícolas, forestales y
pesqueros calificados
Trabajadores de oficios y oficios
relacionados
Operadores y ensambladores de plantas y
máquinas
Ocupaciones elementales
Ocupaciones de las fuerzas armadas
Gerentes
11 jefes ejecutivos, altos funcionarios y legisladores
12 gerentes administrativos y comerciales
13 gerentes de producción y servicios especializados
14 gerentes de hotelería, comercio minorista y otros
servicios
Gerentes de hotelería, venta minorista y otros servicios
141 gerentes de hoteles y restaurantes
142 gerentes de comercio minorista y mayorista
143 gerentes de otros servicios
14 gerentes de hotelería, venta al por menor y otros servicios
141 gerentes de hoteles y restaurantes
1411 gerentes de hoteles
1412 gerentes de restaurantes
142 gerentes de comercio minorista y mayorista
1420 gerentes de comercio minorista y mayorista
143 gerentes de otros servicios
1431 gerentes de centros culturales y de recreación deportiva
1439 gerentes de servicios no clasificados en otra parte
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Métodos automáticos
• Como demostró el ejemplo de ISCO, codificar puede resultar
difícil, y la codificación manual es cara y requiere mucho tiempo
(especialmente para encuestas largas).
• Los métodos automáticos se han vuelto más populares, p. ej.,
Sistema de codificación informatizada de industrias y
ocupaciones del NIOSH (NIOCCS)
https://wwwn.cdc.gov/nioccs3/
• Se fundamenta en una tabla de consulta simple basada en datos
históricos o en métodos estadísticos más sofisticados.11
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
CASCOT (por sus siglas en inglés): Computer Assisted Structured
Coding Tool
• Instituto Warwick de Investigación sobre el Empleo
[https://warwick.ac.uk/fac/soc/ier/software/cascot/details/]
• Asigna una puntuación de certeza. La práctica común es aceptar la codificación
automática si la puntuación es mayor que, por ejemplo, 70 (p. ej., Belloni et al.
2016).
• El software también sugiere códigos alternativos; para puntuaciones bajas, los
codificadores manuales pueden decidir basándose en estas sugerencias.
• CASCOT se ha comparado con datos codificados manualmente de alta calidad:
el 80 % de los registros recibe una puntuación >40 y de estos, el 80 % coincide
con los datos codificados manualmente.
12
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Codificación de respuestas abiertas
2. Preparación de los datos
3. Sintetización y visualización
4. Edición de datos
5. Imputación y ponderación
6. Control de divulgación
7. Procesamiento final, documentación y difusión
13
Muchas actividades...
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Preparación de los datos
• Convertir un formato ancho (plano) en un formato largo
(jerárquico).
– Reduce las columnas en blanco; más compacto
– Más fácil para los analistas
14
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 15
Formato ancho (plano)
Formato largo (jerárquico)
Fuente: https://guide-for-data-archivists.readthedocs.io/en/latest/prepData.html
• Cada registro (línea) queda ahora a un único nivel individual.
• Las columnas son todas las variables.
jefe de familia
jefe de familia
jefe de familia
jefe de familia
jefe de familia
Cónyuge del jefe
Padre
cónyuge del jefe
Abuelo
Nuera
Hijo soltero
Madre
Hijo casado,
Abuela
Nieto
Identificación del hogar
identificación del miembro edad
Relación con la cabeza de
familia
30 Jefe de hogar
28 Cónyuge del jefe
10 Hijo no armado
28 Jefe de hogar
62 Padre
68 Madre
40 Jefe de hogar
25 Cónyuge del jefe
23 Hijo casado
39 Jefe de hogar
80 Abuelo
82 Abuela
55 Jefe de hogar
31 Hija- suegro
5 nieto
Hogar
IDID
Miembro 1
ID
Miembro 2
ID
Miembro 3
Edad
Miembro 1
Edad
Miembro 2
Edad
Miembro 3Relación con
Miembro 1Relación con
Miembro 2
Relación con
Miembro 3
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Variable de identificación
• Define una línea en un juego de datos. Debe ser única. Garantiza
que no se pierda.
• Suele ser numérica, p. ej., puede ser simplemente un número de
serie. También se puede hacer concatenando segmentos
separados.
– Por ejemplo, HHID=identificación del país+identificaicón del
distrito+identificación PSU+orden de la serie dentro de PSU (aquí «+» no
significa adición, sino concatenación)
– Facilita la identificación si es necesario, pero también implica un riesgo de
divulgación, por lo que hay que actuar con cuidado.
16
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Preparación de los datos
• Convertir un formato ancho (plano) en un formato largo
(jerárquico).
• Divide juegos de datos basándose en diferentes unidades de
análisis.
17
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas 18
De: https://simba.isr.umich.edu/VS/s.aspx
- Evita la repetición.
- Puede conectar diferentes archivos
usando un enlace común, p. ej., ID de
hogar.
- Asegurarse de que los archivos del
hogar y los individuales se puedan
fusionar correcta y eficazmente.
PSID Nivel familiar
PSID Nivel individual
Suplemento de desarrollo infantil (incluidos los agregados del diario
de tiempo)
Suplemento de desarrollo infantil Diarios de tiempo Suplemento
Transición a la edad adulta
Historia familiar
Discapacidad y uso del tiempo
Estudio de circunstancias retrospectivas de la infancia
Listas y transferencias familiares
Bienestar y vida diaria
Matriz de relaciones familiares Preparación
Tipo de Data
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Preparación de los datos
• Convertir un formato ancho (plano) en un formato largo (jerárquico).
• Divide juegos de datos basándose en diferentes unidades de análisis.
• Garantizar que no haya registros duplicados en el juego de datos; comprobar
el número de registros.
• Comprobar la clase de variable (p. ej., número entero, secuencia).
– Los códigos «DK»/»RF» pueden empujar una clase numérica a una clase
de secuencia.
• Comprobar que las variables y los valores se etiqueten adecuadamente.19
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
Preparación de los datos
• ¿Se necesita recodificar el nombre de alguna variable? P. ej., se hace si es
necesario tener variables en secuencia.
• ¿Se necesita recodificar el valor de alguna variable?
– Hay que procurar no tener códigos DK/RF sin saberlo = un código de categoría de
respuesta normal.
• Guardar los datos en esta fase como una nueva versión. En general, guardar
en una fase del procesamiento si hay o se espera un cambio significativo, y
solo entonces pasar a la siguiente fase.
• Recurso de la International Red Internacional de Encuestas de Hogares
(RIEHhttps://guide-for-data-archivists.readthedocs.io/en/latest/20
Noviembre de 2020 Módulo 7: Formación a distancia sobre encuestas telefónicas
1. Codificación de respuestas abiertas
2. Preparación de los datos
3. Sintetización y visualización
4. Edición de datos
5. Imputación y ponderación
6. Control de divulgación
7. Procesamiento final, documentación y difusión
21
Muchas actividades...
FIN DEL vídeo 1