Post on 24-Jul-2015
República Bolivariana de Venezuela
Ministerio de Educación Superior
Vicerrectorado Académico
Universidad Bicentenaria de Aragua
Faculta de ciencias Administrativas y Sociales
Escuela de Psicología
San Joaquín de Turmero
Confiabilidad y
Validez
Prof. Arquímedes Ramírez Autores:
Margret Montero C.I. 22.344.723
José Miguel Dona C.I. 24.387.127
Susana Álvarez C.I. 19.586.975
Evelin Benavides C.I. 19.724.867
Anthony Simone C.I. 19.793.071
San Joaquín de Turmero, 19 de Julio de 2011
Introducción
La palabra estadística se deriva del latín Status que en la época medieval se
traducía como estado político, el significado de la estadística era la exposición
sistemática de las características más destacadas del estado. Esta se ha utilizado desde
los comienzos de la civilización, así pues, desde la antigüedad ya se utilizaban formas
sencillas de estadística, como por ejemplo, representaciones gráficas y otros símbolos
en pieles y paredes de curva para contar el número de personas, animales y cosas.
Hoy en día la estadística se ha convertido en un método efectivo para describir
con exactitud los valores de datos económicos, políticos, sociales, biológicos,
Psicológicos y físicos, de una determinada población. A raíz de la estadística nace
una nueva ciencia llamada Psicoestadistica y de ella la Psicometría esta nos sirve
como herramienta para seleccionar y analizar datos, en ciertos campos (psicología
sanitaria, social, experimental, neurociencias, etc.) por esta razón se hace necesario
conocer una serie de elementos que intervienen de manera muy directa en los
diferentes procesos Psicométricos, los cuales algunos de estos elementos han sido
investigados, para la elaboración de el presente trabajo escrito. Los puntos destacados
son: la confiabilidad y validez, temas que facilitan al psicólogo la implementación de
test, análisis de los resultados y su clasificación, destacando que la confiabilidad es un
aspecto vital en los tests, ya que sin esta no se puede aplicar un test, no obstante es
importante la validez ya que esta nos permite medir el propósito del test, sin embargo
la confiabilidad es una condición necesaria, pero no suficiente para la validez, esto
quiere decir que una prueba o test puede ser confiable sin ser válida, y no puede ser
válida sin ser confiable.
Para realizar este trabajo escrito también se usaron muchos conocimientos
adquiridos en nuestros estudios, la utilización de fuentes de internet, libros tales como
test psicológicos y evaluación, entre otros instrumentos de investigación.
La validez y confiabilidad
Validez
Desde el punto de vista psicométrico, la validez es el resultado de un proceso de
recopilación de evidencias empíricas sustentado en supuestos teóricos que, en suma,
permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia de las
interpretaciones basadas en los resultados de una prueba. Este juicio no depende úni-
camente de los ítemes de la prueba, sino también de la muestra sobre la que se efectúe
el test, y del contexto de aplicación.
Esta es la capacidad de un instrumento de medición para cuantificar de for-
ma significativa y adecuada el rasgo para cuya medición ha sido diseñado. De esta
forma, un instrumento de medida es válido si realmente mide aquello que pretende
medir.
Parsons señala que "la condición más decisiva para que un análisis dinámico
sea válido, es que cada problema se refiera continua y sistemáticamente al estado
del sistema considerado como un todo" (en: Lyotard, 1989, p. 31). Así, para Messi-
ck (1984, pp. 741), «la validez unificada integra consideraciones de contenido, crite-
rio y consecuencias en un marco de referencia de constructo para la evaluación em-
pírica de hipótesis racionales acerca del significado de las puntuaciones y de relacio-
nes relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica
y aplicada»
Tipos de Validez
Existen diversos tipos de validez, estos mantienen una relación de influencia re-
cíproca y conforman las diversas partes de un todo, que es lo que conocemos de for-
ma genérica como "validez".
Validez de contenido
La validez de construcciones es la más importante, trata de establecer una
medida operacional para los conceptos usados; en el campo psicológico, por ejem-
plo, se trataría de que el instrumento mida la propiedad o propiedades psicológicas
aisladas que subyacen a la variable. Esta validez no es fácil de entender, ya que se
encuentra inmersa en el marco de referencia científico de la investigación y su
metodología. Éstos son los que le dan sentido.
Se dice que una prueba o test cumple con las condiciones de validez de conteni-
do si constituye una muestra adecuada y representativa de los contenidos y alcance
del constructo o dimensión a evaluar.
En el campo de la psicología no siempre es posible disponer de poblaciones de
contenidos bien definidas (por ejemplo, si se pretenden medir variables psicológicas
clásicas, como la extraversión, la inteligencia o el liderazgo). En estos casos suele re-
currirse a un análisis racional de ítems, consistente en la evaluación de los contenidos
del test por parte de un grupo de expertos en el área a tratar. La validez de contenido
es esencial a la hora de realizar inferencias o generalizaciones a partir de los resulta-
dos del test.
Un caso particular de la validez de contenido es la denominada «validez aparen-
te»; una prueba posee una validez aparente adecuada cuando produce en los sujetos a
los que se aplica la impresión de que efectivamente es una prueba adecuada.
Validez predictiva
También conocida como «validez relativa al criterio» o «validez de
pronóstico», se refiere al grado de eficacia con que se puede predecir o pronosticar
una variable de interés (criterio) a partir de las puntuaciones en un test.
Así pues, la operacionalización del concepto se realiza a partir del
denominado coeficiente de validez, que es la correlación entre el test y el criterio. A
mayor correlación, mayor capacidad predictiva del test. Existen distintos diseños
experimentales que permiten determinar esta correlación. La elección de un diseño u
otro dependerá de las necesidades y circunstancias específicas de cada caso:
Validez concurrente o simultánea: El test y el criterio se miden al mismo
tiempo. Puede utilizarse para validar un nuevo test por comparación con otro
ya validado previamente.
Validez de pronóstico: El criterio se mide pasado un periodo de tiempo tras
la aplicación del test. Es el tipo más habitual en los procesos de selección de
personal, en los que se pretende predecir el rendimiento futuro de los sujetos.
Validez retrospectiva: El test se aplica un tiempo después del criterio que se
pretende evaluar. Útil cuando se pretende dilucidar mediante una prueba algún
aspecto del pasado que actualmente no es accesible.
La fórmula general del coeficiente de validez es:
Donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace
referencia a las puntuaciones obtenidas en la variable criterio.
Validez de constructo
Para Messick (1980; p.1015) «la validez de constructo es el concepto unificador
que integra las consideraciones de validez de contenido y de criterio en un marco
común para probar hipótesis acerca de relaciones teóricamente relevantes».
Asimismo, Cronbach (1984; p.126) refiere que «la meta final de la validación es la
explicación y comprensión, y por tanto, esto nos lleva a considerar que toda validez
es validación de constructo».
Los procedimientos metodológicos más utilizados para la obtención de datos
referentes a la validez de constructos psicológicos han sido el análisis factorial y la
matriz multirrasgo - multimétodo.
Validez convergente-discriminante
Este tipo de validez se determina a partir de los resultados arrojados por la
matriz multirrasgo - multimétodo (diseño MRMM, sistematizado por Campbell y
Fiske en 1959). El sistema consiste en realizar mediciones de varios rasgos con
distintos métodos de medición. De este modo podemos encontrarnos con varios
resultados.
Validez convergente: existe validez convergente cuando las mediciones del
mismo rasgo realizadas con distintos métodos correlacionan entre sí. El hecho
de que un mismo rasgo sea detectado por igual con varias metodologías dife-
rentes, es un indicador fiable de la existencia real de ese rasgo. Se dice que en
este caso, las medidas convergen.
Validez discriminante: se refiere al grado de diferenciación entre distintos
constructos a partir de un único sistema de medición. Es decir, las medidas de
distintos rasgos por el mismo método muestran una baja correlación en com-
paración con la que muestran las medidas del mismo rasgo con diferentes mé-
todos, señal de que los rasgos son independientes entre sí, e independientes al
sistema Muñiz, José (1998).
Confiabilidad.
La confiabilidad en el instrumento psicométrico mas que ser una característi -
ca de una prueba, es una propiedad en las puntuaciones obtenidas cuando se admi-
nistra la prueba a un grupo particular de personas en una ocasión determinada y
bajo condiciones específicas. (Thompson, 1994, p. 85)
También la confiabilidad tiene dos caras, una interna y otra externa: hay
confiabilidad interna cuando varios observadores, al estudiar la misma realidad,
concuerdan en sus conclusiones; hay confiabilidad externa cuando investigadores
independientes, al estudiar una realidad en tiempos o situaciones diferentes, llegan
a los mismos resultados.
En las ciencias humanas es prácticamente imposible reproducir las condicio-
nes exactas en que “un comportamiento” y su estudio tuvieron lugar. Ya Herácli-
to dijo en su tiempo que "nadie se bañaba dos veces en el mismo río"; y Cratilo le
añadió que "no era posible hacerlo ni siquiera una sola vez", ya que el agua está
fluyendo continuamente (Aristóteles, Metafísica, iv, 5).
La Confiabilidad está orientada hacia el nivel de concordancia interpretativa
entre diferentes observadores, evaluadores o jueces del mismo fenómeno. Se con-
sidera un buen nivel de esta confiabilidad cuando alcanza un 70%.
La confiabilidad interna es muy importante. En efecto, el nivel de consenso entre
diferentes observadores de la misma realidad eleva la credibilidad que merecen las
estructuras significativas descubiertas en un determinado ambiente, así como la
seguridad de que el nivel de congruencia de los fenómenos en estudio es fuerte y
sólido.
La Teoría Clásica de los Tests
En el marco de la Teoría Clásica de los Tests, según el modelo lineal clásico
propuesto por Charles Spearman (1904, 1907, 1913); la puntuación empírica (X) que
obtiene un sujeto en un test, es la suma de dos componentes: la puntuación verdadera
(V) y el inevitable error de medida asociado al instrumento. Es decir, si a la
puntuación empírica (obtenida en la prueba) se le elimina el error de medida, se
obtendrá la puntuación verdadera. En este contexto, la fiabilidad hace referencia a la
proporción de la varianza verdadera, es decir, la parte de la varianza total que los
ítems discriminan por lo que tienen en común. Siguiendo este razonamiento,
obtendríamos:
Donde ρxx' es el símbolo de la fiabilidad de las
puntuaciones observadas (X); y , , y son las varianzas de las puntuaciones
empíricas, verdaderas y de error, respectivamente. Dado que no existe modo alguno
de determinar la puntuación verdadera directamente, existe una serie de métodos para
realizar una estimación de la fiabilidad.
Pruebas Paralelas
Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se
utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma
diferente (por ejemplo, dos tests que con diferentes preguntas midan un
determinado rasgo). Después se comparan los dos tests, calculando el coeficiente de
correlación de Pearson. Si la correlación es alta, se considera que hay una buena
fiabilidad. Al valor obtenido también se le conoce como coeficiente de equivalencia,
en la medida en que supone un indicador del grado de equivalencia entre las dos
formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos sean
realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan
exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales
en las que se pueda garantizar el paralelismo de ambas formas, este es el método más
recomendable. En estadística, el coeficiente de correlación de Pearson es un índice
que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de
la covarianza, la correlación de Pearson es independiente de la escala de medida de
las variables.
En el caso de que se esté estudiando dos variables aleatorias x e y sobre
una población estadística; el coeficiente de correlación de Pearson se simboliza con la
letra ρx,y, siendo la expresión que nos permite calcularlo:
Dónde:
σXY es la covarianza de (X,Y)
σX es la desviaciones típicas de la variable X
σY es la desviaciones típicas de la variable Y
También se puede calcular este coeficiente sobre un estadístico muestral, denotado
como rxy a:
Interpretación
El valor del índice de correlación varía en el intervalo [-1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice indica una depen-
dencia total entre las dos variables denominada relación directa: cuando una
de ellas aumenta, la otra también lo hace en proporción constante.
Si 0 < r < 1, existe una correlación positiva.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una rela-
ción inversa: cuando una de ellas aumenta, la otra disminuye en proporción
constante.
Test-retest
Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos veces
a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de
tiempo entre el test y el retest. Después se calcula la correlación de Pearson entre las
puntuaciones de ambas aplicaciones, y el resultado obtenido será el coeficiente de
fiabilidad. Se considera un caso específico de formas paralelas, dado que
evidentemente un test es paralelo a sí mismo. Al resultado obtenido se le denomina
coeficiente de estabilidad, al servir de indicador de hasta qué punto son estables las
mediciones realizadas durante la primera aplicación del test. Las diferencias en los
resultados se atribuyen al grado de consistencia interna o muestreo de los ítems de la
prueba en el caso de pasar el retest de forma inmediata, y se le suman las
fluctuaciones en el tiempo en el caso del intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede
suponer una amenaza a la validez interna por las posibles influencias externas a la
que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su
desempeño en la segunda aplicación. En el extremo opuesto, una aplicación
demasiado apresurada del retest podría afectar igualmente a la validez interna, en este
caso por los posibles efectos del recuerdo reciente de la primera aplicación. La
elección del intervalo de tiempo adecuado entre ambas aplicaciones dependerá en
gran medida del tipo de test, ya que en función de su formato puede ser más sensible
al efecto de una u otra amenaza.
Dos mitades
Este método sólo requiere una aplicación del test. Tras obtener las puntuaciones
obtenidas por los sujetos en cada una de las dos mitades en que se habrá dividido, se
procede a calcular la correlación entre las dos puntuaciones. El resultado obtenido
será un indicador de la covariación entre ambas mitades, es decir, de la consistencia
interna del test. Un sistema habitual es dividir el test entre los ítems pares y los
impares; no es recomendable dividirlo sin más por la mitad, dado que muchos tests
muestran un incremento gradual de la dificultad de sus ítems.
Otros métodos basados en la consistencia interna
Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabili-
dad de un test basado en su grado de consistencia interna. Indica el grado en
que los ítems de un test covarían.
Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplica-
bles a sendos casos particulares de alfa. KR20 se aplica en el caso en que los
ítems del test sean dicotómicos, y KR21, en el caso de que además de ser dico-
tómicos, tengan la misma dificultad.
Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir
de las puntuaciones obtenidas en sus dos mitades. Considera que la diferencia
entre las dos mitades se debe sólo al error aleatorio. Formula de Rulon:
ρ xx=1−σ 2
ρ−i
σ x2
Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la con-
sistencia interna, equivalente a la de Rulon.
Coeficiente beta (β): Propuesto por Raju (1977) para calcular la fiabilidad de
una batería compuesta por diversos subtests. En los casos en los que se desea
calcular la fiabilidad de una batería, se trata a los distintos subtests como si
fueran los ítems de un único test y se calcula el coeficiente alfa global. El pro-
blema surge en los casos en los que los distintos subtests no tienen el mismo
número de ítems, lo que suele ser lo más frecuente, y que repercute en una in-
fraestimación del alfa global. El coeficiente beta permite sortear esta infraesti-
mación.
Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los
ítems, son indicadores de la consistencia interna similares al coeficiente alfa.
El coeficiente theta fue desarrollado por Carmines y Zeller (1979); y el coefi-
ciente omega fue desarrollado por Heise y Bohrnstedt (1970).
Conclusión
La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de
las pruebas de los errores de medición por tal esta se define como la razón de la
varianza de las calificación real en una prueba con la varianza de su clasificación
observada.
Tres métodos tradicionales para estimar la confiabilidad de un instrumento de
evaluación son: test retest, pruebas paralelas y de dos mitades.
La confiabilidad a su vez es una prueba que varía directamente con el número
de reactivos del grupo que la presenta. También varía con el nivel de dificultad de los
reactivos que componen la prueba, siendo más alta con reactivos de dificultad
intermedia.
La validez es el resultado de un proceso de recopilación de evidencias
empíricas sustentado en supuestos teóricos que, en suma, permiten emitir un juicio
valorativo que afirme la pertinencia y la suficiencia de las interpretaciones basadas en
los resultados de una prueba.
La información sobre la validez de una prueba puede obtenerse de varias
maneras: analizando el contenido de la prueba (validez de contenido),
correlacionando las calificaciones del test con calificaciones en un criterio medidas al
mismo tiempo (validez concurrente), correlacionando las calificaciones de la prueba
en un criterio, medidas en un momento posterior (validez predictiva) y por el estudio
sistematico de lo adecuado de la prueba para valorar un constructo psicológico
especificando (validez de constructo). La validez concurrente y la de constructo son
importantes para las pruebas de personalidad.
Las pruebas psicológicas se aplican con propósitos de selección, clasificación,
promoción y valoración periódica, en algunos de los procedimientos estadísticos que
se utilizan son tablas de expectativas, razones de selección, métodos de limites
múltiples y regresión múltiple.
Recomendación
La continuación de la investigación de los temas tales como confiabilidad y
validez a los futuros estudiantes de psicología con respecto a los temas pertenecientes
a la asignatura de psicometría I, por ser un tema de suma importancia para el
desarrollo de test y evaluaciones psicológicas.
La formación de psicólogo depende del buen desarrollo de los temas de
psicometría I, y el profesionalismo de los docentes en la explicación y evaluación de
los contenidos asignados para tal materia, como es el caso del profesor Arquímedes
Ramírez, que motivo a la investigación y estudio de estos temas tan importantes para
el psicólogo.
Bibliografía
Tests psicológicos y evaluación, editorial: Pearson Educación, 2003 México
Teoría clásica de los tests (5ª edición). Editorial Pirámide.1998. Madrid
Papeles del psicólogo Edición empleado España (Consejo General de Colegios Ofi-
ciales de Psicólogos) publicado el 16 de febrero de 2011.
Aristóteles (1973). Obras completas. Madrid: Aguilar.