Post on 16-Oct-2015
0
ANTOLOGIA (Sntesis)
A S I G N A T U R A : E S T A D I S T I C A S P A R A
L A I N V E S T I G A C I O N
A N T O L O G I A . A u t o r : M . I . M a r i o
G o n z l e z
E l a b o r a c i n d e R e s u m e n : L . C . P .
S i l v i a A u r o r a C a s t i l l o M e d i n a
0 1 / 0 2 / 2 0 1 4
Resumen de la Antologa en donde se abordan los diferentes mtodos estadsticos en la investigacin
cientfica, desde la recopilacin de datos, su anlisis
hasta la prediccin.
1
CONTENIDO
INTRODUCCIN....3 1.- MTODOS CUANTITATIVOS EN LA INVESTIGACIN CIENTFICA......4 1.1. La importancia de las investigaciones mixtas.4 1.1.1. El mtodo de evaluacin clsico ex post...6 1.1.2. Modelo experimental clsico..7 1.1.3. El mtodo costo/beneficio...7 1.1.4. Relacin modificada C/B....8 1.1.5. El mtodo costo eficacia socioeconmica y el de anlisis del valor til..8 1.1.6. El mtodo de anlisis multicriterio.9 1.1.7. El mtodo de la valoracin hipottica....10 1.1.8. El mtodo de Leopold...11 1.1.9. El mtodo Delphi...12 1.1.10. El mtodo de impacto diferencial..12 1.2. Los sondeos y Las encuestas en la investigacin cientfica..12 1.3. Las grficas, histogramas y polgonos de frecuencia en la representacin de los datos....13
1.4.- Conceptos Bsicos de Estadstica.....14
2.- LAS VARIABLES DE ANLISIS...18 2.1. El objeto de Estudio en la investigacin...18 2.1.1. Las Variables cualitativas....19 2.1.2. Las Variables cuantitativas..19 2.1.2.1. Variables Discretas...19 2.1.2.2. Variables Continuas......20 2.2. La variable Independiente...20 2.3. La variable Dependiente..20 2.4. La Estadstica descriptiva e inferencial.20 2.5. La hiptesis Sustantiva e hiptesis nula......21
3.- EL MUESTREO: PORCIONES REPRESENTATIVAS EN LA INVESTIGACIN....23 3.1. Anlisis de la Poblacin.....23 3.2. Definicin del tamao de la muestra...23 3.3. Tipos de muestreos (Ventajas y Desventajas)...24 3.3.1. Muestreos Probabilsticos..24 3.3.2. Muestreos No probabilsticos26 3.4. El Error Estndar....27 3.5 Diferencias Absolutas y Relativas.27
4.-LA TEORA DE CONJUNTOS....27 4.1. Definicin, caractersticas y clasificacin....27 4.2. Tipos de Conjuntos.....28 4.3. Propiedades de los Conjuntos..29 4.4. Leyes de los Conjuntos..30 4.5. El Diagrama de Venn..30
5.- ESTADSTICA: PROPSITO, APROXIMACIN, MTODO31
2
5.1. La aproximacin bsica.31 5.2. Definicin y propsito de la estadstica.....32 5.3. Curva normal de probabilidad y desviacin estndar..32 5.4. Interpretacin de datos, usando la tabla normal de probabilidad; datos de frecuencia.34 5.5. Interpretacin de datos usando la curva normal de probabilidad; datos continuos....36 5.6. Varianza y Covarianza.....37 5.7. Anlisis de varianza..39 5.7.1. Fundamentos......39 5.7.2 Anlisis de varianza: un ejemplo sencillo39 5.7.3. Mtodo de anlisis de varianza...39 5.8. Anlisis de Frecuencias....40 5.8.1. Terminologa de datos y variables..........41 5.8.2. Clculo de porcentajes..43 5.8.3. Niveles de significacin estadstica.43 5.9. Estadstica Binomial.....43
6. ANLISIS, INTERPRETACIN, ESTADSTICA E INFERENCIA..44 6.1. Principios de anlisis e interpretacin44 6.1.1 Frecuencias y medidas continuas....45 6.1.2 Reglas de categorizacin..45 6.1.3 Clases de anlisis estadsticos....45 6.1.4 ndices..46 6.1.5 Indicadores sociales..46 6.1.6 Interpretacin de datos de investigacin....46
7. PROBABILIDAD.....47 7.1. Definicin de probabilidad......... 47 7.2. Espacios y puntos muestrales y eventos.....49 7.3. Eventos compuestos y sus probabilidades ..48 7.4. Independencia, exclusividad mutua y exhaustividad.....49 7.5. Probabilidad condicional.....49
8. MODELOS DE PREDICCIN.........50 8.1 Introduccin....... ..50 8.2 Mtodos ecomomtricos de prediccin....50 8.3 El modelo senoidal de minimos cuadrados..50 8.4 El modelo autorregresivo de prediccin....51 8.5 El modelo de prediccin de suavizamiento exponencial....53 8.6 El modelo de prediccin de promedios mviles exponencialmente ponderados....53 8.7 Otros modelos y mtodos de pronstico...53 8.7.1. El modelo de Rielly.......53 8.7.2. El modelo de Huff..54 CONCLUSIONES54 BIBLIOGRAFA55
3
INTRODUCCIN
Como proceso de indagacin, la ciencia supone un sistema de acciones y
procedimientos en constante perfeccionamiento, para alcanzar cada vez mayor eficiencia en sus
objetivos; es tambin, por tanto, objeto del proceder cientfico. La ciencia debe ser capaz, como lo ha indicado Popper, de describir, predecir y eventualmente
controlar los fenmenos de que se trata. Para ello cualquier rama de ciencia ha de contar con los
tres elementos bsicos que la caracterizan: instrumentos, tcnicas o mtodos, y teoras,
debidamente interrelacionados. Pero no solamente bastan los instrumentos y los mtodos o
tcnicas para su uso, sin el apoyo de teoras. La mayora de las disciplinas cientficas tienen
ricas conexiones entre sus ramas tericas y experimentales. A su vez, podemos decir con Ackoff que la metodologa puede ser considerada
como un tipo especial de solucionador de problemas, uno de los cuales lo constituyen los
problemas de investigacin.
El mtodo cientfico es la forma de abordar la realidad, de estudiar los fenmenos de la naturaleza,
la sociedad y el pensamiento, con el propsito de descubrir su esencia y relaciones.
Por otra parte, la tcnica constituye una operacin especial para recolectar, procesar o analizar
los datos, realizada bajo orientacin definida y, en consecuencia, est ms directamente
ligada a las etapas empricas de la investigacin.
4
1.- MTODOS CUANTITATIVOS EN LA INVESTIGACIN CIENTFICA
1.1. LA IMPORTANCIA DE LAS INVESTIGACIONES MIXTAS
Con la publicacin en 1849 del Discurso sobre el espritu positivo de Augusto Comte, se inicia
en las ciencias sociales un paradigma denominado positivista. Las ideas esenciales del
positivismo provienen de las denominadas ciencias exactas como la Fsica, la Qumica y
la Biologa; por tal motivo, los positivistas se fundamentaron en cientficos como Galileo Galilei,
Isaac Newton, Nicols Coprnico, Thomas Robert Malthus y Charles Darwin.
Por ello, para el positivismo, la objetividad es muy importante, el investigador observa, mide y
manipula variables; adems de que se desprende de sus propias tendencias (la relacin entre
ste y el fenmeno de estudio es de independencia). Lo que no puede medirse u observarse con
precisin se descarta como objeto de estudio.
El positivismo (muy rgido) fue remplazado por el pospositivismo, fundamentado en el anterior,
pero ms abierto y flexible; es una especie de padre del enfoque cuantitativo y le otorga
tres principales elementos que lo caracterizan:
1) Recolectar datos en la forma de puntuaciones (que se origina en las matemticas). Es
decir, los atributos de fenmenos, objetos, animales, personas, organizaciones y colectividades
mayores son medidos y ubicados numricamente.
2) Analizar tales datos numricos en trminos de su variacin.
3) La esencia del anlisis implica comparar grupos o relacionar factores sobre tales
atributos mediante tcnicas estadsticas (en el caso de las ciencias del
comportamiento, mediante experimentos y estudios causales o correlacionales). El enfoque
cuantitativo se consolida a lo largo del siglo XX y tiene momentos claves como los que
se presentan a continuacin.
En 1901 Pearson junto con Weldon y Galton fundan Biometrika, una revista que se
dedic al desarrollo de anlisis estadsticos en el campo de la Biologa. A finales del siglo XIX ha
nacido un pilar del enfoque cuantitativo: LA ESTADSTICA.
Durante los aos de 1930, se contina el desarrollo de pruebas psicomtricas y de logro, as como la
estadstica inferencial (conclusiones de la muestra a la poblacin) se comienza a utilizar y diversos
procedimientos se fortalecen.
En 1938, Elton Mayo publica junto con F. Yates, las tablas estadsticas para la
investigacin en la Agricultura, la Biologa y la Medicina. Asimismo, la Asociacin de
Educacin Progresiva en EE. UU. Comienza a realizar estudios longitudinales.
Durante la dcada de 1950, la investigacin cuantitativa se encuentra en su
5
apogeo, surgen diversas encuestas, experimentos, revistas cientficas, diseos, etc.
Tambin comienzan a desarrollarse las mquinas para calificar pruebas y la computadora.
En la dcada comprendida entre 1970 y 1980 se identifican diversos modelos causales multivariados
(por ejemplo, el modelamiento de ecuaciones estructurales), se desarrolla el meta-anlisis
(tcnica para analizar datos provenientes de distintos estudios con mediciones similares) y se
sugieren los tipos de validez (Thomas Dixon Cook y Donald T. Campbell, 1979), que
ms recientemente se conciben como clases de evidencia acerca de la validez.
En la ltima dcada del siglo XX surgen mediciones y anlisis multivariados ms
complejos, adems se consolida la idea de poder de medicin mediante la
utilizacin de diferentes instrumentos para medir las variables de investigacin. Los
programas de anlisis se sofistican y comercializan, y es aqu donde ahora estamos.
De acuerdo con Tashakkori y Teddlie (2003) adems de Mertens (2005), el enfoque mixto se basa
en el paradigma pragmtico. Esta visin evita utilizar conceptos como verdad y realidad que han
causado, desde el punto de vista de sus autores, conflictos entre los enfoques cuantitativo y
cualitativo.
Hacia el final de los aos de 1970, T. D. Jick introdujo los trminos bsicos de los diseos mixtos,
propuso recabar datos mediante tcnicas cuantitativas y cualitativas, e ilustr la triangulacin
de datos (Jick, 1979). Por tanto, el concepto de triangulacin fue clave para la concepcin de los
diseos mixtos
SNTESIS HISTRICA
CARACTERSTICAS Y SUPUESTOS
POSPOSITIVISMO CONSTRUCTIVISTA TRANSFORMATIVO PRAGMTICO
Etiquetas asociadas con el Paradigma
Experimental, Cuantitativo, Causal y Comparativo
Naturalista, Fenomenolgico,
Hermenutico, Interaccionista simblico
(interactivo), Etnogrfico y Cualitativo
Teora Crtica, Neo- Marxista, Feminista,
Participativo y Emancipatorio
Mtodos y modelos mixtos o hbridos
Supuesto de realidad Una realidad conocida en trminos de probabilidad
Mltiples realidades construidas socialmente
Mltiples realidades formadas por el
Contexto social. Poltico, econmico o tnico
Lo que es til para explicar un fenmeno
es lo verdadero
6
Supuesto del
conocimiento y relacin entre el Observador y el Fenmeno
La objetividad es importante, el investigador observa, mide y manipula variables, se desprende de sus tendencias.
El conocimiento es
interactivo producto entre el vnculo entre el investigador y los participantes. Los
valores y tendencias entre todos los involucrados son hechas explicitas, generan
descubrimientos
El conocimiento es
interactivo producto entre el vnculo entre el investigador y los participantes. Se sita social e histricamente.
Las relaciones entre el
investigador y el
fenmeno, o participantes del
estudio, estn determinadas por lo que el investigador
considera como apropiado para cada estudio en particular
Supuesto Metodolgico
Bsicamente cuantitativo e intervencionista
Bsicamente cualitativo, Hermenutico y dialectico
Con bases cualitativas pero pueden usarse
Mtodos cuantitativos y mixtos, los factores histricos estn incluidos.
El mtodo depende del planteamiento especfico del estudio. Son vlidas las tcnicas, cualitativas cuantitativas y mixtas.
1.1.1. EL MTODO DE EVALUACIN CLSICO EX POST
Este mtodo se lleva a cabo durante la etapa de explotacin del proyecto para
determinar si es conveniente continuar con l o definir los requerimientos de reprogramacin
necesarios para lograr los objetivos de impacto perseguidos. La medicin de los
impactos se realiza mediante la comparacin entre el estado "inicial" de la poblacin
objetivo (lnea de base, LB) y otro de "comparacin" que es la situacin existente despus
de un tiempo de explotacin del proyecto (lnea de comparacin, LC), eliminando (o tratando
de minimizar) la incidencia de factores externos. Adems tambin permite efectuar una
comparacin antes y despus en grupos de similares caractersticas que no hayan estado
influenciados por una intervencin similar a la del proyecto.
En el Modelo antes despus, si tenemos que: X' - X = Impacto en la poblacin beneficiaria en base
a la diferencia entre LB y LC. Es posible aumentar la confiabilidad de la estimacin a travs de la
incorporacin de variables de control. Es decir, hacer que los dos grupos sean los ms
parecidos posible en todas las variables externas al proyecto que pudieran incidir en el impacto (Uso
de series temporales), si se cuenta con informacin sobre indicadores de cambio en un conjunto de
perodos previos y posteriores al proyecto, es posible hacer un anlisis de series
temporales, para extraer conclusiones sobre los efectos imputables al mismo. Para ello, se
pueden construir curvas sobre la base de mediciones peridicas efectuadas "antes",
"durante" y "despus" de la realizacin del proyecto. Segn las formas que stas adopten se
trata de determinar la magnitud del impacto que el proyecto produjo.
GRUPOS TIEMPO
LB LC
Con Proyecto (C/P) X X
7
1.1.2. MODELO EXPERIMENTAL CLSICO El modelo experimental clsico exige seleccionar aleatoriamente una muestra que se divide,
tambin aleatoriamente, en dos sub-muestras, el grupo con proyecto o poblacin
beneficiaria (grupo experimental) y el grupo sin proyecto (grupo de control). Estas sub-muestras se
seleccionan antes de iniciarse la operacin del proyecto (en la situacin de lnea de base) y deben
diferir slo en que la primera recibe los bienes o servicios del proyecto y la segunda no. Tomando
en cuenta la seleccin aleatoria de ambos grupos, las diferencias iniciales entre ellos, si las hay,
debieran ser mnimas. Es decir, entre X e Y no deben existir diferencias
estadsticamente significativas. As, el modelo compara la situacin en que se encontraban los
dos grupos en la lnea de base (L B), con la situacin en la lnea de comparacin (L C). A
partir de ello se verifican los cambios generados por el proyecto.
El siguiente cuadro permite apreciar la lgica del modelo experimental y el tipo de clculo que se
efecta al evaluar el proyecto.
GRUPOS TIEMPO
LB LC
Con Proyecto (C/P) X X
Sin Proyecto (S/P) Y Y
X, X', Y, Y' = Valores del indicador de impacto de un objetivo
La magnitud en que difieran los cambios producidos en el grupo con proyecto (X' - X), en
cada objetivo de impacto, respecto a los del grupo sin proyecto (Y' - Y), ser una medida del
Impacto del proyecto en dicho objetivo.
1.1.3. EL MTODO COSTO/BENEFICIO
El mtodo CostoBeneficio(C/B) se basa en la relacin de los costos (C) y los beneficios (B)
asociados con un proyecto particular. Su fin es maximizar el valor actual de la diferencia
entre beneficios y costos totales, sujeto a restricciones especficas. Un proyecto se considera
atractivo cuando los beneficios derivados desde su implantacin exceden a los costos
asociados. Por tanto, el primer paso en el anlisis C/B es determinar qu elementos
constituyen los beneficios y cules son sus costos.
Como el anlisis C/B siempre se utiliza en los estudios econmicos realizados por el Estado, es til
pensar que el propietario es el pblico y el que incurre en los costos es el gobierno. La consideracin
de s un tem dado debe considerarse como B, D o C, depende, por lo tanto, de a quin afectan
sus consecuencias. Es decir, situaciones en las que la produccin o el consumo imponen otros
costos por los que no se recibe compensacin alguna.
Antes de calcular una relacin C/B, todos los beneficios, perdidas, y costos que se utilizarn en el
8
clculo, deben convertirse a una unidad monetaria comn, como en los clculos de valor
presente, valor futuro, o unidades monetarias por ao, como en las comparaciones de costo anual.
Independientemente del mtodo utilizado en el anlisis C/B, es importante expresar
tanto el numerador (C) y el denominador (B, D) en los mismos trminos, as como dinero presente
o dinero futuro.
Hay varias formas de relaciones de C/B. La relacin convencional C/B, es probablemente la ms
utilizada y se calcula como sigue:
C/B = C / B D
Una relacin C/B menor de 1, indica la viabilidad del proyecto y, entre ms se aproxime a cero, la
relacin expresar que el proyecto evaluado es econmicamente ms ventajoso. En los anlisis
de C/B, los costos no van precedidos por el signo negativo.
1.1.4. RELACIN MODIFICADA C/B
La relacin modificada C/B, es un soporte valiossimo, pues incluye los costos de
operacin y mantenimiento (O & M) en el denominador y se trata de manera similar a
un D. El numerador, entonces, contiene solamente el costo de la inversin inicial. Una vez que
todas las cantidades sean expresadas en trminos de valor presente, valor anual o valor futuro, la
relacin modificada de C/B
se calcula como:
C/B Modificado = Inversin inicial / (B D (O+M))
1.1.5. EL MTODO COSTO EFICACIA SOCIOECONMICA Y EL DE ANLISIS
DEL VALOR TIL
El anlisis costoeficacia y el anlisis del valor til, son dos mtodos de evaluacin que facilitan la
eleccin de proyectos o alternativas de proyecto. En los dos mtodos, los diferentes efectos de un
proyecto son medidos segn las diversas dimensiones para ser transformados,
seguidos del intermediario de las funciones de valor til en escalones para la realizacin de un
objetivo. Haciendo una abstraccin de las dimensiones tomadas en cuenta al origen
(evaluacin bajo la forma de puntos). Los efectos individuales evaluados de esta forma,
son todos ponderados por coeficientes que revelen la importancia del objetivo y los anexos por
obtener un valor til global.
Ahora bien, el anlisis costoeficacia, se distingue del anlisis del valor til esencialmente por el
hecho que, en el primer caso, los costos son medidos en unidades monetarias y confrontados a
los valores tiles, los costos son igualmente transferidos sobre escalas de ndices
desprovistos de dimensiones. As, el anlisis costo eficacia tiene dimensiones diferentes del lado
de los costos y de las ventajas, que en algunos casos, pueden presentar dificultades, por lo cual se
precisa establecer un orden de prioridades fiables por los proyectos alternativos.
9
1.1.6. EL MTODO DE ANLISIS MULTICRITERIO
Se aplican diversos mtodos que permiten establecer un orden de prioridad sobre las alternativas a
comparar.Para la determinacin de los resultados a menudo se utiliza un modelo de forma de matriz,
donde las filas representan las alternativas de los proyectos y las columnas los
objetivos y los criterios correspondientes. La determinacin del orden de prioridades se
efecta normalmente durante una serie ordinal. As, las alternativas se confrontan, por ejemplo:
individualmente para cada criterio y se evalan con los criterios mejor o peor.
Proyecto A > Proyecto C
Proyecto B > Proyecto A
Proyecto B > Proyecto C
El orden de prioridades en este caso es B > A > C.
La evaluacin multicriterio permite organizar por orden de deseabilidad (de menor a
mayor impacto) un conjunto de alternativas de inversin (por lo general mutuamente
excluyentes) Sin embargo, no nos dice nada sobre la deseabilidad en s de cada alternativa,
(excepto en determinadas variantes), sino que slo informa de las deseabilidades relativas entre
alternativas. Existen muchas variantes del mtodo de evaluacin multicriterio, de las dos grandes
familias son:
La que utiliza pesos (anglosajona)
La que utiliza algoritmos sin requerir pesos (francesa),
En la confeccin de un anlisis multicriterio se pueden seguir los siguientes pasos:
1. Se deciden las alternativas a ordenar, un nmero habitual de alternativas es 2, 3, 4
2. Se deciden los criterios relevantes para la ordenacin, un nmero habitual de criterios es 3, 4, 5, 6
3. Se deciden los pesos relativos de cada criterio por decisin propia, por Delphi, por indicacin de las
autoridades o cualquier otro procedimiento. Un mtodo mixto es el de ordenacin completa,
donde se decide a priori el orden de importancia de los criterios y se obtienen los pesos segn la
frmula:
= peso relativo,
r = nmero de orden en la ordenacin, y
j = criterios, hasta n
4. Se valoran los impactos en sus propias unidades, de forma cuantitativa o cualitativa.
5. Se normalizan estos valores para que sean comparables las unidades. Hay muchas formas de
normalizar, por ejemplo:
10
El valor normalizado del impacto de la alternativa i = valor de i / suma de valores del criterio:
Da valores entre 0 y 1.
El valor normalizado del impacto de la alternativa i = valor de i / valor mximo del criterio:
Da valores entre 0 y 1 y por funciones de transformacin del tipo Battelle.
6. Se agregan los valores individuales (de cada alternativa) de cada criterio; Por ejemplo con:
aij= valor normalizado del criterio j por la alternativa i,
j= peso relativo del criterio j, y siendo
IP= el ndice de pertinencia o valor agregado.
7. Se ordenan de acuerdo con los IP de las distintas alternativas.
1.1.7. EL MTODO DE LA VALORACIN HIPOTTICA
El mtodo consiste en simular un mercado hipottico por un bien en el precio del
cual puede observarse en un mercado real. A travs de una encuesta, que acta como
mercado, se simula la oferta, representada por el entrevistador, y la demanda, que revela la
intensidad.
El entrevistador pregunta al entrevistado si estara dispuesto a pagar ms, igual o
menos de una cantidad determinada por el bien pblico, y este proceso es repetitivo a fin de
arribar a la cantidad exacta de la disposicin del pago de la persona entrevistada. Mediante
encuesta busca encontrar el comportamiento de las personas ante el cambio (impacto).
Se puede preguntar de dos formas, abierta o cerrada.
De forma abierta
Cunto pagara como mucho por...?
En cunto le deberan compensar como mnimo por...?
De forma cerrada
Pagara esta cantidad por...?
Aceptara esta cantidad en compensacin por...?
En la forma abierta, se calcula la media o la mediana de la mxima disposicin a pagar por obtener o
evitar el impacto. Tambin, se calcula la media o la mediana de la mnima
disposicin a ser compensado por permitir o renunciar al impacto. En la forma cerrada, se ofrece
el impacto por una cantidad econmica determinada (a pagar o a ser compensado). La cantidad
econmica vara de una sub-muestra a otra y se calcula la proporcin de personas que dicen s al
pago (o compensacin) y se dibuja la curva de supervivencia correspondiente, calculndose la
media (rea bajo la curva) o la mediana (valor que corresponde a una probabilidad de 0,5).
Ventajas
Muy flexible en su aplicacin
11
Permite medir exactamente el impacto deseado
Puede medir situaciones ex-ante y ex-post
Puede medir valores de uso y no uso
Limitaciones
Suele ser bastante costoso
Suele requerir mucho tiempo
A veces se basa en situaciones hipotticas que no incentivan a dar respuestas pensadas
Puede utilizarse como alternativa a la valoracin contingente
Sustituye las cantidades monetarias por una escala de puntos
Suele utilizarse para medir impactos paisajsticos, pero puede aplicarse a cualquier impacto
Pasos habituales en una encuesta
1. Definir el objeto de (valoracin de un impacto) con toda claridad
2. Decidir el tipo de entrevistas (telefnica, cara a cara, correo...)
3. Redactar estructuradamente un cuestionario
4. Probar el cuestionario en grupos reducidos y realizar una o varias pruebas piloto
5. Rectificar el cuestionario de acuerdo con el punto anterior, y volver al punto
anterior si las modificaciones han sido sustanciales
6. Decidir la poblacin, el tamao de la muestra y la forma de muestreo (aleatorio, sistemtico, por
cuotas, mixto...)
7. Realizar las entrevistas
8. Tabular los datos
9. Explotacin estadstica; valores con intervalos de confianza
10. Presentacin de resultados; valores expresados con sus unidades completas
1.1.8. EL MTODO DE LEOPOLD
Este mtodo est ms enfocado al anlisis de los impactos ambientales. En su versin original,
Leopold propona una matriz con acciones en las filas y caractersticas ambientales en las
columnas. En realidad se trataba de dos matrices, dado que cada elemento contena dos valores
normalizados (entre 1 y 10):
Magnitud
Importancia
Con los valores normalizados, y utilizando la magnitud como el valor del impacto y la importancia
como su peso, se puede proceder a la agregacin de impactos de forma similar
al anlisis multicriterio. La agregacin de impactos puede hacerse por filas (acciones),
columnas (medio) o para el total de impactos de la inversin. De esta forma se pueden ordenar
las distintas alternativas de inversin segn la severidad del impacto.
12
1.1.9. EL MTODO DELPHI
Se trata de un procedimiento de consulta a expertos que suele pretender la prediccin, cuantificacin
o calificacin de impactos (u otras caractersticas) por consenso. Suele aplicarse como prospectiva y
en otros contextos. Sus dos elementos ms caractersticos son: la consulta, la cual se
restringe a expertos y la vocacin de consenso. Toma su nombre del proyecto Delphi (Delfos)
de la empresa Rand que pretenda predecir por medio de un consenso un futuro escenario
militar despus de la segunda guerra mundial.
Tiene diversas variantes, la ms utilizada es la de encuestas sucesivas a expertos; tambin se
pueden realizar sesiones de discusin annima o no. En cada nueva ronda se suele informar a los
expertos de los resultados estadsticos de las respuestas del conjunto de expertos en la ronda
anterior, y se pide a cada experto la reconsideracin de su postura. Habitualmente, dos, tres o
cuatro rondas son suficientes para llegar a un consenso o a una situacin sin cambios. La seleccin
de expertos se suele realizar con criterios de diversidad. El nmero vara bastante entre los ejercicios
aunque suele ser de unas pocas decenas (una, dos, tres).
Ventajas:
Muy flexible en su aplicacin
Permite medir exactamente el impacto deseado
Puede medir situaciones ex-ante y ex-post
Suele ser poco costoso
Puede hacer apreciaciones cuantitativas o cualitativas
Puede cuantificar en cualquier unidad
Limitaciones:
Suele requerir bastante tiempo (excepto en la modalidad de sesiones simultneas)
Excepto si se remunera. La colaboracin de expertos puede ser relativamente limitada.
Slo recoge la visin de expertos (tiende a utilizarse como ltimo recurso)
1.1.10. EL MTODO DE IMPACTO DIFERENCIAL
El impacto diferencial mide la diferencia entre el impacto con proyecto (inversin) y el impacto sin
proyecto (que es la evolucin que se espera del status quo de no realizarse la
inversin). Ello implica:
1. Calcular la diferencia directamente (Ej. lugares de trabajo adicionales)
2. Calcular el valor de la variable sin y con proyecto (Ej. lugares de trabajo totales
con proyecto menos lugares de trabajo totales sin proyecto).
1.2. LOS SONDEOS Y LAS ENCUESTAS EN LA INVESTIGACIN CIENTFICA
a) La Encuesta.- Es uno de los mtodos que permite obtener informacin sobre fenmenos y
13
procesos, que no puede ser adquirida a partir de la observacin directa ni de los
distintos documentos existentes. Una encuesta planificada y realizada de manera
metdicamente correcta facilita el anlisis de muchos hechos y situaciones sociales, de
ah el peso tan grande que poseen en las investigaciones sociales. La informacin
proveniente de ellas es fuente de datos fundamental, por ejemplo, para el estudio de diferentes
fenmenos sociales como la poblacin econmicamente activa o los niveles y tendencias de variables
tales como la fecundidad y la migracin.
b) El Sondeo.- Es un mtodo para realizar investigaciones con fines de diagnstico o
caracterizacin de sistemas.
Se reportan como ventajas de este mtodo:
1. Su costo relativamente bajo (tanto en el sentido institucional como en la magnitud del retorno de
los recursos empleados).
2. Es rpido (una a dos semanas) y se obtienen resultados inmediatos.
3. Bien realizado, ha demostrado ser tan til como una encuesta aleatoria con cuestionario.
4. Es conducido directamente por los miembros del equipo del proyecto.
5. Permite fcilmente la integracin inmediata al equipo, de productores de las
comunidades investigadas. Por ello y no por utilizar cuestionarios, reduce sesgos (respecto a
otros mtodos) en la informacin lograda.
6. Permite, exige y de cierta manera fuerza a una relacin interdisciplinaria entre los miembros del
equipo y con la comunidad objetivo.
7. Es un proceso secuencial, iterativo y dinmico.
8. Permite iniciar el conocimiento sobre la cosmovisin del productor. (Aqu se destaca la necesidad
de que participen cientficos sociales en el trabajo).
9. En funcin de los sistemas de produccin presentes, permite indagar de inmediato
sobre el proceso histrico-social que los ha definido, entenderlos mejor y as prever resultados
a futuro, de acuerdo con las modificaciones y soluciones que se propongan.
1.3. LAS GRFICAS, HISTOGRAMAS Y POLGONOS DE FRECUENCIA EN LA
REPRESENTACIN DE LOS DATOS La importancia y utilidad que las representaciones grficas pueden alcanzar en el proceso de anlisis
de datos. La mayora de los textos estadsticos hacen hincapi en los distintos tipos de grficos que
se pueden crear, como una herramienta imprescindible en la presentacin de resultados y el
proceso de anlisis estadstico. No obstante, es difcil precisar cundo es ms apropiado utilizar
un grfico que una tabla. Ms bien podremos considerarlos dos modos distintos pero
complementarios de visualizar los mismos datos. La creciente utilizacin de distintos programas
14
informticos hace especialmente sencillo la obtencin de las mismas. La mayora de los paquetes
estadsticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades en este
sentido, siendo posible elaborar otros grficos, incluso tridimensionales, permitiendo grandes
cambios en su apariencia y facilidad de exportacin a otros programas para presentar finalmente
los resultados del estudio.
EJEMPLOS GRFICOS
Figura 3. GRAFICO DE SECTORES GRAFICO DE BARRAS
Ejemplo de un histograma correspondiente a los datos de la
HISTOGRAMA POLIGONO DE FRECUENCIAS
GRAFICO DE LINEAS DIAGRAMA DE BARRAS AGRUPADAS
15
DIAGRAMA DE DISPERSION DIAGRAMA DE LINEAS SUPERPUESTAS
DIAGRAMA DE DISPERSION CURVA ROC (Regresin Logstica)
1.4.- CONCEPTOS BSICOS DE ESTADSTICA
Una MEDIDA DE CENTRALIZACIN es un valor, que es representativo de un conjunto
de datos y que tiende a situarse en el centro del conjunto de datos, ordenados segn su
magnitud.
a) Mediana.- Es el valor de la variable estadstica que divide en dos partes iguales a los
individuos de una poblacin, supuestos ordenados en orden creciente. En general, es el valor
donde la funcin de distribucin F(x) toma el valor 1/2, pero as definida puede no ser nica en
cuyo caso se toma la media aritmtica de los valores de mediana, o no existir en cuyo
caso se toma como mediana el valor de la poblacin ms cercano a esa mediana 'ideal'.
b) Moda.- Es el valor ms frecuente de la variable estadstica; valor que se corresponde
al mximo del histograma. Si la variable es discreta, puede darse el caso de que haya ms de una
mediana.
16
c) Media Aritmtica.- Es la suma de los productos de los posibles valores que tome la variable xi,
entre el nmero de valores que esa variable contenga.
Las MEDIDAS DE DISPERSIN son medidas que representan el grado en el que los valores
numricos tienden a extenderse alrededor de un valor medio.
1) Recorrido.- Es la diferencia entre el mayor y menor valor de una variable estadstica.
2) VARIANZA.- Una forma natural de medir la dispersin en torno a la media es calcular la media
de las diferencias:
Pero como habr valores por encima y por debajo de la media que se compensarn,
calcularemos mejor el cuadrado de las diferencias. Se define as varianza de una variable
estadstica, como la media de los cuadrados de las desviaciones de sus valores respecto a su
media. Se representa por
s2:
Se distingue aqu entre los casos de variable estadstica y variable aleatoria. En el
primer caso, tendremos una serie de valores concretos, de los que vamos a calcular su
varianza, la varianza muestra. En el caso de variable aleatoria, estaremos calculando una
varianza estimada, ya que no estamos tomando muestras de un conjunto de datos inmenso y
por lo tanto la media y varianza son estimadas, no conocidas. La expresin que la define cambia en
un pequeo detalle: en vez de dividir el resultado de la suma entre (n-1), se divide entre
(n), as:
La varianza es una medida de tendencia central. Esto quiere decir que te ayuda a determinar qu
tan alejados o cercanos estn tus datos del centro; es decir, del promedio o de la media.
3) Desviacin Tpica (o Estndar).- Es la raz cuadrada de la varianza.
Al igual que con la varianza, se distinguen los casos de variables aleatorias y estadsticas. En
esta frmula se expresa tambin la desviacin tpica muestra, que es la que usaremos.
17
4) Coeficiente De Variacin.- Es el cociente entre la desviacin tpica y la media. Eliminamos
con esta medida la influencia de la escala escogida en las mediciones efectuadas.
5) Poblacin.- Es el conjunto de todos los elementos que cumplen ciertas propiedades y
entre los cuales se desea estudiar un determinado fenmeno (pueden ser hogares,
nmero de tornillos producidos por una fbrica en un ao, lanzamientos de una moneda, etc.
). Llamamos poblacin estadstica o universo al conjunto de referencia sobre el cual van a recaer
las observaciones.
6) Muestra.- Es el subconjunto de la poblacin que es estudiado y a partir de la cual se sacan
conclusiones sobre las caractersticas de la poblacin. La muestra debe ser
representativa, en el sentido de que las conclusiones obtenidas deben servir para el total
de la poblacin.
7) Individuo.- Cada uno de los elementos de la muestra o de la poblacin (personas, tornillos,
hospitales, comercios) y sobre los que recaer la observacin.
8) Variable.- Cada uno de los rasgos o caracterstica de los elementos de una
poblacin y que varan de un individuo a otro (salario, color de ojos, sexo, nmero de hijos).
Las variables pueden corresponder a cuatro niveles de medicin:
Nominal: hace referencia a datos que slo pueden clasificarse en categoras; existen slo
conteos; no existe orden particular para los grupos. Ejemplo: color de ojos.
Ordinal: corresponde a aquellos datos que se pueden agrupar en categoras y ordenarlas
segn algn tipo de gradacin. Ejemplo; nivel de dolor, nivel de preferencia.
de Intervalo: incluye todas las caractersticas de la escala ordinal, pero adems la
distancia entre valores es constante pues los valores que toma este tipo de variables
corresponde al orden de los nmeros naturales. Ejemplo: nmero de hijos.
de Razn: tiene las caractersticas de la escala de intervalo, pero se agrega un punto cero
absoluto tal que significa ausencia del atributo y la razn o cociente de dos
nmeros es significativo pudindose aplicarles todo tipo de instrumental matemtico.
Ejemplo: ingreso familiar.
9) Marco.- Conjunto de elementos de la poblacin total disponibles para la eleccin de la
muestra. En ocasiones todos los elementos de la poblacin estn disponibles y
por lo tanto marco = poblacin. Ej. Poblacin total alumnos, marco alumnos presentes
10) Unidad Muestral.- Unidad seleccionada de la poblacin para la aplicacin de la tcnica de
investigacin. Puede ser un elemento poblacional nico o un conjunto de elementos. Ej.
Personas, filas., etc.
11) Parmetro.- Es una medida de resumen que se calcula para describir una caracterstica de
toda la poblacin. Ej. Censo, promedio de notas.
18
12) Cuartiles.- Se llaman cuartiles a tres valores que dividen la serie de datos
en cuatro partes iguales. Se representan por Q1; Q2 ; Q3
Observacin : El cuartil segundo, Q2 corresponde a la mediana, y los dems cuartiles, Q1;Q3,
se calcularan con la misma frmula de la mediana sustituyendo N/2 por N/4, y 3N/4, ya
que equivale al 25%, y al 75% de los datos.
13) Estadstica.- Ciencia que trata de la recoleccin, clasificacin y presentacin de
los hechos sujetos a una apreciacin numrica como base a la explicacin, descripcin
y comparacin de los fenmenos. (Yale y Kendal, 1954).
2.- LAS VARIABLES DE ANLISIS
2.1. EL OBJETO DE ESTUDIO EN LA INVESTIGACIN
De acuerdo al Dr. Guillermo Orozco Gmez, en el proceso de investigacin el primer paso es
intuitivo; uno tiene una intuicin de que por aqu hay algo que vale la pena explorar, es como una
intuicin de por dnde y cmo agarrar un determinado objeto de estudio.
Despus viene un momento en el cual se tiene que pasar de la intuicin a ponerlo en
forma de problematizacin; es decir, se constatan algunos indicios o algunos hechos y se pregunta
sobre eso, se cuestiona, se problematiza un cuerpo de conocimientos para tratar de ir
encontrando una manera de llegar a una pregunta.
A partir de all hay que volver a la parte ms racional de plantear una pregunta coherente
con esta aproximacin inicial, plantear un objetivo, y cul es la metodologa ms apropiada para
dar cuenta de ese objetivo.
Ya se trate de una hiptesis o de una premisa, yo creo que es mucho la intuicin
ilustrada del investigador lo que hace que uno pueda ir quitando cosas y
aproximndose.
Cuando no sabes, tienes que empezar de manera muy inductiva, no puedes empezar de manera
deductiva. En la investigacin cualitativa uno va haciendo sentidos, es muy importante el hacer
sentido, porque uno no tiene claro desde el principio, ni debiera tener desde el principio de la
investigacin, una especie de modelo de investigacin, porque uno encasilla lo que puede ser un
proceso mucho ms rico que va a desbordar eso.
19
El proceso de construccin del objeto ocurre ms o menos de la misma manera, con estas dos
grandes vertientes: la de teora fundada donde uno tiene una mnima informacin sobre lo que
quiere, y otra donde ya hay mucha informacin y t ya sabes, y simplemente quieres ver un
aspecto, profundizar en algo, hacer un cambio y ver si tambin, en este sentido, se
sigue manteniendo la misma comprensin del fenmeno.
2.1.1. LAS VARIABLES CUALITATIVAS
Las variables pueden ser clasificadas como cuantitativas (intervalares) o cualitativas
(categricas), dependiendo si los valores presentados tienen o no un orden de magnitud natural
(cuantitativas), o simplemente un atributo no sometido a cuantificacin (cualitativa).
Una variable es medida utilizando una escala de medicin. La eleccin de la(s)
escala(s) de medicin a utilizar depende, en primer lugar, del tipo de variable en estudio, y,
adems, del manejo estadstico a la que se someter la informacin. En trminos prcticos, existe
una correspondencia directa entre el concepto de variable y escala de medicin. Un atributo
corresponde a un valor especfico de una variable.
Normalmente la descripcin de datos comienza con la tabulacin de estos. El objetivo de las tablas
de frecuencias es ordenar y clasificar los datos observados. Estas tablas permiten,
adems de sintetizar la informacin contenida en los datos, extraer de forma rpida una descripcin
bsica de la muestra; como la moda o modalidad de mayor frecuencia o el nmero de
modalidades distintas observadas.
Hay variables cualitativas cuyas modalidades pueden ser ordenadas segn cierta escala
y que se llaman ordinales. Estas variables son de uso muy frecuente en encuestas
sociolgicas cuando se quiere investigar el grado o nivel con que cierto fenmeno se presenta en
un conjunto de individuos. Algunos ejemplos pueden ser los siguientes: nivel de estudios, nivel de
aceptacin de cierta medida del gobierno o nivel de satisfaccin con la labor docente de un
profesor.
2.1.2. LAS VARIABLES CUANTITATIVAS
2.1.2.1. VARIABLES DISCRETAS
Se trata ahora de describir variables numricas que toman valores enteros. Si con
variables cualitativas las frecuencias se han calculado para cada modalidad
aisladamente, ahora tambin podemos calcular frecuencias acumuladas. La diferencia con la
situacin anterior es que ahora las clases son numricas que podemos ordenar en la
escala de los nmeros enteros. Una frecuencia acumulada de una clase es la suma de
frecuencias de la propia clase y de las clases inferiores a ella. Es por lo que carece de sentido
calcular frecuencias acumuladas en variables cualitativas.
20
2.1.2.2. VARIABLES CONTINUAS
Una variable es continua si toma valores en cualquier intervalo de la recta real. El nmero de valores
distintos observados suele ser alto o casi coincidir con el tamao de la muestra, de forma que
para construir una tabla de frecuencias hay necesariamente que agrupar stos en clases de intervalo.
2.2. LA VARIABLE INDEPENDIENTE
Variable que puede cambiar libremente su valor, as como el primero, sin que su
valor se vea afectado por alguna otra(s) variable(s). Generalmente, una variable independiente
es la entrada de una funcin y normalmente se denota por el smbolo x, en tanto que
frecuentemente y se reserva para la variable dependiente.
Por ejemplo, en y = f(x) = x 2, x es la variable independiente y y es la variable dependiente.
Se permite que la variable x cambie libremente, en tanto que el valor de y tiene que cambiar conforme
cambia x.
Las variables independientes son las que se manipulan deliberadamente para invocar un cambio en
las variables dependientes. En fin, si x se da, entonces y ocurre ", donde x representa las variables
independientes y y representa las variables dependientes.
Dependiendo del contexto, las variables independientes tambin se conocen como
variables del predictor, regressors, variables controladas, variables manipuladas, o variables
explicativas. Tambin se conoce como variable de la respuesta, regressand, variable medida,
variable que responde, variable explicada, o variable del resultado.
2.3. LA VARIABLE DEPENDIENTE
Es aquella cuyos valores dependen de los que tomen otra variable. Siendo el objeto,
proceso o caracterstica a estudiar y que modifica su estado con la modificacin de la variable
independiente (es decir que depende de ella y que en esa medida es un efecto).
2.4. LA ESTADSTICA DESCRIPTIVA E INFERENCIAL
La estadstica se emplea en aquellos casos en los que se tiene una gran cantidad de
observaciones y cuya aparicin se rige por las leyes del azar. Es decir, se aplica a fenmenos cuya
medicin requiere una coleccin de observaciones, pues hay algunos fenmenos que se presentan
en masa, pero para los que no se requiere observacin alguna, pues se conocen a priori.
Para que sean de utilidad los datos estadsticos tienen que tener dos caractersticas bsicas:
1) Deben ser pertinentes: deben guardar una relacin con el tema en cuestin.
21
2) Deben ser insesgados: no deben tener deformaciones provenientes de prejuicios o de
errores de los instrumentos empleados.
Se puede dividir la estadstica en dos grandes ramas: la estadstica Descriptiva y la
estadstica Inferencial.
Estadstica Descriptiva: procedimientos empleados para organizar y resumir
conjuntos de observaciones en forma cuantitativa. El resumen de los puede hacerse mediante
tablas, grficos o valores numricos. Los conjuntos de datos que contienen observaciones
de ms de una variable permiten estudiar la relacin o asociacin que existe entre ellas.
Estadstica Inferencial: mtodos empleados para inferir algo acerca de una poblacin basndose
en los datos obtenidos a partir de una muestra. Los datos estadsticos son
clculos aritmticos realizados sobre los valores obtenidos en una porcin de la poblacin,
seleccionada segn criterios rigurosos.
2.5 LA HIPTESIS SUSTANTIVA E HIPTESIS NULA
Las hiptesis cientficas son, en general, suposiciones, esto es, enunciados tericos
supuestos, no verificados pero probables, referentes a variables o a relacin entre variables. Desde
el punto de vista del problema a investigar, las hiptesis se pueden definir como soluciones
probables, previamente seleccionadas, al problema planteado, que el cientfico propone para ver, a
travs del proceso de investigacin, si son confirmadas por los hechos.
Los elementos estructurales de las hiptesis son las unidades de observacin, las variables
y las relaciones que unen a ambas y las variables entre s. [Las unidades de observacin
son las personas, grupos, objetos, actividades, instituciones y acontecimientos sobre los
que versa la investigacin social] En ltimo trmino la relacin entre los distintos elementos
estructurales y, a su vez, el conjunto de hiptesis, pueden ser expresadas mediante
diagramas lgicos.
Cualquier hiptesis formulada ha de cumplir, si se quiere evitar el fracaso, una serie de condiciones:
Deben ser conceptualmente claras y fcilmente comprensibles (conceptos definidos
previamente, de forma que se excluya toda ambigedad).
Los trminos usados deben poseer una realidad emprica (nunca han de
utilizarse trminos morales y trascendentes).
Deben ser especficas o susceptibles de especificacin a travs de sub-hiptesis (cuando
es muy amplia o general).
Deben hallarse en conexin con las teoras precedentes, en forma de confirmacin,
precisin, revisin, etc.
Deben poseer un cierto alcance general (no referirse a uno o unos pocos hechos, sino
presentar un valor de generalidad en el campo o sector al que se refieren)
Deben ofrecer una respuesta probable al problema objeto de la investigacin.
22
Se pueden clasificar como sigue:
1. Segn su naturaleza, las hiptesis se pueden distinguir, en:
Las hiptesis de sentido comn
Las hiptesis cientficas
Las hiptesis metafsicas
2. De acuerdo con su estructura, las hiptesis se pueden referir a una sola variable, a dos o ms. A
su vez, en el caso de referirse a ms de dos, pueden establecer una relacin de asociacin
simple entre las variables en cuestin o una relacin de dependencia. Por tanto,
es posible distinguir los siguientes tipos de hiptesis:
hiptesis de una sola variable,
hiptesis con dos o ms variables,
hiptesis con dos o ms variables y relacin de dependencia
3. Teniendo en cuenta su forma lgico-lingstica, las hiptesis pueden ser simples o
compuestas, segn estn formadas por un solo enunciado o por dos o ms.
Las simples se pueden dividir, a su vez, en
atributivas que implican la asignacin a un sujeto de una caracterstica, atributo o
variable y
relacionales que relaciona entre s diversos sujetos o variables.
Las compuestas, que implican el establecimiento de una relacin entre los
enunciados simples que comprenden, se dividen en
copulativas
disyuntivas
alternativas
condicionales
4. Conforme a su generalidad, se pueden clasificar en:
singulares si se refieren a un solo individuo;
particulares que ataen a slo una parte de una poblacin o conjunto;
universales limitadas, que aluden a toda una poblacin, pero dentro de un espacio o
tiempo definidos, y
universales estrictas que no tienen lmite alguno, ni en la poblacin, ni en el tiempo ni en
el espacio.
5. Por su funcin, se distinguen los siguientes tipos de hiptesis:
Hiptesis sustantivas que relacionan variables conceptuales o generales. Las hiptesis
sustantivas son las iniciales, las que motivan la investigacin.
Hiptesis que relacionan los indicadores derivados lgicamente de las hiptesis sustantivas.
Son las que se contrastan empricamente. Son hiptesis de segundo grado o sub-hiptesis
en relacin a las hiptesis sustantivas. Concretan stas en relacin a variables ms cercanas
a la realidad que las variables generales o conceptuales.
Hiptesis auxiliar de validez que supone hay una relacin entre los indicadores y las
23
variables conceptuales o generales. Las hiptesis auxiliares son necesarias, por ejemplo, en la
operacin de variables. Son las que conectan entre s conceptos de distinto nivel de
abstraccin.
Hiptesis auxiliar de generalizacin de la muestra a la poblacin. El cuarto tipo se refiere a
las investigaciones hechas con muestras. En ellas se observa la muestra en lugar y
representacin de las poblaciones enteras.
Una hiptesis generalmente se especifica por la estructura SI - ENTONCES (cuando intervienen dos
variables). Cuando las variables son ms de dos, las estructuras ms frecuentes son: Si P,
entonces Q, bajo las condiciones R y S. Si P1, P2 y P3, entonces Q.
3.- EL MUESTREO: PORCIONES REPRESENTATIVAS EN LA INVESTIGACIN
3.1. ANLISIS DE LA POBLACIN:
Cada dato numrico es un elemento de la poblacin o universo. Una Muestra es un
subconjunto pequeo de observaciones extradas de un universo o poblacin.
La Estadstica trabaja con poblaciones de
datos y con muestras extradas de las
mismas. Los conceptos de poblacin y
muestra a veces resultan ambiguos en su
aplicacin prctica.
Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo mdico en
el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes
de la ciudad. Alguien podra referirse al universo o poblacin censada teniendo en
mente el conjunto de los habitantes de la ciudad. Pero cuando hablamos en trminos
estadsticos, nos referimos a poblaciones o universos de datos.
3.2. DEFINICIN DEL TAMAO DE LA MUESTRA
Como todo el mundo sabe, en un estudio comparativo podemos cometer dos tipos de
errores, un error tipo I o a , que ocurre cuando se afirma que existe diferencia y en realidad sta es
cero, y un error tipo II o B, que consiste en declarar que no hemos encontrado diferencias estadsticamente significativas cuando s que son diferentes los dos grupos. Obviamente la realidad
no la conocemos, y precisamente vamos a efectuar un trabajo para intentar saber ms sobre sta.
Por tradicin se suele fijar en 0.05 y la potencia de la prueba 1- a entre 0.8 y 0.9, y salvo que tengamos alguna razn poderosa para cambiarlo ms nos vale no luchar con una
tradicin tan slidamente asentada en el mbito editorial cientfico.
24
En el caso de que estemos comparando dos proporciones, la varianza se puede
expresar en funcin de esas proporciones, con lo que podemos formular el tamao de muestra
necesario de la siguiente manera
El problema radica en que para determinar el tamao de muestra necesitamos conocer P1 y P2,
las proporciones en los dos grupos, que es precisamente lo que deseamos saber y para lo que
pensamos efectuar un trabajo de investigacin. La forma habitual de proceder consiste en
suponer un orden de magnitud de la tasa de respuesta en el grupo de control P1, basada en
la experiencia previa, en la literatura, en un estudio piloto o simplemente en la intuicin, y postular
qu diferencia D en esa respuesta se puede empezar a considerar ya de inters, de tal
manera que P2=P1+D. A partir de esos datos se calcula ya el tamao de muestra
necesario.
3.3. TIPOS DE MUESTREOS (VENTAJAS Y DESVENTAJAS)
3.3.1. MUESTREOS PROBABILSTICOS
Los mtodos de muestreo probabilsticos son aquellos que se basan en el
principio de equiprobabilidad. Slo estos mtodos de muestreo probabilsticos aseguran la
representatividad de la muestra extrada y son, por tanto, los ms recomendables. En los
muestreos aleatorios todos los elementos tienen la misma probabilidad de ser elegidos.
Muestreo Aleatorio Simple.- Es el mtodo conceptualmente ms simple. Consiste en extraer todos
los individuos al azar de una lista (marco de la encuesta). En la prctica, a menos que se
trate de poblaciones pequeas o de estructura muy simple, es difcil de llevar a cabo de forma
eficaz. El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada individuo de
la poblacin y 2) a travs de algn medio mecnico (bolas dentro de una bolsa, tablas de
nmeros aleatorios, nmeros aleatorios generados con una calculadora u ordenador, etc) se eligen
tantos sujetos como sea necesario para completar el tamao de muestra requerido. Este
procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la
poblacin que estamos manejando es muy grande.
Ejemplo: Se pretende determinar la prevalencia de Miedo en una explotacin de 250 ovejas: para
ello se deben examinar 61 animales (se supone una prevalencia del 30% y se desea una precisin
del 10% para un nivel de confianza del 95%): se obtienen 61 nmeros.
Muestreo Estratificado.- Diferentes razones orientan a tomar la decisin de dividir la poblacin total
en estratos o clases, y elegir en cada uno una muestra aleatoria. Los elementos en cada estrato
deben ser ms semejantes entre s que respecto a la poblacin. Ello conduce a un tamao ms
pequeo de la muestra total, o ante igual tamao, a una mayor precisin que si se selecciona a
partir del total de la poblacin. El resultado se conoce como un muestreo aleatorio estratificado.
25
El total de sub-muestras, constituye el total de la muestra de la poblacin. Y para cada una de ellas,
son aplicables los procedimientos expuestos para un muestreo aleatorio simple. En una muestra
aleatoria simple, la fraccin de muestreo es f=n/N, En un estrato hi ser fhi=nhi/Nhi.
El criterio de la asignacin proporcional al tamao es el de fh1=fh2=fh3=... De esta
manera, se reconoce un mayor peso a los estratos de mayor tamao. Se le conoce tambin como
el criterio de una asignacin uniforme de muestreo.
La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser
de diferentes tipos:
Afijacin Simple: A cada estrato le corresponde igual nmero de elementos muestrales.
Afijacin Proporcional: La distribucin se hace de acuerdo con el peso
(tamao) de la poblacin en cada estrato.
Afijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de modo
que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no
se suele conocer la desviacin.
Muestreo Sistemtico.- Cuando los elementos de la poblacin estn ordenados en fichas
o en una lista, una manera de muestrear consiste en
Sea
Elegir aleatoriamente un nmero m, entre 1 y k;
Tomar como muestra los elementos de la lista:
El mtodo tal como se ha definido anteriormente es sesgado si no es entero, ya que los ltimos
elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema
consiste en considerar la lista como si fuese circular (el elemento N+1 coincide con el
primero) y:
Sea k el entero ms cercano a ;
Se selecciona un nmero al azar m, entre 1 y N;
Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos
en k, a partir de m, teniendo en cuenta que la lista es circular.
Se puede comprobar que con este mtodo todos los elementos de la lista tienen
la misma probabilidad de seleccin.
Muestreo por Conglomerados.- En este muestreo, las unidades muestrales no son simples, sino
que son colectivos. Por ejemplo, las escuelas, los hospitales, etctera. Cada uno de
estos colectivos reciben el nombre de conglomeraciones.
26
Una vez elegidos los conglomerados:
Si son pequeos, el estudio de realiza con todas las unidades que lo componen.
Si son grandes, es imposible realizar el estudio con todos los elementos. Hay que recurrir a la
eleccin de una muestra de ese conglomerado.
Se pretende que los conglomerados sean homogneos entre s; sin embargo, que las unidades que
las componen sean heterogneas. Por ejemplo, la Facultad de Ciencias Polticas y la Facultad
de Derecho, como conglomerados son homogneos, en cambio, dentro de ellos, dentro del
conglomerado hay heterogeneidad porque hay alumnos, profesores, secretarios, etctera. La
diversidad se encuentra dentro del conglomerado.
3.3.2. MUESTREOS NO PROBABILSTICOS
A veces, para estudios exploratorios, el muestreo probabilstico resulta excesivamente costoso y se
acude a mtodos no probabilsticos, aun siendo conscientes de que no sirven
para realizar generalizaciones, pues no se tiene certeza de que la muestra extrada sea
representativa, ya que no todos los sujetos de la poblacin tienen la misma probabilidad
de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados
criterios procurando que la muestra sea representativa.
Muestreo por Cuotas.- Tambin denominado en ocasiones accidental. Se asienta generalmente
sobre la base de un buen conocimiento de los estratos de la poblacin y/o de los
individuos ms representativos o adecuados para los fines de la investigacin. Mantiene,
por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carcter de
aleatoriedad de aqul. Este mtodo se utiliza mucho en las encuestas de opinin.
Muestreo por Conveniencia.- Este tipo de muestreo se caracteriza por un
esfuerzo deliberado de obtener muestras representativas mediante la inclusin en la muestra
de grupos supuestamente tpicos. Es muy frecuente su utilizacin en sondeos
preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.
Muestreo por Criterio.- ste procedimiento se basa en el criterio o juicio del
investigador para seleccionar unidades muestrales representativas
Muestreo por Bola de Nieve.-Se localiza a algunos individuos, los cuales conducen a otros, y
estos a otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea muy
frecuentemente cuando se hacen estudios con poblaciones marginales, delincuentes, sectas,
determinados tipos de enfermos, etc. Se aplica en la ltima fase del muestreo, y consiste en
facilitar al entrevistador el perfil de las personas que tiene que entrevistar dejando su criterio,
la eleccin de las mismas, siempre y cuando cumplan con el perfil. Consiste a la vez, en
pedir a los informantes que recomienden a posibles participantes.
Tambin se denomina muestreo en cadena. Es ms prctico y eficiente que el anterior en cuanto
27
al costo, adems, gracias a la presentacin que hace el sujeto ya incluido en el
proyecto, resulta ms fcil establecer una relacin de confianza con los nuevos participantes,
tambin permite acceder a personas difciles de identificar.
3.4. EL ERROR ESTNDAR
Un mismo estimador ofrece distintos valores para distintas muestras del mismo tamao extradas de
la misma poblacin. Por lo tanto deberamos tener una medida de la variabilidad del
estimador respecto del parmetro que se trata de estimar. Esta variabilidad se mide
en trminos de la desviacin estndar del estimador, la cual recibe el nombre de error estndar.
El error estndar de un estimador T de un parmetro es la desviacin estndar del estimador.
As por ejemplo, si tomamos como estimador, entonces el error estndar est dado por:
Error de estimacin es el valor absoluto de la diferencia entre una estimacin particular y el valor
del parmetro.
En realidad por cada valor estimado del parmetro se tiene un error de estimacin por lo
general diferente. Sin embargo, es posible fijar un intervalo dentro del cual se encontrarn la
mayora de los valores de error de estimacin para un estimador y parmetro dados.
Los estimadores se usan cuando los parmetros que se incluyen en las frmulas
de los errores de estimacin son desconocidos.
3.5 DIFERENCIAS ABSOLUTAS Y RELATIVAS
Se llama frecuencia relativa de un valor x j, y la representamos por h j, al cociente entre la
frecuencia absoluta de x y el nmero total de datos que intervienen en la
distribucin:
siendo N el nmero total de datos
Se llama frecuencia relativa acumuladas de un valor x j , y la representamos
por H j , al cociente entre la frecuencia absoluta acumulada de x j y el nmero total de
datos que intervienen en la distribucin :
4.-LA TEORA DE CONJUNTOS
4.1. DEFINICIN, CARACTERSTICAS Y CLASIFICACIN
El trmino conjunto juega un papel fundamental en el desarrollo de las matemticas modernas;
Adems de proporcionar las bases para comprender con mayor claridad algunos aspectos de la teora
de la probabilidad. Su origen se debe al matemtico alemn George Cantor (1845 1918).
28
Se puede definir de manera intuitiva a un conjunto, como una coleccin o listado de
objetos con caractersticas bien definidas que lo hace pertenecer a un grupo determinado.
Para que exista un conjunto debe basarse en lo siguiente:
a) La coleccin de elementos debe estar bien definida.
b) Ningn elemento del conjunto se debe contar ms de una vez, generalmente, estos elementos
deben ser diferentes, si uno de ellos se repite se contar slo una vez.
c) El orden en que se enumeran los elementos que carecen de importancia.
A los conjuntos se les representa con letras maysculas A, B, C, ... y a los elementos
con letras minsculas a, b, c, ..., por ejemplo, el conjunto A cuyos elementos son los
nmeros en el lanzamiento de un dado.
A = {1, 2, 3, 4, 5, 6}
En base a la cantidad de elementos que tenga un conjunto, estos se pueden clasificar en conjuntos
finitos e infinitos.
Finitos.- Tienen un nmero conocido de elementos, es decir, se encuentran determinados por
su longitud o cantidad. Ejemplo: El conjunto de das de la semana.
Infinitos.- Son aquellos en los cuales no podemos determinar su longitud. Ejemplo: El conjunto
de los nmeros reales.
Existen dos formas comunes de expresar un conjunto y la seleccin de una forma
particular de expresin depende de la conveniencia y de ciertas circunstancias siendo:
Extensin.- Cuando se describe a cada uno de los elementos. A = {a, e, i, o, u}
Comprensin.- Cuando se enuncian las propiedades que deben tener sus elementos.
A = {x | x es una vocal}
Para describir si un elemento pertenece o no a un conjunto, se utiliza el smbolo de pertenencia o es
elemento de, con el smbolo , en caso contrario .
A = {1, 2, 3}
2 A; 5 A
4.2. TIPOS DE CONJUNTOS
Conjunto Vaci o Nulo.- Es aquel que no tiene elementos y se simboliza por o { }.
A = {x + 1 = 0 | x R}
El conjunto A, es un conjunto vaco porque no hay ningn nmero real que satisfaga a x+1 = 0
29
Conjunto Universal.- Es el conjunto de todos los elementos considerados en una poblacin o
universo, en un problema en especial. No es nico, depende de la situacin, denotado por U o .
4.3. PROPIEDADES DE LOS CONJUNTOS
a) Igualdad De Conjuntos.- Considerando el conjunto A y el conjunto B, si ambos tienen los
mismos elementos, es decir, si cada elemento que pertenece a A tambin pertenece a B y si
cada elemento que pertenece a B pertenece tambin a A.
b) Subconjunto.- S A = B, entonces B=A
Si todo elemento de un conjunto A es tambin elemento de un conjunto B, entonces se dice que A
es un subconjunto de B. Representado por el smbolo A B o B A
c) Subconjuntos Propios.- Se dice que es un subconjunto propio de A s todos los elementos
de un conjunto B se encuentran incluidos en l A, denotado por .
A B o B A
d) Conjunto Potencia.- La familia de todos los subconjuntos de un conjunto se llama conjunto
potencia. Si un conjunto es finito con n elementos, entonces el conjunto potencia tendr 2
subconjuntos.
A = {1, 2}
El total de subconjuntos es:
e) Conjuntos Disjuntos.- 2 = 4 {1,2}, {1}, {2}, { }
Son aquellos que no tienen elementos en comn, es decir, cuando no existen
elementos que pertenezcan a ambos.
f) Particin.- F = {1, 2, 3, 4, 5, 6} G = {a, b, c, d, e, f}
Cuando un conjunto es dividido en subconjuntos mutuamente excluyentes y
exhaustivos, se le denomina particin.
g) Operaciones de Conjuntos.-
Unin.
Interseccin.
Diferencia.
Complemento.
Producto cartesiano.
h) Unin de Conjuntos.- Sean A y B dos subconjuntos cualesquiera del conjunto
universal. La unin de A y B, expresada por A U B, es el conjunto de todos los elementos
que pertenecen a A o pertenecen a B.
i) Interseccin de Conjuntos.- A U B = {x | x A o x B}
30
Sean A y B dos conjuntos cualesquiera del conjunto universal. La interseccin de A y B,
expresada por AB, es el conjunto de todos los elementos que pertenecen a A y a B
simultneamente, es decir:
A B = {x | x A y x B}
i) Diferencia de Conjuntos o Complemento Relativo.- Sean A y B dos conjuntos
cualesquiera del conjunto universal. La diferencia o complemento relativo de B con respecto a A,
es el conjunto de los elementos que pertenecen a A, pero no pertenecen a B.
Nota: A - B B - A
A - B = {x | x A, x B}
j) Complemento Absoluto o Simplemente Complemento.- Sea A un subconjunto
cualesquiera del conjunto universal. El complemento de A es el conjunto de elementos que
perteneciendo al universo y no pertenecen al conjunto A, denotado por A o A .
A = {x | x U, x A}
Nota: A = U - A
k) Producto Cartesiano.- Sean A y B dos conjuntos, el conjunto producto o producto
cartesiano expresado por A x B est formado por las parejas ordenadas (a, b) donde a A y b
B.
A x B = {(a, b) | a A y b B}
4.4. LEYES DE LOS CONJUNTOS
4.5. EL DIAGRAMA DE VENN
Un diagrama de Venn es una representacin pictrica de conjuntos en el plano. El
31
conjunto universal U se representa por un rectngulo, cualquier otro conjunto se representa con
un crculo. Una operacin se representa mediante el sombreado de los elementos del conjunto.
Experimento Estadstico.- Es el proceso mediante el cual se genera un conjunto de datos y
puede ser determinstico o aleatorio.
Espacio Muestral.- Son todos los posibles resultados que se obtienen de un
experimento denotado por S o .
S = {1, 2, 3, 4, 5, 6}
Evento Simple.- Son los eventos constituidos por un slo elemento.
A = {4}
Evento Compuesto.- Es cualquier evento que se puede descomponer en dos o ms
eventos simples.
B = {2, 4, 6}
Eventos Mutuamente Excluyentes.- Llamados tambin disjuntos, no pueden ocurrir
simultneamente, es decir, la ocurrencia de ellos excluye la ocurrencia de los otros.
A B =
Eventos Independientes.- Cuando la ocurrencia o no ocurrencia de un evento no afecte la
ocurrencia de otro evento.
Eventos Dependientes.- Si los eventos A y B estn relacionados de tal modo
que la ocurrencia de B depende de la ocurrencia de A, entonces A y B son independientes.
5- ESTADSTICA: PROPSITO, APROXIMACIN, MTODO.
5.1. LA APROXIMACIN BSICA
Las medidas de razn, en donde un valor cero y distancias entre diferentes mediciones son
definidas, dan la mayor flexibilidad en mtodos estadsticos que pueden ser usados para
analizar los datos. Las medidas de intervalo tienen distancias interpretables entre
mediciones, pero un valor cero sin significado (como las mediciones de coeficiente
intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias
32
entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales
no tienen ningn rango interpretable entre sus valores.
5.2 TIPOS DE MEDICIONES O ESCALAS DE MEDICIN EN ESTADSTICA
La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se trata de
agrupar objetos en clases.
La escala ordinal, por su parte, recurre a la propiedad de orden de los nmeros.
La escala de intervalos iguales est caracterizada por una unidad de medida comn y constante.
Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no
refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta escala, adems
de poseer las caractersticas de la escala ordinal, permite determinar la magnitud de los intervalos
(distancia) entre todos los elementos de la escala.
La escala de coeficientes o Razones es el nivel de medida ms elevado y se diferencia de las
escalas de intervalos iguales nicamente por poseer un punto cero propio como origen; es decir que
el valor cero de esta escala significan ausencia de la magnitud que estamos midiendo. Si se
observa una carencia total de propiedad, se dispone de una unidad de medida para el
efecto. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias
en el grado de atributo presente en el objeto de estudio.
5.3. CURVA NORMAL DE PROBABILIDAD Y DESVIACIN ESTNDAR
Muchas variables aleatorias continuas presentan una funcin de densidad cuya grfica tiene forma
de campana. En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo
valor de p y valores de n cada vez mayores, se ve que sus polgonos de frecuencias se
aproximan a una curva en "forma de campana".
Empleando clculos bastante laboriosos, puede demostrarse que el modelo de la funcin de
densidad que corresponde a tales distribuciones viene dado por la frmula
33
La distribucin normal queda definida por dos parmetros, su media y su desviacin tpica
y la representamos as
La Funcin de Distribucin.-
Puede tomar cualquier valor
Son ms probables los valores cercanos a uno central que llamamos media
Conforme nos separamos de ese valor , la probabilidad va decreciendo de igual
forma a derecha e izquierda (es simtrica).
Conforme nos separamos de ese valor la probabilidad va decreciendo de forma
ms o menos rpida dependiendo de un parmetro , que es la desviacin tpica.
En sntesis, la distribucin normal es una distribucin de una variable aleatoria continua,
cuyas caractersticas son:
1. La curva tiene un solo pico, por consiguiente es unimodal. Presenta una forma de campana.
2. La media de una poblacin distribuida normalmente se encuentra en el centro de su curva
normal.
34
3. A causa de la simetra de la distribucin normal de probabilidad, la mediana y la
moda de la distribucin tambin se hallan en el centro, por tanto en una curva normal, la
media, la mediana y la moda poseen el mismo valor.
4. Las dos colas (extremos) de una distribucin normal de probabilidad se extienden
de manera indefinida y nunca tocan el eje horizontal.
5. La forma de la campana de Gauss depende de los parmetros y .
6. Tiene una nica moda que coincide con su media y su mediana.
7. La curva normal es asinttica al eje de X.
8. Es simtrica con respecto a su media . Segn esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor que la media,
y un 50% de observar un dato menor.
reas bajo la curva normal.
El rea total bajo la curva normal ser de 1.00 por lo cual podemos considerar que las reas bajo la
curva son probabilidades.
Z= Nmero de desviaciones estndar de x respecto a la media de esta distribucin.
Z= x-m / s
X=valor de la variable aleatoria que nos interesa.
m= media de la distribucin de esta variable aleatoria.
s = desviacin estndar de esta distribucin.
Las variables aleatorias distribuidas en forma normal asumen muchas unidades diferentes de
medicin, por lo que hablaremos de forma estndar y les daremos el smbolo de Z.
5.4. INTERPRETACIN DE DATOS, USANDO LA TABLA NORMAL DE PROBABILIDAD;
35
DATOS DE FRECUENCIA
Una de las herramientas de mayor uso en las empresas es la utilizacin de la curva
normal para describir situaciones donde se pueden recopilar datos. Estos permiten tomar
decisiones que vayan a la par con las metas y objetivos de la organizacin.
Se puede decir que hay una familia de distribuciones con una forma comn, diferenciadas por los
valores de su media y su varianza. Por tanto, la desviacin estndar ( ) determina el
grado de apuntamiento de la curva. Cuanto mayor sea el valor de , ms se dispersarn los datos
en torno a la media y la curva ser ms plana. Y finalmente la media indica la posicin de la
campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje
horizontal.
Vemos que tienen en comn que se distribuyennormalmente, por ejemplo, si hacemos una
estadstica para conocer la altura de 1400 mujeres y representamos los resultados en
un diagrama de barras, obtenemos:
.
Figura 3.1: Distribucin de estaturas de 1400 mujeres
Una distribucin de probabilidad sigue una distribucin normal de media x y desviacin tpica ,
y lo representaremos por N(x; ) cuando la representacin grfica de su funcin de densidad es una
curva positiva continua, simtrica respecto a la media, de mximo en la media, y que tiene 2
puntos de inflexin, situados a ambos lados de la media (x y x + respectivamente) y a
distancia de ella, es decir de la forma:
En el caso de la distribucin normal de parmetros x y , dicha funcin viene dada por:
Propiedad:
36
El rea encerrada bajo la curva normal N(x; ) siempre es 1.
La demostracin de este resultado no es nada sencilla e implica el uso de resultados
matemticos que exceden el nivel de este curso. De entre todas las curvas normales N(x; ), la ms
sencilla, usada y conocida es aquella que tiene por media 0 y por desviacin tpica 1, N (0, 1).
Esta normal estndar se suele representar por Z. La grfica de esta curva se denomina campana
de Gauss y se puede observar en la figura:
Su funcin de densidad ser:
Puesto que el rea bajo esta curva normal es 1, podemos definir una probabilidad de la
siguiente manera:
Para un valor cualquiera k, definimos la probabilidad de que la distribucin Z, N (0;1) , sea menor o
igual que k como: p (Z k)= rea encerrada bajo la curva normal N (0,1) desde hasta k (Es decir
la parte rayada de la figura siguiente).
Ahora bien, cmo calcular dicha rea? Fcil: Dichas reas o probabilidades se
encuentran tabuladas. Si no tenemos una distribucin N (0; 1), sino una N(x; )
cualquiera, cmo calcular probabilidades, si no tenemos tabla salvo para N (0;1)?. El siguiente
resultado nos da la respuesta.
Propiedad:
Si X sigue una distribucin N(x; ), entonces la variable Z = X x sigue una distribucin N (0,1).
(El paso de la variable X N(x; ) a la Z N (0; 1) se denomina tipificacin de la variable X).
5.5. INTERPRETACIN DE DATOS USANDO LA CURVA NORMAL DE PROBABILIDAD;
DATOS CONTINUOS
37
Cuando registramos los valores de una variable observados en cierto nmero de casos,
obtenemos diferentes valores de la variable repetidos. Y estos valores observados pueden
ser agrupados de diversas maneras segn sean estas variables discretas o continuas.
Tabla 1
Ejemplo de distribuciones de frecuencia de variables discretas y continuas:
Los datos presentados en la tabla anterior, son datos reales que se refieren a una
observacin en particular. Los podemos representar en grficos de frecuencia absoluta, frecuencia
relativa, frecuencia acumulada "a ms de" o "a menos de", etc.
Probabilidad emprica.- En el caso de variables continuas se representa la frecuencia en
funcin de reas situadas debajo de una curva de manera que la probabilidad se
puede expresar en trminos de proporcin de cierta rea por debajo de la curva respecto
al rea total bajo la curva.
En el caso de las variables continuas, el rea debajo de la curva representa la totalidad de casos y
la probabilidad est definida por la razn que resulta de dividir el rea bajo una parte de la curva
entre el rea total de la curva. Los valores z y la curva normal son muy tiles
para calcular las probabilidades referentes a variables normalmente distribuidas.
5.6. VARIANZA Y COVARIANZA
Una vez que hemos calculado el valor medio, puede ser a veces interesante describir a qu distancia
en torno a la media estn diseminados los valores singulares. Para este fin, podemos elegir
entre diversas estadsticas. La eleccin depende del tipo de media que hayamos usado:
En conexin con la moda la dispersin de valores raramente es interesante.
En lugar de ello, si hemos calculado una mediana, muchas veces querremos
sealar
l
a diseminacin de valores en torno a ella. Una forma adecuada para esto es la desviacin de
cuartiles. Un "cuartil ms alto" es aquel valor que es sobrepasado por el 25% del conjunto de
todas las mediciones; del mismo, modo el 25% de todos los valores son ms bajos que el "cuartil
bajo". La desviacin media de los cuartiles [marcadas con Q verde en la diagrama] a partir de
Variable
discreta
Variable continua
Hermanos Frecuencia Salario Frecuencia
1 3 400 - 699 34
2 4 700 - 999 45
3 6 1 000 - 1 299 33
4 5 1 300 - 1 599 26
5 3 1 600 - 1 899 19
38
la mediana es llamada desviacin de cuartiles y es calculada con facilidad
dividiendo por la mitad la diferencia de los cuartiles.
Una estadstica alternativa y muy simple es el rango: la diferencia entre el mayor y el menor
valor.
En conexin con la media aritmtica muchas veces querremos calcular la
desviacin estndar. Si los valores se miden a partir de una poblacin, la formula ser,
Sin embargo, si la desviacin estndar slo se refiere a una muestra, la frmula es,
En ambas frmulas, n es el nmero de los valores, y los valores de cada variable sustituirn a x uno
tras otro. Raramente un investigador se molestar en realizar por s mismo el clculo,
porque el algoritmo necesario para esto existe incluso en calculadoras de bolsillo.
A la raz cuadrada de la desviacin estndar se llama varianza, y tambin sta es
usada con frecuencia para describir y analizar la dispersin.
La covarianza estadstica entre dos variables:
Cociente de contingencia puede aplicarse a todo tipo de variables incluyendo aquellas que
se han medido solo con una escala de clasificacin. Una estadstica alternativa
es Chi cuadrado.
Correlacin ordinal es adecuada cuando al menos una de las variables se han medido con
una escala ordinal. La otra puede ser u ordinal o aritmtica.
Para variables sobre escalas aritmticas, el mtodo usual es la correlacin estndar,
mejor dicho la correlacin del momento-producto o correlacin de Pearson.
La correlacin del momento-producto suele abreviarse con la letra r. Si el coeficiente de correlacin es
bajo, por ejemplo algo entre -0.3 y +0.3, las dos variables no tienen mucho que ver entre s (ms
exactamente, no tienen casi ninguna covariacin lineal). Si es alto, en otras palabras, si su valor se
aproxima ya sea a +1 o a -1, esto significa que la relacin entre las dos variables se aproxima a la
ecuacin y = ax + b. El signo del coeficiente de correlacin no es importante; el signo siempre es
idntico al signo del coeficiente a en la ecuacin de arriba.
Un aspecto dbil del anlisis de correlacin es que no puede detectar otras relaciones lineales entre
las variables. Por ejemplo, una relacin que obedece a la ecuacin y = ax2
+ bx + c
pasara inadvertida.
39
5.7. ANLISIS DE VARIANZA
5.7.1. FUNDAMENTOS
El anlisis de varianza (en ingls ANOVA, ANalysis Of VAriance) examina dos o ms conjuntos de
mediciones, especialmente sus varianzas, e intenta detectar diferencias estadsticamente
representativas entre los conjuntos. Estos conjuntos podran ser, por ejemplo, reacciones
medidas para dos grupos experimentales, y el investigador quiere examinar si hay una
diferencia en las reacciones, tal vez causada por los distintos estmulos a los grupos.
5.7.2 ANLISIS DE VARIANZA: UN EJEMPLO SENCILLO
La varianza (que es el cuadrado de la desviacin estndar: 2) se define as: Es la media
de las diferencias con la media elevadas al cuadrado. En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los nmeros)
2. Ahora, por cada nmero resta la media y eleva el resultado al cuadrado (la diferencia elevada al
cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (Por qu al cuadrado?)
Elevar cada diferencia al cuadrado hace que todos los nmeros sean positivos (para evitar que los
nmeros negativos reduzcan la varianza) Y tambin hacen que las diferencias grandes se
destaquen. Por ejemplo 1002=10,000 es mucho ms grande que 50
2=2,500. Pero elevarlas al
cuadrado hace que la respuesta sea muy grande, as que lo deshacemos (con la raz cuadrada) y
as la desviacin estndar es mucho ms til.
5.7.3. MTODO DE ANLISIS DE VARIANZA
El mtodo de anlisis de varianza se basa en el hecho matemticamente probado de que
hay una diferencia entre los grupos slo si la varianza inter-grupos es mayor que la varianza
intra-grupo. El anlisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de
todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces la varianza de estas medias.
Esa es la varianza inter-grupos. Entonces calculamos la proporcin de las dos cifras que
acabamos de obtener es llamada F. E