El concepto de la prueba de chi cuadrada en estadística se originó en el siglo XIX. Fue desarrollado por el estadístico inglés Karl Pearson, quien es considerado uno de los fundadores del campo de la estadística moderna.
Karl Pearson introdujo la prueba de chi cuadrada en su trabajo “On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling” publicado en 1900. En este trabajo, Pearson presentó el concepto de chi cuadrada como una medida de la discrepancia entre los valores observados y los valores esperados en una distribución de frecuencia.
Pearson se dio cuenta de la existencia de una asimetría significativa en algunas observaciones biológicas. Para modelar las observaciones independientemente de que fueran normales o sesgadas, Pearson, desarrolló la distribución de Pearson, una familia de distribuciones de probabilidad continua, que incluye la distribución normal y numerosas distribuciones sesgadas, y propuso un método de análisis estadístico consistente en utilizar la distribución de Pearson para modelar las observaciones y realizar pruebas de bondad de ajuste para determinar si un modelo se ajusta a las observaciones.
La prueba de chi cuadrada es una prueba estadística utilizada para determinar si hay una asociación significativa entre dos variables categóricas o para evaluar si una muestra de datos se ajusta a una distribución teórica esperada.
La prueba de chi cuadrada se basa en comparar las frecuencias observadas en una muestra con las frecuencias esperadas bajo una hipótesis nula. La hipótesis nula establece que no hay asociación entre las variables o que la muestra sigue una distribución teórica específica.
El procedimiento general para realizar una prueba de chi cuadrada es el siguiente:
La prueba de chi cuadrada se utiliza en diversos campos, como la investigación médica, estudios de mercado, encuestas de opinión y análisis de datos en general. Es una herramienta estadística poderosa para analizar datos categóricos y evaluar la significancia de las asociaciones entre variables.
La prueba de chi cuadrada \chi^2 es una prueba de bondad de ajuste que se utiliza para determinar si hay una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas en un conjunto de datos categóricos. Se compara lo que realmente se ha observado con lo que se esperaría encontrar si no hubiera diferencias significativas entre las categorías.
La fórmula para la prueba de chi cuadrada depende del tipo de análisis que se realice. Hay dos tipos comunes de pruebas de chi cuadrada:
1. Prueba de chi cuadrada de bondad de ajuste:
Esta prueba se utiliza para determinar si un conjunto de datos categóricos se ajusta a una distribución específica o si existen diferencias significativas entre las frecuencias observadas y las frecuencias esperadas en una distribución teórica.
La fórmula para la prueba de chi cuadrada de bondad de ajuste es:
χ² = \sum \frac{(O_i - E_i)²} { E_i}
Donde:
2. Prueba de chi cuadrada de independencia:
Esta prueba se utiliza para determinar si hay una asociación entre dos variables categóricas. Es útil para determinar si la frecuencia de ocurrencia de una categoría está relacionada con la frecuencia de ocurrencia de otra categoría en la misma población.
La fórmula para la prueba de chi cuadrada de independencia es similar a la prueba de bondad de ajuste:
\chi^2 = \sum \frac{(O_i - E_i)² }{ E_i}
Donde:
En ambas pruebas, si el valor de chi cuadrada calculado es significativamente grande, esto indica que existe una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas, lo que sugiere que la hipótesis nula de ajuste o independencia se rechaza en favor de la hipótesis alternativa.
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados
Sin dispersión | Con dispersión | |
Deportista | 38 | 9 |
No deportista | 31 | 22 |
Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Nivel de significación (5%)
Debemos primero calcular las frecuencias esperadas bajo el supuesto de independencia. La tabla de frecuencias esperadas estaría dada por:
\text{Frecuencia esperada}=\frac{\text{Total de fila}-\text{Total de columna}}{n}
Sin dispersión | Con dispersión | Y | |
Deportista | 32.43 | 14.57 | 47 |
No deportista | 36.57 | 16.43 | 53 |
X | 69 | 31 | 100 |
Calculamos ahora el estadístico del contraste
\chi ^2=\frac{(38-32.43)^2}{32.43}+\frac{(9-14.57)^2}{14.57}+\frac{(31-36.57)^2}{36.57}+\frac{(22-16.43)^2}{16.43}=5.82
Este valor debemos compararlo con el percentil de la distribución \chi^2 con (2-1)(2-1)=1 grado de libertad. \chi^2_0.95(1)=3.84
Por lo tanto, como el valor del estadístico es superior al valor crítico, concluimos que debemos rechazar la hipótesis de independencia y en consecuencia asumir que existe relación entre la dispersión y los hábitos deportistas del individuo