Lectura – La prueba de chi cuadrada

¿De dónde sale el concepto de chi cuadrada en estadística?, ¿quién lo invento?

El concepto de la prueba de chi cuadrada en estadística se originó en el siglo XIX. Fue desarrollado por el estadístico inglés Karl Pearson, quien es considerado uno de los fundadores del campo de la estadística moderna.

Karl Pearson, 1910, Public domain, via Wikimedia Commons

Karl Pearson introdujo la prueba de chi cuadrada en su trabajo “On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling” publicado en 1900. En este trabajo, Pearson presentó el concepto de chi cuadrada como una medida de la discrepancia entre los valores observados y los valores esperados en una distribución de frecuencia.

Pearson se dio cuenta de la existencia de una asimetría significativa en algunas observaciones biológicas. Para modelar las observaciones independientemente de que fueran normales o sesgadas, Pearson, desarrolló la distribución de Pearson, una familia de distribuciones de probabilidad continua, que incluye la distribución normal y numerosas distribuciones sesgadas, y propuso un método de análisis estadístico consistente en utilizar la distribución de Pearson para modelar las observaciones y realizar pruebas de bondad de ajuste para determinar si un modelo se ajusta a las observaciones.

¿Qué es la chi cuadrada y cómo se utiliza?

La prueba de chi cuadrada es una prueba estadística utilizada para determinar si hay una asociación significativa entre dos variables categóricas o para evaluar si una muestra de datos se ajusta a una distribución teórica esperada.

La prueba de chi cuadrada se basa en comparar las frecuencias observadas en una muestra con las frecuencias esperadas bajo una hipótesis nula. La hipótesis nula establece que no hay asociación entre las variables o que la muestra sigue una distribución teórica específica.

El procedimiento general para realizar una prueba de chi cuadrada es el siguiente:

Formular las hipótesis: Se establecen la hipótesis nula (H0) y la hipótesis alternativa (H1). La hipótesis nula generalmente asume que no hay asociación o que la muestra sigue una distribución teórica específica.
Recopilar los datos: Se recopilan los datos observados en forma de una tabla de contingencia, que muestra la frecuencia de ocurrencia de cada combinación de categorías de las variables.
Calcular las frecuencias esperadas: Bajo la hipótesis nula, se calculan las frecuencias esperadas para cada celda de la tabla de contingencia.
Calcular el estadístico de chi cuadrada: Se calcula el estadístico de chi cuadrada utilizando la fórmula
Determinar el valor crítico: Se determina el valor crítico de chi cuadrada correspondiente al nivel de significancia y los grados de libertad.
Tomar una decisión: Si el valor calculado de chi cuadrada es mayor que el valor crítico, se rechaza la hipótesis nula y se concluye que hay evidencia suficiente para sugerir una asociación significativa o una diferencia entre las frecuencias observadas y esperadas. En caso contrario, no se rechaza la hipótesis nula y se concluye que no hay evidencia suficiente para afirmar una asociación significativa o una diferencia.

La prueba de chi cuadrada se utiliza en diversos campos, como la investigación médica, estudios de mercado, encuestas de opinión y análisis de datos en general. Es una herramienta estadística poderosa para analizar datos categóricos y evaluar la significancia de las asociaciones entre variables.

¿Qué es la prueba de chi cuadrada?

La prueba de chi cuadrada $\chi^2$ es una prueba de bondad de ajuste que se utiliza para determinar si hay una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas en un conjunto de datos categóricos. Se compara lo que realmente se ha observado con lo que se esperaría encontrar si no hubiera diferencias significativas entre las categorías.

La fórmula para la prueba de chi cuadrada depende del tipo de análisis que se realice. Hay dos tipos comunes de pruebas de chi cuadrada:

1. Prueba de chi cuadrada de bondad de ajuste:

Esta prueba se utiliza para determinar si un conjunto de datos categóricos se ajusta a una distribución específica o si existen diferencias significativas entre las frecuencias observadas y las frecuencias esperadas en una distribución teórica.

La fórmula para la prueba de chi cuadrada de bondad de ajuste es:

χ² = \sum \frac{(O_i - E_i)²} { E_i}

Donde:

$\chi^2$ es el valor de la prueba de chi cuadrada.
$\sum$ representa la suma de todos los elementos del cálculo para cada categoría.
$O_i$ es la frecuencia observada en la categoría $i$ .
$E_i$ es la frecuencia esperada en la categoría $i$ , basada en una distribución teórica o en alguna hipótesis.

2. Prueba de chi cuadrada de independencia:

Esta prueba se utiliza para determinar si hay una asociación entre dos variables categóricas. Es útil para determinar si la frecuencia de ocurrencia de una categoría está relacionada con la frecuencia de ocurrencia de otra categoría en la misma población.

La fórmula para la prueba de chi cuadrada de independencia es similar a la prueba de bondad de ajuste:

\chi^2 = \sum \frac{(O_i - E_i)² }{ E_i}

Donde:

$\chi^2$ es el valor de la prueba de chi cuadrada.
$\sum$ representa la suma de todos los elementos del cálculo para cada categoría.
$O_i$ es la frecuencia observada conjunta en la categoría $i$ .
$E_i$ es la frecuencia esperada conjunta en la categoría $i$ , bajo la suposición de independencia entre las variables.

En ambas pruebas, si el valor de chi cuadrada calculado es significativamente grande, esto indica que existe una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas, lo que sugiere que la hipótesis nula de ajuste o independencia se rechaza en favor de la hipótesis alternativa.

Ejemplo

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados

	Sin dispersión	Con dispersión
Deportista	38	9
No deportista	31	22

Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Nivel de significación (5%)

Solución

Debemos primero calcular las frecuencias esperadas bajo el supuesto de independencia. La tabla de frecuencias esperadas estaría dada por:

\text{Frecuencia esperada}=\frac{\text{Total de fila}-\text{Total de columna}}{n}

	Sin dispersión	Con dispersión	Y
Deportista	32.43	14.57	47
No deportista	36.57	16.43	53
X	69	31	100

Calculamos ahora el estadístico del contraste

\chi ^2=\frac{(38-32.43)^2}{32.43}+\frac{(9-14.57)^2}{14.57}+\frac{(31-36.57)^2}{36.57}+\frac{(22-16.43)^2}{16.43}=5.82

Este valor debemos compararlo con el percentil de la distribución $\chi^2$ con $(2-1)(2-1)=1$ grado de libertad. $\chi^2_0.95(1)=3.84$

Por lo tanto, como el valor del estadístico es superior al valor crítico, concluimos que debemos rechazar la hipótesis de independencia y en consecuencia asumir que existe relación entre la dispersión y los hábitos deportistas del individuo