La ecuación de regresión lineal es una herramienta poderosa para describir relaciones entre dos variables cuantitativas. Por ejemplo, al analizar el rendimiento agrícola del sorgo en función del porcentaje de infestación, se observa que, a medida que aumenta la infestación, el rendimiento disminuye. Si se traza una línea que pasa aproximadamente por el centro de la nube de puntos del gráfico de dispersión, se puede obtener una estimación inicial de la pendiente y del intercepto utilizando la técnica conocida como "rise over run" (aumento sobre recorrido).

Cuando x=0x = 0, es decir, sin infestación, el rendimiento promedio estimado (y^\hat{y}) es de aproximadamente 4 800 kg/ha. Al aumentar el porcentaje de infestación hasta un 40%, el rendimiento cae a aproximadamente 1 000 kg/ha. El cambio total en xx es 40 unidades, y el cambio correspondiente en yy es de -3 800. Por lo tanto, la pendiente aproximada es -3 800 ÷ 40 = -95 kg/ha por cada 1% adicional de infestación. La ecuación de regresión estimada de manera rudimentaria es entonces:

y^=480095x\hat{y} = 4 800 - 95x

De forma análoga, se puede estimar la relación entre la cantidad anual de ciclones en la región australiana y el índice ONI (Índice de El Niño) promedio durante los meses de octubre, noviembre y diciembre. Trazando una línea que represente el patrón general de los datos, se observa que cuando el ONI es 0, la cantidad esperada de ciclones es aproximadamente 12. Para estimar la pendiente, se toman dos puntos: cuando x=2x = -2, y^17\hat{y} ≈ 17; cuando x=2x = 2, y^7.5\hat{y} ≈ 7.5. El cambio en xx es 4, y el cambio en yy es -9.5, lo que da una pendiente aproximada de -2.375 ciclones por unidad de ONI. Por lo tanto, la ecuación estimada es:

y^=122.375x\hat{y} = 12 - 2.375x

Estas aproximaciones se pueden afinar mediante el uso de software estadístico, que calcula los coeficientes de regresión óptimos minimizando la suma de los cuadrados de las diferencias verticales entre los valores observados y los valores predichos. Para los datos del sorgo, el software proporciona:

y^=4814.1101.4x\hat{y} = 4 814.1 - 101.4x

Esto significa que, por cada aumento del 1% en la infestación, el rendimiento promedio disminuye en 101.4 kg/ha. El signo negativo de la pendiente indica una relación inversa entre las variables. Lo mismo ocurre con el coeficiente de correlación: si la pendiente es negativa, también lo será el coeficiente de correlación.

Del mismo modo, para los datos de ciclones, la salida del software da como resultado:

y^=12.12.23x\hat{y} = 12.1 - 2.23x

lo cual es coherente con las estimaciones anteriores. Estas ecuaciones permiten hacer predicciones sobre la variable dependiente a partir de un valor específico de la variable independiente.

Por ejemplo, si se quiere estimar el rendimiento medio para un cultivo con un 30% de infestación, se sustituye x=30x = 30 en la ecuación del sorgo:

y^=4814.1(101.4×30)=1772.1kg/ha\hat{y} = 4 814.1 - (101.4 × 30) = 1 772.1 \, \text{kg/ha}

Sin embargo, se debe tener cuidado con el uso de estas ecuaciones fuera del rango de los datos observados. Si se intenta predecir el rendimiento con un 50% de infestación, el resultado sería:

y^=4814.1(101.4×50)=255.9kg/ha\hat{y} = 4 814.1 - (101.4 × 50) = -255.9 \, \text{kg/ha}

lo cual no tiene sentido, ya que el rendimiento no puede ser negativo. Esto se debe a la extrapolación: hacer predicciones fuera del rango de los datos disponibles. La regresión se basa en las relaciones observadas dentro del intervalo de los datos, y asumir que esa relación se mantiene más allá de ese intervalo puede llevar a conclusiones absurdas.

Lo mismo sucede al aplicar una ecuación de crecimiento infantil derivada de datos entre 4 y 7 años para predecir la estatura media de una niña de 21 años. Si se usa y^=73+7x\hat{y} = 73 + 7x, la altura media estimada para una niña de 5 años sería 108 cm, lo cual es razonable. Pero para una mujer de 21 años, se obtendría 220 cm, un valor irreal. Esto ilustra por qué la extrapolación debe evitarse en contextos donde la relación entre las variables claramente cambia fuera del rango observado.

Las ecuaciones de regresión no solo permiten predecir, sino también comprender la relación entre las variables. El coeficiente de intercepto (b0b_0) representa el valor esperado de la variable dependiente cuando la independiente es cero, lo cual puede o no tener interpretación práctica, dependiendo del contexto. La pendiente (b1b_1) indica cuánto cambia, en promedio, la variable dependiente por cada unidad de cambio en la variable independiente.

¿Cómo comparar datos cualitativos usando razones de probabilidades y diferencias entre proporciones?

El uso de comparaciones entre grupos en estudios sociales y científicos es una herramienta fundamental para entender las relaciones entre diferentes variables cualitativas. Un método comúnmente utilizado para realizar estas comparaciones es la razón de probabilidades (OR, por sus siglas en inglés) y la diferencia entre proporciones. Estas herramientas estadísticas permiten a los investigadores analizar y comparar la distribución de respuestas o comportamientos entre distintos grupos, y ofrecen una forma clara de interpretar la significancia de estas diferencias.

La razón de probabilidades, o "odds ratio" (OR), se utiliza para medir la fuerza de la asociación entre dos categorías de una variable cualitativa en dos grupos diferentes. Esta medida compara la probabilidad de que un evento ocurra en un grupo frente a otro. Por ejemplo, si analizamos el uso de redes sociales en residentes urbanos y rurales, la OR puede indicar cuán probable es que los residentes urbanos usen redes sociales en comparación con los residentes rurales. Si la OR es mayor a uno, indica que el grupo urbano tiene una mayor probabilidad de usar redes sociales que el grupo rural; si es menor que uno, la probabilidad es mayor en el grupo rural.

Además de la OR, la diferencia entre las proporciones de dos grupos es otro indicador útil. Este método muestra la disparidad directa entre la frecuencia de un evento (como el uso de redes sociales) en cada grupo. Mientras que la OR mide la relación entre las probabilidades, la diferencia entre proporciones muestra de manera explícita cuánto más o menos común es un comportamiento en un grupo comparado con otro.

Por ejemplo, en el caso de los residentes urbanos y rurales, si la proporción de residentes urbanos que usan redes sociales es 0.423 y la de los rurales es 0.533, la diferencia entre estas proporciones será 0.044. Esto sugiere que, aunque los residentes rurales tienen una mayor proporción de uso de redes sociales que los urbanos, la diferencia es relativamente pequeña.

Sin embargo, es importante tener en cuenta que el uso de estas métricas no siempre proporciona una imagen completa de la relación entre las variables. La OR, aunque útil para comparar la fuerza de la asociación, puede ser influenciada por el tamaño y la estructura de la muestra. Por otro lado, la diferencia de proporciones puede ser engañosa si no se consideran los tamaños absolutos de las muestras, ya que una diferencia pequeña en proporciones puede ser significativa en muestras grandes pero no tanto en muestras pequeñas.

En estudios como los realizados por Alley et al. [2017] sobre el uso de redes sociales en Queensland, se pueden analizar distintos grupos de manera efectiva utilizando tanto la OR como la diferencia entre proporciones. Es relevante también realizar un análisis crítico sobre los resultados. Por ejemplo, si la OR de uso de redes sociales entre residentes urbanos y rurales es de 1.196, esto indica que los urbanos tienen una probabilidad ligeramente mayor de usar redes sociales. Sin embargo, la pequeña diferencia entre proporciones sugiere que, en términos absolutos, el uso de redes sociales es bastante similar entre ambos grupos.

Es fundamental comprender que ni la OR ni la diferencia de proporciones deben analizarse de manera aislada. La interpretación de estos valores debe considerar otros factores, como el contexto del estudio, el tamaño de la muestra, y la variabilidad interna de los grupos. Las conclusiones que se extraigan de estos análisis deben ser interpretadas cuidadosamente, ya que a veces los números pueden ocultar complejas interacciones sociales o comportamentales que no se capturan completamente con estas métricas.

En estudios más complejos, como el de los efectos del consumo de alcohol sobre los vómitos (Köchling et al., 2019), es igualmente importante observar cómo las diferentes categorías dentro de los grupos afectan las probabilidades y proporciones. Al comparar los consumidores de vino con los que consumen cerveza seguida de vino, la OR puede proporcionar información sobre cuál de los grupos tiene mayores probabilidades de vomitar después del consumo, pero también es esencial calcular la diferencia entre las proporciones de cada grupo y analizar los porcentajes en cada caso.

Por último, cuando se presentan los resultados, el uso de gráficos de barras apiladas o tablas resumen puede ser útil para visualizar las diferencias y facilitar la interpretación de las comparaciones. La representación visual ayuda a ilustrar claramente cómo se distribuyen los datos y a hacer más comprensibles las implicaciones de los valores obtenidos mediante la OR y la diferencia de proporciones.