En los modelos de regresión logística, no siempre es sencillo interpretar los resultados debido a la naturaleza de las probabilidades, los logaritmos y las razones de probabilidades. Es importante entender que las probabilidades que genera el modelo no se comportan de manera lineal y, por lo tanto, los coeficientes estimados necesitan ser transformados o contextualizados adecuadamente para obtener una interpretación más clara.

Los modelos de regresión logística típicamente reportan coeficientes en una escala logarítmica, es decir, en "log-odds". Los "log-odds" (logaritmos de las probabilidades) son cifras que no son tan intuitivas como las probabilidades directas, por lo que para hacer los resultados más comprensibles, a menudo se convierte el coeficiente de la regresión en "razones de probabilidades" mediante la exponenciación de esos coeficientes.

Por ejemplo, en un modelo donde la variable de interés es la probabilidad de que un resultado ocurra frente a que no ocurra, la razón de probabilidades refleja cuán probable es ese resultado en relación con otro evento para un incremento unitario en la característica de interés. La razón de probabilidades es simplemente el cociente entre las probabilidades de un resultado (su "odds") en dos valores diferentes de la variable predictora.

Supongamos que tenemos dos probabilidades predichas: p1p_1 y p2p_2. Podemos calcular las "odds" correspondientes, que se definen como odds=p1p\text{odds} = \frac{p}{1-p}, y luego obtener la razón de probabilidades como el cociente de esas odds. Esta relación nos indica cómo cambia la probabilidad del resultado dado un aumento unitario en la característica evaluada.

Tomemos el siguiente ejemplo con probabilidades de p1=0.5p_1 = 0.5 y p2=0.6p_2 = 0.6. El cálculo de la razón de probabilidades es:

odds1=0.510.5=1.00,odds2=0.610.6=1.50\text{odds}_1 = \frac{0.5}{1 - 0.5} = 1.00, \quad \text{odds}_2 = \frac{0.6}{1 - 0.6} = 1.50

Entonces, la razón de probabilidades es 1.501.00=1.50\frac{1.50}{1.00} = 1.50, lo que significa que el aumento en la característica aumenta las probabilidades de un evento en un 50%.

De forma similar, si comparamos probabilidades como p1=0.1p_1 = 0.1 y p2=0.2p_2 = 0.2, podemos ver que el cambio en la odds es mucho más significativo, ya que las odds para p1=0.1p_1 = 0.1 son 0.110.11, y para p2=0.2p_2 = 0.2 son 0.250.25. La razón de probabilidades aquí sería 2.25, lo que implica que la probabilidad del evento aumenta más de dos veces con ese cambio en la característica.

Sin embargo, aunque estos cálculos pueden parecer sencillos, su interpretación intuitiva puede ser compleja. Por ejemplo, aumentar las odds no es lo mismo que aumentar directamente la probabilidad, ya que las odds están relacionadas con la probabilidad de forma no lineal. Un cambio en las odds no siempre se traduce de forma intuitiva en un cambio en la probabilidad.

Para ilustrar esto más claramente, consideremos que los valores más cercanos al límite (por ejemplo, un p1=0.9p_1 = 0.9 y un p2=0.8p_2 = 0.8) reflejan una variación similar en las probabilidades, pero la interpretación de las odds de esos valores es más compleja, porque ambas probabilidades están ya muy cerca de los valores extremos (cerca de 1 o 0). Esto significa que los efectos no siempre se distribuyen de manera simétrica o lineal.

En los modelos de regresión logística, la clave para una interpretación exitosa es entender que las odds (y sus razones) no son lo mismo que las probabilidades. Duplicar las odds no equivale a duplicar la probabilidad, lo que hace que la interpretación del modelo sea un ejercicio algo complicado. A pesar de esto, las razones de probabilidades pueden ofrecer una visión interesante, especialmente cuando el interés está en los cambios relativos de los eventos en función de las variables predictoras.

Aunque es posible interpretar un modelo de regresión logística en términos de probabilidades, odds o log-odds, las razones de probabilidades suelen ser las menos intuitivas para muchos. Sin embargo, en algunos contextos académicos, este tipo de interpretación es bastante común, aunque no tanto en aplicaciones fuera de la investigación.

Además, es fundamental tener en cuenta que las razones de probabilidades requieren conocer la tasa base del evento para poder hacer una interpretación adecuada. Sin esta tasa base, la comprensión de las razones de probabilidades puede ser vaga. De igual manera, la probabilidad de un evento depende de muchos factores y no siempre se comporta de manera lineal frente a un incremento en una variable predictora.

En resumen, aunque los modelos de regresión logística nos permiten trabajar con diferentes representaciones de los resultados, ya sea en términos de probabilidades, odds o log-odds, el proceso de interpretación puede ser desafiante. Sin embargo, contar con familiaridad en cómo funcionan las odds ratios y la capacidad de navegar por los diferentes espacios de los modelos puede ser de gran utilidad, sobre todo cuando las relaciones entre las variables no son sencillas.

¿Por qué elegir modelos aditivos generalizados (GAM) para datos complejos y no lineales?

Los Modelos Aditivos Generalizados (GAM) son una extensión sofisticada de los modelos lineales que permiten modelar relaciones no lineales entre las variables de entrada y la variable objetivo, sin necesidad de conocer la forma funcional subyacente. A diferencia de los modelos polinómicos o de regresión no lineales tradicionales, los GAM son flexibles, ajustan bien los datos y evitan el sobreajuste, lo que los hace particularmente útiles en escenarios donde las relaciones no son evidentes ni lineales.

Los GAMs funcionan mediante el uso de "splines", que pueden considerarse como funciones aplicadas a las características del modelo para capturar diferentes tipos de no linealidades. Estas funciones no sólo permiten modelar relaciones complejas, sino que también permiten explorar interacciones entre características, lo que incrementa la capacidad del modelo para reflejar la realidad de los datos.

Una de las principales ventajas de los GAM es su habilidad para trabajar con múltiples características al mismo tiempo. Además, se puede incluir la interacción entre variables sin la necesidad de especificar previamente una forma funcional para cada interacción. Esta característica es especialmente útil cuando se trabaja con datos complejos, en los cuales las interacciones entre las variables pueden ser difíciles de predecir.

El modelo GAM tiene una ventaja clara sobre otros métodos como la regresión polinómica. Aunque la regresión polinómica puede ser útil en ciertas situaciones, se basa en suposiciones rígidas sobre la forma de la no linealidad y puede ser susceptible al sobreajuste, especialmente cuando el número de datos es pequeño o las relaciones entre las variables