El investigador decide incorporar la siguiente información al mecanismo causal: (3) el alto momentum (MOM) afecta los precios futuros de manera que retrasa la convergencia de precios (PC); y (4) al ser consciente de este retraso, los inversores se muestran cautelosos al actuar sobre el factor HML cuando el momentum es elevado (es decir, realizan apuestas prematuras sobre la convergencia de precios). De esta forma, el momentum se convierte en un confusor probable, lo que obliga al investigador a bloquear ese camino indirecto HML ← MOM → PC. Afortunadamente, el momentum es observable, lo que lo hace susceptible a ajustes mediante el método de puertas traseras (sección 4.3.2.2). No obstante, incluso si el momentum no fuera observable, un ajuste por puerta frontal sería posible gracias al mediador OI (sección 4.3.2.3).

El siguiente sistema de ecuaciones estructurales describe este escenario:

  • OIt := f1[...]+ ε1,t (13)

  • HMLt := f2[OIt] + f3[MOMt] + ε2,t+h (14)

  • PCt+h := f4[MOMt] + ε3,t (15)

Aquí, las funciones f1, f2, f3 y f4 están asociadas con cada efecto causal (representado por las flechas en un gráfico causal), y εi son causas exógenas no especificadas. El símbolo ":=" indica que la relación es causal y no solo asociacional, por lo que es asimétrica (es decir, el lado derecho influye sobre el izquierdo y no al revés). El investigador aplica herramientas de descubrimiento causal sobre un conjunto de datos representativo, y encuentra que la estructura causal derivada es compatible con el proceso de generación de datos que había teorizado.

A partir del gráfico causal descubierto, el investigador estima el efecto del factor HML sobre OI, y el efecto de OI sobre PC, con un ajuste de puerta trasera para MOM. El análisis empírico sugiere que HML causa PC, y que el efecto se media a través de OI. Con estos resultados, el investigador decide enviar un artículo a una revista académica prestigiosa. Sin embargo, al revisar su trabajo, un árbitro le pregunta por qué el modelo no controla el diferencial de oferta y demanda (BAS) ni los factores de liquidez del mercado (LIQ). El árbitro argumenta que OI no es directamente observable y que su estimación podría estar sesgada por los operadores pasivos. Por ejemplo, un gran fondo podría decidir colocar órdenes pasivas en la demanda durante semanas, en lugar de levantar las ofertas, con el fin de ocultar sus intenciones de compra. Esos intercambios serían etiquetados como iniciados por venta, aunque el OI persistente proviene de un comprador pasivo, un problema que se discute en Easley et al. (2016). El árbitro sugiere que BAS es más observable y podría ser un mejor proxy para la presencia de operadores informados.

El investigador responde que está de acuerdo en que (5) OI provoca que los creadores de mercado amplíen el BAS, sin embargo, (6) la convergencia de precios (PC) también obliga a los creadores de mercado a asumir pérdidas a medida que los precios avanzan, y la reacción de los creadores de mercado ante esas pérdidas también es la ampliación de BAS. Las consecuencias de la ampliación de BAS son (7) una menor provisión de liquidez y (8) una mayor volatilidad. En consecuencia, BAS es un colisionador, y controlarlo abriría el camino no causal de asociación HML ← OI → BAS ← PC. Aunque el árbitro no queda completamente convencido de la relevancia del punto (6), sí se muestra satisfecho con la claridad con la que el investigador ha expuesto sus suposiciones mediante un gráfico causal.

Al proporcionar este gráfico y mecanismo causal, el investigador se expone a la posibilidad de falsificación. Los árbitros y lectores pueden proponer experimentos diseñados para desafiar cada enlace en el gráfico causal. Por ejemplo, los investigadores pueden probar el enlace (1) a través de un experimento natural, aprovechando que los datos fundamentales se actualizan en momentos aleatorios entre las acciones. El efecto de tratamiento para el enlace (1) puede estimarse como la diferencia en OI entre acciones donde HML ha sido actualizado y acciones donde no ha sido actualizado aún. Los enlaces (2), (5), (6), (7) y (8) pueden probarse mediante experimentos controlados y naturales, similares a los mencionados en la sección 3.3. El enlace (3) es una afirmación matemática que no requiere pruebas empíricas. Para probar el enlace (4), el investigador puede dividir las acciones con HML similar en dos grupos (un estudio de cohorte, ver sección 4.2): el primer grupo está compuesto por acciones donde el MOM está aumentando HML, y el segundo grupo está compuesto por acciones donde MOM está reduciendo HML. Dado que la división no es aleatoria, el investigador debe verificar que los dos grupos son comparables en todos los aspectos, excepto por la dirección del MOM. El efecto de tratamiento puede medirse como la diferencia entre los dos grupos en: (a) el sentimiento extraído de textos como informes de analistas, noticias financieras, redes sociales (ver Das y Chen 2007; Baker y Wurgler 2007); (b) el sentimiento de encuestas; o (c) los informes de exposición en los formularios SEC 13F. Si el enlace (4) es cierto, el MOM reduce el apetito de los inversores por las apuestas contrarias de HML, lo cual se refleja en la diferencia entre los grupos. Estos experimentos no son únicos y existen muchas alternativas.

En cuanto a la validez de este tipo de teorías, es crucial que los investigadores sean transparentes en cuanto a los supuestos causales que aplican. El desarrollo de gráficos causales y mecanismos expone las relaciones entre variables y permite someter la teoría a pruebas rigurosas. La capacidad de realizar experimentos que desafíen cada eslabón del gráfico causal es una herramienta poderosa, y es a través de este enfoque que se fortalece el campo de las finanzas cuantitativas. Al contrastar este enfoque con el de la mayoría de las publicaciones actuales sobre inversiones basadas en factores, que se limitan a replicaciones de backtests y análisis de rupturas estructurales, queda claro que el camino hacia la comprensión y la validación de las estrategias de inversión causales está lleno de oportunidades para el descubrimiento.

¿Cómo afecta un mediador confuso en la estimación de la relación causal entre X e Y?

En este análisis, exploramos los efectos de un mediador confuso en las estimaciones de una relación causal entre dos variables, X e Y. Este fenómeno se presenta cuando una variable adicional, Z, influye indirectamente en la relación entre X e Y, generando lo que se conoce como un falso positivo. Es decir, un modelo puede erróneamente sugerir una relación causal entre X e Y, cuando en realidad la asociación se debe a la mediación de Z, que actúa como un confusor.

Para ilustrar esto, consideremos un proceso de generación de datos en el que X es una variable causal, y Y es el efecto que queremos estudiar. Sin embargo, existe una tercera variable, Z, que no solo depende de X, sino también de una variable adicional, W, que introduce confusión. En este contexto, Z no solo actúa como un mediador de la relación causal entre X e Y, sino que también está correlacionado con X de manera indirecta a través de W. Como resultado, al intentar estimar la relación causal entre X e Y utilizando métodos como la regresión lineal, podríamos obtener una estimación incorrecta de la relación entre las variables, atribuyendo la causalidad a X cuando en realidad el mediador Z y la variable W tienen un papel clave.

El primer modelo correcto que estima la relación entre X e Y utiliza la regresión lineal simple, en la que X se presenta como la variable independiente y Y como la dependiente. Este modelo revela una estimación "verdadera" de la relación causal entre X e Y, siempre que no haya confusión introducida por variables externas. No obstante, en un escenario más complejo, cuando introducimos la variable Z en el modelo de regresión, la estimación de la relación causal entre X e Y se ve distorsionada, resultando en un falso positivo. La relación entre X e Y parece estar presente, pero en realidad, lo que ocurre es que Z está mediando esa relación, lo que lleva a una interpretación errónea de la causalidad.

El error en la estimación puede ser aún más significativo en experimentos más complejos, como los realizados en estudios de Monte Carlo, donde se simulan cadenas causales y se evalúan los efectos de diferentes variables bajo condiciones controladas. En estos casos, la presencia de un mediador confuso puede alterar considerablemente los resultados de los experimentos, y las conclusiones que se extraen pueden no reflejar la verdadera dinámica causal entre las variables de interés.

Este fenómeno resalta una de las principales preocupaciones en el campo de la econometría y la estadística causal: la necesidad de una correcta especificación del modelo. Si las variables mediadoras o confusoras no se identifican adecuadamente y se incluyen en el modelo de forma incorrecta, los resultados pueden llevar a conclusiones erróneas. Así, es esencial tener en cuenta no solo la relación directa entre las variables, sino también las posibles interacciones mediadoras que puedan alterar la interpretación causal

¿Cómo la falsificación y las estrategias experimentales transforman la teoría en ciencia verificable?

El proceso de validación científica se caracteriza por su capacidad para someter teorías a pruebas rigurosas, que desafían sus postulados y ponen a prueba su capacidad de predicción. Dentro de este marco, la falsificación ocupa un lugar central: es el mecanismo a través del cual una teoría demuestra su validez o, por el contrario, queda desmentida. Este enfoque puede aplicarse a diferentes contextos, como en la investigación de los mercados financieros, donde las hipótesis sobre el comportamiento de los agentes económicos se ponen a prueba mediante experimentos diseñados para evaluar cómo afectan las fluctuaciones del flujo de órdenes en la liquidez, el spread de compra-venta o la volatilidad.

Tomemos como ejemplo un estudio que divide aleatoriamente un conjunto de acciones en dos grupos y observa cómo la desproporción en el flujo de órdenes afecta las decisiones de los creadores de mercado. En este caso, la hipótesis de que los creadores de mercado ajustan su comportamiento ante desequilibrios en el flujo de órdenes se verifica observando el cambio en los spreads y la cancelación de cotizaciones. Estos experimentos pueden ser naturales, donde el investigador observa fenómenos inesperados sin intervenir, o intervenciones controladas, donde se manipulan las condiciones para inducir una respuesta. Si los resultados apoyan la teoría, esta sobrevive a una prueba de falsificación, y la comunidad científica concluye que la hipótesis se mantiene válida bajo ciertas condiciones.

Sin embargo, no siempre es posible experimentar directamente en un laboratorio. En algunos casos, los investigadores recurren a estudios de campo, que implican la observación directa de las prácticas de los agentes del mercado, como los creadores de mercado. Estos estudios permiten examinar si ciertos actores adaptan sus algoritmos de provisión de liquidez ante señales de desequilibrio en el flujo de órdenes, o si, por el contrario, mantienen sus estrategias intactas. Un hallazgo interesante es que aquellos agentes que no ajustan su comportamiento ante desajustes en el flujo de órdenes tienden a ser superados por aquellos que sí lo hacen, en una especie de selección darwiniana que deja como sobrevivientes a los más adaptados a las teorías más acertadas.

El principio de falsificación, tal como lo describe Popper, se basa en lo que se conoce como "predicciones arriesgadas", aquellas que anticipan un resultado bajo condiciones aún no observadas. La validez de una teoría se pone a prueba no solo por su capacidad de explicar lo que ya se ha observado, sino también por su habilidad para predecir eventos futuros que aún no se han dado. Un ejemplo clave de esto fue la predicción de fallos en la provisión de liquidez que anticipó la crisis de 2010, un evento que los traders que seguían la teoría PIN pudieron predecir y de este modo obtener beneficios.

La ciencia, entonces, se distingue por su capacidad para reemplazar razonamientos inductivos poco fiables por un razonamiento deductivo más sólido. Una teoría bien fundamentada debe ser susceptible de falsificación, es decir, debe ser posible demostrar que no se ajusta a la realidad mediante un experimento que la contradiga. A este respecto, las teorías más simples suelen ser preferidas, ya que son más fáciles de someter a prueba y refutar. No se trata de que las teorías más simples sean "más ciertas", sino de que son más adecuadas para enfrentar los desafíos de la ciencia, ya que sus implicaciones pueden verificarse con mayor claridad.

Es importante destacar que la ciencia no es simplemente un conjunto de afirmaciones matemáticas complejas, ni se valida únicamente a través de la revisión por pares. Muchas teorías científicas surgen de la observación y el análisis experimental, no del uso de fórmulas complicadas. La habilidad de formular experimentos que puedan demostrar las causalidades subyacentes a los fenómenos es lo que distingue a los grandes científicos, como Michael Faraday, de otros que solo se limitan a manipular datos sin comprender completamente el mecanismo que los conecta.

Por último, el proceso científico está estrechamente vinculado a la capacidad de realizar predicciones sobre situaciones aún no observadas. La falsificación no se limita solo a demostrar que una teoría es incorrecta en el contexto de lo conocido, sino a probar que sus predicciones se cumplen en circunstancias aún por descubrir. La ciencia progresa no solo cuando las teorías sobreviven a las pruebas, sino cuando se refuerzan a través de nuevas observaciones que expanden su aplicabilidad y refuerzan su robustez.

¿Cómo se logran inferencias causales en estudios observacionales sin experimentación directa?

En la búsqueda de establecer relaciones causales a partir de datos observacionales, los investigadores deben recurrir a diversas herramientas y métodos que, aunque no cuentan con la aleatorización propia de los experimentos controlados, permiten realizar inferencias con un grado de certeza. Estos métodos, como el uso de combinaciones lineales en unidades no tratadas o el empleo de gráficos causales hipotéticos, permiten simular intervenciones y estimar efectos causales con base en observaciones previas.

El enfoque más común en este tipo de investigaciones es el uso del "Synthetic Control Method", que se aplica cuando no es posible realizar un experimento aleatorizado. En este caso, el investigador busca una combinación lineal de unidades no tratadas que sea lo más similar posible a una unidad tratada antes de que se lleve a cabo el tratamiento. La diferencia entre el resultado observado de la unidad tratada y el resultado predicho en el grupo de control sintético proporciona una estimación del efecto del tratamiento. Este enfoque es particularmente útil en estudios de política pública o economía, donde los experimentos controlados son inviables, pero se necesita medir el impacto de ciertas intervenciones. Para una discusión detallada sobre este método, se puede consultar Abadie (2021).

Otro método ampliamente utilizado es la diferencia en diferencias (DID), que intenta corregir los efectos de factores no observados que varían en el tiempo entre los grupos tratados y de control. El principio de este enfoque radica en asumir que, si no hubiese intervención, las tendencias entre ambos grupos seguirían un curso paralelo. Al comparar las diferencias antes y después del tratamiento en ambos grupos, DID elimina los efectos de los factores que afectan a ambos grupos de la misma manera. Este enfoque depende de la suposición de "igualdad de tendencias", que, si no se cumple, puede llevar a conclusiones erróneas. Para verificar la validez de esta suposición, los investigadores pueden observar cómo cambian los resultados para ambos grupos antes de la intervención, asegurándose de que las tendencias sean paralelas.

Sin embargo, incluso con métodos como el DID, los investigadores enfrentan la limitación de los supuestos subyacentes. Mientras que el DID permite controlar ciertos factores, no es capaz de capturar efectos causales de manera tan directa como los estudios experimentales, como los ensayos controlados aleatorios (RCT, por sus siglas en inglés). En un RCT, el investigador tiene control sobre la asignación aleatoria de los sujetos al tratamiento, lo que permite una comparación más limpia, sin las influencias de factores no observados.

A medida que la ciencia de la inferencia causal ha avanzado, se ha desarrollado un enfoque más reciente que simula intervenciones cuando no es posible realizar un experimento controlado. Este método se basa en la utilización de gráficos causales hipotéticos, los cuales reflejan las relaciones causales que se asumen entre las variables de un modelo. La idea es simular una intervención "do", como si el investigador pudiera manipular directamente las variables de interés, para luego estimar el efecto causal. Aunque esta simulación no puede probar una relación causal de manera absoluta, puede ayudar a falsificar un gráfico causal hipotético si el efecto estimado no coincide con el supuesto