Optymalizacja portfela w kontekście wielu okresów (problem 10.93) zakłada, że optymalna polityka, która określa działania ata_t, jest polityką deterministyczną, która może być opisana przez rozkład prawdopodobieństwa przypominający funkcję delta, tzn. π(atyt)=δ(ata(yt))\pi(a_t | y_t) = \delta(a_t - a^*(y_t)), gdzie a(yt)a^*(y_t) to optymalne działanie uzyskane poprzez maksymalizację celu (10.93) względem kontroli ata_t. Jednak rzeczywiste dane handlowe mogą być suboptymalne lub szumne w pewnych momentach, z powodu takich czynników jak błędy modelu, opóźnienia w synchronizacji rynkowej, błędy ludzkie itp. Obecność takich suboptymalnych działań w danych stwarza poważne wyzwania, gdy zakładamy deterministyczną politykę, która sugeruje, że wybrane działanie jest zawsze optymalne. W takim przypadku, jeśli dane zawierają takie zdarzenia, to ich prawdopodobieństwo powinno wynosić zero, co prowadzi do zaniku prawdopodobieństwa trajektorii.

Zamiast zakładać deterministyczną politykę, bardziej użyteczne są polityki stochastyczne, opisane przez wygładzone rozkłady π(atyt)\pi(a_t | y_t), które są bardziej odpowiednie w problemach odwrotnych, takich jak odwrotna optymalizacja portfela. W tym podejściu, zamiast maksymalizacji względem deterministycznej polityki/akcji ata_t, przekształcamy problem w maksymalizację względem rozkładów prawdopodobieństwa π(atyt)\pi(a_t | y_t), co przedstawia równanie (10.97):

t=tTγttEπ[Rt(yt,atπ)]\sum_{t'=t}^T \gamma^{t'-t} \mathbb{E}_{\pi} \left[ R_t(y_t', a_t' | \pi) \right]

gdzie Rt(yt,at)=ytTRyyyt+atTRaaat+atTRayyt+atTRaR_t(y_t, a_t) = y_t^T R_{yy} y_t + a_t^T R_{aa} a_t + a_t^T R_{ay} y_t + a_t^T R_a oznacza funkcję zysku. Dzięki uwzględnieniu kary kwadratowej za ryzyko w skorygowanym zysku, pierwotny problem optymalizacji zwrotu skorygowanego ryzykiem jest przekształcany w problem maksymalizacji oczekiwanego skumulowanego zysku w standardowym ustawieniu MDP (Model Markowowski Proces Decyzyjny), co sprawia, że problem staje się bardziej odpowiedni dla podejść neutralnych względem ryzyka w ramach MDP.

Podejście probabilistyczne do działań w handlu portfelem wydaje się na wielu poziomach bardziej naturalnym podejściem niż formalizm oparty na deterministycznych politykach. W rzeczywistości, nawet w najprostszym, jednoparentowym ustawieniu, ponieważ optymalne rozwiązanie Markowitza dla wag portfela jest funkcją estymowanych średnich cen akcji i kowariancji, są one w rzeczywistości zmiennymi losowymi. Niemniej jednak probabilistyczny charakter optymalizacji portfela nie jest uznawany w ustawieniach optymalizacji jednego lub wielu okresów Markowitza, takich jak (10.93). Z tego powodu proponowana została probabilistyczna formuła optymalizacji portfela w kontekście jednego okresu przez Marschinskiego i innych (2007).

Inną interesującą kwestią jest referencyjna polityka, która jest przyjmowana przed próbą optymalizacji portfela. Może to być polityka probabilistyczna, opracowana na podstawie modelu parametrycznego, danych historycznych itp. W tym przypadku przyjmuje się, że mamy do czynienia z prostą polityką Gaussa, opisaną wzorem:

π0(atyt)=12πσpexp((ata^(yt))22σp2)\pi_0(a_t | y_t) = \frac{1}{\sqrt{2\pi \sigma_p}} \exp \left( -\frac{(a_t - \hat{a}(y_t))^2}{2 \sigma_p^2} \right)