A több periódusú portfólió-optimalizálás problémája (10.93) azt feltételezi, hogy az optimális politika, amely meghatározza az akciókat (at), determinisztikus politika, és ezt egy delta-szerű valószínűségi eloszlásként is leírhatjuk: π(at | yt) = δ(at − a%t (yt)), ahol a%t (yt) az optimális determinisztikus akció, amely az objektív (10.93) maximalizálásával érhető el az irányítási tényezők (at) tekintetében. Azonban a valós kereskedési adatok gyakran aluloptimalizáltak vagy zajosak lehetnek, például modellezési hibák, piacidőzítési késések, emberi tévedések stb. következtében. Az ilyen aluloptimalizált akciók jelenléte komoly kihívásokat jelenthet, ha megpróbáljuk feltételezni, hogy a determinisztikus politika (10.96) mindig az optimális akciót választja. Ez azért van így, mert az ilyen eseményeknek nulla valószínűsége kellene, hogy legyen ezen modell feltételezések alapján, és ezért a megfigyelt adatokban ezek az események elenyésző valószínűséget eredményeznének.

A determinisztikus politika (10.96) helyett a sztochasztikus politikák, amelyeket simított eloszlások π(at | yt) írnak le, hasznosabbak az inverz problémák, például az inverz portfólió-optimalizálás problémájának kezelésére. Ebben az megközelítésben nem a determinisztikus politika/akció (at) tekintetében történik a maximalizálás, hanem a valószínűségi eloszlások π(at | yt) maximalizálásával alakítjuk át a problémát:

t=tT1γttEqπ[Rt(yt,at;π)]\sum_{t'=t}^{T-1} \gamma^{t'-t} \mathbb{E}^{q_{\pi}} \left[ R_t(y_{t'} , a_{t'}; \pi) \right]

ahol R̂(yt , at ) = yTt Ryyyt + aTt Raaa+ aTt Rayyt + aTt Ra.

A sztochasztikus politikák alkalmazása nemcsak a kockázat-ellenőrzés szempontjából fontos, hanem azért is, mert a portfóliók optimalizálása gyakran véletlenszerű változókat, például a részvények várható hozamait és azok kovarianciáit tartalmaz. Ezt a sztochasztikus természetet nem minden esetben veszik figyelembe a Markowitz-típusú egy- vagy több-periódusú optimalizálási modellekben. Marschinski és társai (2007) egy egyszerűbb, egy-periódusú megközelítést javasoltak, amely figyelembe veszi a sztochasztikus jelleget a portfólió optimalizálásában.

Az optimális politika meghatározásához gyakran szükség van egy referenciaként használt sztochasztikus politikára, amelyet előre meg kell határozni. Az ilyen referencia-politika általában valamilyen paraméteres modellt, történelmi adatokat vagy más hasonló információkat alapul vehet. Egy egyszerűsített példaként tekinthetjük a gaussi referenciapolitikát, amely a következőképpen néz ki:

π0(atyt)=12πσ2exp((ata^(yt))22σ2)\pi_0(at | yt) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(at - â(yt))^2}{2\sigma^2} \right)