- Risk-Sensitive Optimality in Markov Games
Počet záznamů: 1  

Risk-Sensitive Optimality in Markov Games

  1. 1.
    SYSNO ASEP0480036
    Druh ASEPC - Konferenční příspěvek (mezinárodní konf.)
    Zařazení RIVD - Článek ve sborníku
    NázevRisk-Sensitive Optimality in Markov Games
    Tvůrce(i) Sladký, Karel (UTIA-B) RID
    Martínez Cortés, V. M. (MX)
    Celkový počet autorů2
    Zdroj.dok.Proceedings of the 35th International Conference Mathematical Methods in Economics (MME 2017). - Hradec Králové : University of Hradec Králové, 2017 - ISBN 978-80-7435-678-0
    Rozsah strans. 684-689
    Poč.str.6 s.
    Forma vydáníOnline - E
    AkceMME 2017. International Conference Mathematical Methods in Economics /35./
    Datum konání13.09.2017 - 15.09.2017
    Místo konáníHradec Králové
    ZeměCZ - Česká republika
    Typ akceEUR
    Jazyk dok.eng - angličtina
    Země vyd.CZ - Česká republika
    Klíč. slovatwo-person Markov games ; communicating Markov chains ; risk-sensitive optimality ; dynamic programming
    Vědní obor RIVAH - Ekonomie
    Obor OECDApplied Economics, Econometrics
    CEPGA13-14445S GA ČR - Grantová agentura ČR
    Institucionální podporaUTIA-B - RVO:67985556
    UT WOS000427151400117
    AnotaceThe article is devoted to risk-sensitive optimality in Markov games. Attention is focused on Markov games evolving on communicating Markov chains with two-players with opposite aims. Considering risk-sensitive optimality criteria means that total reward generated by the game is evaluated by exponential utility function with a given risk-sensitive coefficient. In particular, the first player (resp. the secondplayer) tries to maximize (resp. minimize) the long-run risk sensitive average reward. Observe that if the second player is dummy, the problem is reduced to finding optimal policy of the Markov decision chain with the risk-sensitive optimality. Recall that for the risk sensitivity coefficient equal to zero we arrive at traditional optimality criteria. In this article, connections between risk-sensitive and risk-neutral Markov decisionchains and Markov games models are studied using discrepancy functions. Explicit formulae for bounds on the risk-sensitive average long-run reward are reported. Policy iteration algorithm for finding suboptimal policies of both players is suggested. The obtained results are illustrated on numerical example.
    PracovištěÚstav teorie informace a automatizace
    KontaktMarkéta Votavová, votavova@utia.cas.cz, Tel.: 266 052 201.
    Rok sběru2018
Počet záznamů: 1  

  Tyto stránky využívají soubory cookies, které usnadňují jejich prohlížení. Další informace o tom jak používáme cookies.