Игра с неполной информацией

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Байесовская игра (англ. Bayesian game) или игра с неполной информацией (англ. incomplete information game) в теории игр характеризуются неполнотой информации о соперниках (их возможных стратегиях и выигрышах), при этом у игроков есть веры относительно этой неопределённости. Байесовскую игру можно преобразовать в игру полной, но несовершенной информации, если принять допущение об общем априорном распределении. В отличие от неполной информации, несовершенная информация включает знание стратегий и выигрышей соперников, но история игры (предыдущие действия оппонентов) доступна не всем участникам.

Джон Харсаньи описал байесовские игры следующим образом[1]. В дополнение к фактическим участникам игры появляется виртуальный игрок «Природа». Природа наделяет каждого из фактических участников случайной переменной, значения которой называются типами. Распределение (плотность или функция вероятности) типов для каждого из игроков известно. В начале игры природа «выбирает» типы игроков. Тип, в частности, определяет функцию выигрыша участника. Таким образом, неполнота информации в байесовской игре — незнание по крайней мере одним игроком типа некого другого участника. Игроки обладают верами относительно типов соперников; вера — вероятностное распределение на множестве возможных типов. В процессе игры веры обновляются в соответствии с теоремой Байеса.

Определение

Игра определяется так: [math]\displaystyle{ G = \langle N, \Omega, \langle A_i,u_i,T_i,\tau_i,p_i,C_i \rangle_{i\in N} \rangle }[/math], где

  1. [math]\displaystyle{ N }[/math] — множество игроков.
  2. [math]\displaystyle{ \Omega }[/math] — множество состояний природы. Пример состояния природы: порядок колоды в карточной игре.
  3. [math]\displaystyle{ A_i }[/math] — множество действий игрока [math]\displaystyle{ i }[/math]. Пусть [math]\displaystyle{ A=A_1\times A_2\times\dotsb\times A_N }[/math].
  4. [math]\displaystyle{ T_i }[/math] — множество типов игрока [math]\displaystyle{ i }[/math]. Тип определяется по правилу [math]\displaystyle{ \tau_i\colon \Omega \rightarrow T_i }[/math].
  5. [math]\displaystyle{ C_i \subseteq A_i \times T_i }[/math] определяет доступные действия для игрока [math]\displaystyle{ i }[/math], обладающего неким типом в [math]\displaystyle{ T_i }[/math].
  6. [math]\displaystyle{ u_i\colon \Omega \times A \rightarrow R }[/math] функция выигрыша игрока [math]\displaystyle{ i }[/math]. Более формально, пусть [math]\displaystyle{ L=\{(\omega,a_1,\dotsc,a_N)\mid\omega \in \Omega, \forall i, (a_i,\tau_i(\omega)) \in C_i\} }[/math], и [math]\displaystyle{ u_i\colon L \rightarrow R }[/math].
  7. [math]\displaystyle{ p_i }[/math] распределение вероятности на [math]\displaystyle{ \Omega }[/math] для каждого игрока [math]\displaystyle{ i }[/math], то есть каждый игрок по-разному оценивает вероятности состояний природы; в течение игры они его не знают.

Чистая стратегия [math]\displaystyle{ s_i\colon T_i \rightarrow A_i }[/math] должна удовлетворять [math]\displaystyle{ (s_i(t_i),t_i) \in C_i }[/math] для всех [math]\displaystyle{ t_i }[/math]. Стратегия каждого игрока зависит только от его типа, так как типы других игроков для него скрыты. Ожидаемый выигрыш игрока [math]\displaystyle{ i }[/math] при данном стратегическом профиле равен [math]\displaystyle{ u_i(S)=E_{ \omega \sim p_i}[u_i( \omega ,s_1(\tau_1( \omega )),\dotsc,s_N(\tau_N( \omega )))] }[/math].

Пусть [math]\displaystyle{ S_i }[/math] — множество чистых стратегий, [math]\displaystyle{ S_i = \{s_i\colon T_i \rightarrow A_i \mid (s_i(t_i),t_i) \in C_i, \forall t_i\}. }[/math]

Байесовское равновесие игры [math]\displaystyle{ G }[/math] определяется как равновесие Нэша (возможно, в смешанных стратегиях) игры [math]\displaystyle{ \hat{G} = \langle N,\hat{A}=S_1\times S_2\times\dotsb\times S_N, \hat{u} =u \rangle }[/math]. Если игра [math]\displaystyle{ G }[/math] конечна, байесовское равновесие существует всегда.

Примеры

Дилемма шерифа

Шериф сталкивается с подозреваемым. Оба должны одновременно принять решение о том, следует ли стрелять.

Подозреваемый имеет два возможных типа: «преступник» и «законопослушный». У шерифа есть только один тип. Подозреваемому известен его тип, шерифу же он неведом. Таким образом, в игре присутствует неполная информация, она относится к классу байесовских. По мнению шерифа, с вероятностью p подозреваемый является преступником, с вероятностью 1-p — законопослушным гражданином. Величины p и 1-p известны обоим игрокам, поскольку делается допущение об общем априорном распределении. Именно оно позволяет преобразовать эту игру в игру полной, но несовершенной информации.

Шериф предпочёл бы стрелять, если стреляет подозреваемый, и избежать стрельбы в противном случае (даже если подозреваемый действительно является преступником). Преступник склонен стрелять (даже если шериф не стреляет), в то время как законопослушный гражданин хочет избежать конфликта любым образом (даже если шериф стреляет). Матрицы выигрышей зависит от типа подозреваемого:

 
Тип = «Законопослушный» Действие шерифа
Стрелять Не стрелять
Действие подозреваемого Стрелять -3, -1 -1, -2
Не стрелять -2, -1 0, 0
 
Тип = «Преступник» Действие шерифа
Стрелять Не стрелять
Действие подозреваемого Стрелять 0, 0 2, -2
Не стрелять -2, -1 -1,1

Если оба имеется общее знание о рациональности игроков (игрок 1 рационален; игрок 1 знает, что игрок 2 рационален; игрок 1 знает, что игрок 2, знает, что игрок 1 рационален и т.д. до бесконечности) игра пройдёт по следующему равновесному (совершенное байесовское равновесие) сценарию[2][3]:

Когда подозреваемый имеет тип «законопослушный», доминирующая стратегия для него — не стрелять, когда же он имеет тип «преступник», доминирующая стратегия предписывает ему стрелять. Сильно доминируемые стратегии можно исключить из рассмотрения. Тогда если шериф стреляет, он получает 0 с вероятностью p и -1 с вероятностью 1-p. Его ожидаемый выигрыш составляет p-1. Если шериф не стреляет, ему полагается -2 с вероятностью p и 0 с вероятностью 1-p; ожидаемый выигрыш равен -2p. Шериф всегда будет стрелять при условии p-1 > -2p, то есть когда p > 1/3.

См. также

Примечания

  1. Harsanyi, John C., 1967/1968. "Games with Incomplete Information Played by Bayesian Players, I-III." Management Science 14 (3): 159-183 (Part I), 14 (5): 320-334 (Part II), 14 (7): 486-502 (Part III).
  2. Coursera (англ.). Coursera. Дата обращения: 16 июня 2016.
  3. Hu, Yuhuang; Loo, Chu Kiong. A Generalized Quantum-Inspired Decision Making Model for Intelligent Agent (англ.) // The Scientific World Journal[англ.] : journal. — 2014. — 17 March (vol. 2014). — ISSN 1537-744X. — doi:10.1155/2014/240983. — PMID 24778580.

Литература