بهترین پاسخ

در نظریه بازی‌ها، بهترین پاسخ، استراتژی خالص یا مختلط است که منتج به بیشترین سود برای بازیکن، با ثابت در نظر گرفتن استراتژی سایر بازیکنان، شود. در یک بازی دو نفره، اگر $x$

و

y

استراتژی‌های بازیکنان اول و دوم باشند، در این صورت

x

بهترین پاسخ به

y

است اگر و تنها اگر برای هر استراتژی

x^{'}

از استراتژی‌های بازیکن نفر اول که

x\neq x'

داشته باشیم

u(x,y)\geq u(x',y)

که در آن تابع

u(S)

تابع سود بازیکن اول است.

مفهوم بهترین پاسخ، در تعریف مفهوم تعادل نش نقش اساسی دارد. در حقیقت در یک بازی، یک استراتژی پروفایل، تعادل نش است اگر هر کدام از بازیکنان بهترین پاسخ (یا یکی از بهترین پاسخ‌ها) را نسبت به استراتژی دیگران بازی کنند.

تابع بهترین پاسخ

تصویر ۱. رابطه بهترین پاسخ برای بازیکن Y در بازی شکار گوزن

از تابع بهترین پاسخ، که به عنوان تابع واکنش نیز شناخته می‌شود، در اثبات وجود تعادل نش استفاده می‌شود.

تابع بهترین پاسخ، یک تابع با برد استراتژی‌های بازیکن نیست، چون در یک تابع، به ازای هر آرگومان ورودی، یک خروجی یکتا تعیین می‌شود. در صورتی که ممکن است در بسیاری از نقاط تابع بهترین پاسخ، بیش از یک خروجی وجود داشته باشد. در حقیقت، تابع بهترین پاسخ، تابعی از استراتژی پروفایل‌های سایر بازیکنان به مجموعه استراتژی‌های بازیکن است. در صورتی که استراتژی سایر بازیکنان را $\sigma _{-i}$

بنامیم،

b_{i}(\sigma _{-i})

نشان‌گر بهترین پاسخ بازیکن

i

-ام به

\sigma _{-i}

است.

تصویر ۲. رابطه بهترین پاسخ برای بازیکن X در بازی شکار گوزن

تصویر ۳. رابطه بهترین پاسخ برای هر دو بازیکن در بازی شکار گوزن. در این شکل تعادل‌های نش با نقاط پررنگ نشان داده شده‌اند؛ یعنی نقاطی که خطوط بهترین پاسخ دو بازیکن با هم تقاطع پیدا کرده‌اند.

برای نمایش تابع بهترین پاسخ، برای تمامی بازی‌های بهنجار $2\times 2$

، می‌توان از یک خط در یک مربع واحد استفاده کرد. تصاویر ۱ تا ۳، تابع بهترین پاسخ را در بازی شکار گوزن نشان می‌دهند. خطوط نقطه‌چین در تصویر ۱، نشان‌گر بهینه‌ترین احتمال برای بازی گوزن توسط بازیکن

Y

است، به عنوان تابعی از احتمال بازی گوزن توسط بازیکن

X

. این خطوط در تصویر ۲، نشان‌گر بهینه‌ترین احتمال برای بازی گوزن توسط بازیکن

X

است که به عنوان تابعی از احتمال بازی گوزن توسط بازیکن

Y

ترسیم شده‌است. در تصویر ۳، هر دو این خطوط در یک نمودار رسم شده‌اند و نقاط برخورد این خطوط، نقاطی است که در آن، هر دو بازیکن بهترین پاسخ را نسبت به استراتژی بازیکن مقابل بازی می‌کنند و در نتیجه، تعادل‌های نش این بازی هستند.

استراتژی‌های غالب و مغلوب

بازی‌ها با استراتژی غالب

اگر در یک بازی، بازیکنی استراتژی غالب اکید داشته باشد، این استراتژی در مقابل همه استراتژی پروفایل‌های سایر بازیکنان بهترین پاسخ است. برای مثال، در بازی معمای زندانی، هر دو بازیکن استراتژی غالب اکید دارند، پس بهترین پاسخ هر بازیکن مستقل از بازی بازیکن دیگر، استراتژی غالب است. این گزاره هم‌چنین در مورد استراتژی غالب (نه غالب اکید) نیز صحیح است.

بازی‌ها با استراتژی مغلوب

اگر در یک بازی، بازیکنی استراتژی مغلوب اکید داشته باشد، می‌توان ثابت کرد این استراتژی مغلوب اکید، هیچ هنگام بهترین پاسخ نخواهد بود. این گزاره، در مورد استراتژی مغلوب صحیح نیست. بازی دو نفره زیر را در نظر بگیرید (بازی ۱). در این بازی استراتژی $A$

برای نفر اول استراتژی مغلوب است. در حالی که

A

بهترین پاسخ برای استراتژی

A

(که توسط نفر دوم بازی شود) است.

بازی ۱
B	A
۱٬۱	۱٬۱	A
۱٬۱	۱٬۱	B

رابطه بین ساپورت یک استراتژی غالب و بهترین پاسخ

اگر در یک بازی، $s$

بهترین پاسخ مختلط به استراتژی پروفایل سایر بازیکنان باشد، در این صورت هر استراتژی در ساپورت

s

نیز بهترین پاسخ به آن استراتژی پروفایل سایر بازیکنان است.

پویایی بهترین پاسخ

در نظریه‌ی بازی‌های تکاملی، پویایی بهترین پاسخ، مجموعه‌ای از قوانین بروزرسانی استراتژی‌ها را نمایش می‌دهد که استراتژی بازیکنان در دور بعدی را با توجه به تابع بهترین پاسخ آن‌ها در مقابل زیر مجموعه‌ای از کل جمعیت مشخص می‌کند.

نکته مهم است که بازیکنان در دور بعد بازی، استراتژی‌ای را انتخاب می‌کنند که سود آن‌ها را در همان دور بعد بیشینه کند و اهمیتی به آیندهٔ بازی در دوردست و تأثیر استراتژی انتخابی در آینده نمی‌دهند. در این‌جا تعریف بازی پتانسیل لازم است. یک بازی را بازی پتانسیلی می‌نامیم اگر انگیزهٔ همهٔ بازیکنان از عوض کردن استراتژی خود را بتوان به شکل یک تابع کلی به نام تابع پتانسیل نمایش داد. در نظریهٔ بازی‌های پتانسیلی، پویایی بهترین پاسخ به روشی برای یافتن تعادل نش با محاسبهٔ بهترین پاسخ برای هر بازیکن برمی گردد.

قضیه: در هر بازی پتانسیلی محدود، پویایی بهترین پاسخ به تعادل نش همگرا خواهد شد.

مدل تعدیل شده

تصویر ۴. تابع بهترین پاسخ (مشکی) و بهترین پاسخ تعدیل شده (رنگی)

برخی مدل‌ها از بهترین پاسخ تعدیل شده به جای بهترین پاسخ استفاده می‌کنند که این توابع همانند توابع بهترین پاسخ معمولی کار می‌کنند با این تفاوت که بازیکنان در آن از یک استراتژی خالص به استراتژی خالص دیگر پرش نمی‌کنند. در توابع بهترین پاسخ استاندارد، حتی اگر یک استراتژی به مقدار ناچیزی سود بیش‌تری از استراتژی دوم داشته باشد استراتژی اول با احتمال یک انتخاب می‌شود و استراتژی دوم انتخاب نمی‌شود؛ ولی در تابع بهترین پاسخ تعدیل شده، هرچه تفاوت سود ۲ تا استراتژی کمتر می‌شود به‌طور پیوسته درصد انتخاب ۲ استراتژی به‌طور پیوسته به ۵۰: ۵۰ میل می‌کند.

توابع زیادی هستند که بهترین پاسخ تعدیل شده را مدل می‌کنند، از جمله: ${\frac {e^{E(1)/\gamma }}{e^{E(1)/\gamma }+e^{E(2)/\gamma }}}$

که $E(x)$

سود حاصل از استراتژی

x

را نمایش می‌دهد و

\gamma

پارامتری است که میزان انحراف مدل تعدیل شدهٔ بهترین پاسخ را از مدل استاندارد نمایش می‌دهد و هر چه

\gamma

بیش‌تر باشد به معنای این است که بازیکن با احتمال بیش‌تری اشتباه می‌کند.

استفاده از این مدل تعدیل شده فواید زیادی هم در تئوری و هم در عمل دارد. از لحاظ روان‌شناختی زمانی که افراد نسبت به دو استراتژی تقریباً بی‌تفاوت هستند، به صورت تصادفی یکی از آن‌ها را انتخاب می‌کنند. علاوه بر این، بازی همهٔ افراد به‌طور یکسان در همهٔ حالات مشخص می‌شود.

مثال‌ها

بازی جوجه

تصویر ۵، نمودارهای بهترین پاسخ را برای بازی جوجه نشان می‌دهد. در این بازی، هر کدام از دو بازیکن دو استراتژی خالص دارد و استراتژی‌های بازیکنان در این بازی، گسسته‌است.

تصویر ۵. بازی جوجه. نمودارهای بالا، توابع بهترین پاسخ بازیکنان نسبت به هم ترسیم شده‌است. در تصویر سمت راست، هر دو نمودار در کنار هم ترسیم شده‌است. نقاط پررنگ، نقاط تعادل نش هستند.

رقابت کورنو

تصویر ۶، نمودار بهترین پاسخ هر دو بازیکن نسبت به هم را برای رقابت کورنو نشان می‌دهد. بر خلاف بازی جوجه، در این بازی، استراتژی‌های یک بازیکن پیوسته‌است.

تصویر ۶. بازی کورنو. این نمودار، بهترین پاسخ خالص هر بازیکن نسبت به استراتژی خالص بازیکن دیگر رسم شده‌است.

مثالی دیگر:

بازی استراتژیکی را در نظر بگیرید که در آن:

بازیکنان دو شرکت هستند.
هریک از دو شرکت مقدار بودجه‌ای را برای تبلیغات خود در نظر می‌گیرد.
اگر شرکت ۱ بودجهٔ $a_{1}$ را برای تبلیغات خود اختصاص دهد و شرکت ۲ بودجهٔ $a_{2}$ را برای تبلیغات خود در نظر بگیرد، سود شرکت ۱ برابر است با: $a_{1}(c+a_{2}-a_{1})$ و سود شرکت ۲ برابر است با: $a_{2}(c+a_{1}-a_{2})$ که c یک ثابت مثبت است.

حال تعادل نش چگونه است؟

برای محاسبهٔ تعادل نش باید تابع بهترین پاسخ را برای شرکت‌ها محاسبه کنیم. برای به دست آوردن بهترین پاسخ برای شرکت ۱ به ازای هر مقدار $a_{2}$

از شرکت ۲،

a_{2}

را ثابت در نظر گرفته و معادلهٔ رو به رو را حل می‌کنیم:

max_{a_{1}}a_{1}(c+a_{2}-a_{1})

مشتق عبارت بالا نسبت به $a_{1}$

برابر با

c+a_{2}-2\times a_{1}

می‌شود. زمانی که مشتق صفر می‌شود، مقدار سود شرکت ۱ بیشینه می‌شود پس:

۰ = $c+a_{2}-2\times a_{1}$

در نتیجه:

a_{1}={\frac {(c+a_{2})}{2}}

بنابراین تابع بهترین پاسخ شرکت۱ برابر است با

b_{1}(a_{2})={\frac {(c+a_{2})}{2}}

و به طریق مشابه تابع بهترین پاسخ شرکت۲

b_{2}(a_{1})={\frac {(c+a_{1})}{2}}

و تعادل نش یک جفت

(a_{1}^{*},a_{2}^{*})

که

a_{1}^{*}={\frac {(c+a_{2}^{*})}{2}}

و

a_{2}^{*}={\frac {(c+a_{1}^{*})}{2}}

.

با کم کردن ۲ تساوی از هم نتیجه می‌گیریم که $(a_{1}^{*},a_{2}^{*})=(c,c)$

و این یعنی بازی یک تعادل نش یکتا دارد و آن هم‌زمانی است که بودجهٔ در نظر گرفته شده توسط هر ۲ شرکت برای تبلیغات c باشد.

جستارهای وابسته

پانویس

↑ Noam Nisan and Tim Roughgarden, Algorithmic Game Theory
↑ Drew Fudenberg and Jean Tirole, Game Theory, p29
↑ article in economics.fundamentalfinance

منابع

Ellison, G. (1993), "Learning, Local Interaction, and Coordination", Econometrica, 61 (5): 1047–1071, doi:10.2307/2951493, JSTOR 2951493
Fudenberg, D.; Levine, David K. (1998), The Theory of Learning in Games, Cambridge MA: MIT Press
Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: انتشارات ام‌آی‌تی. ISBN 9780262061414. Book preview.
Gibbons, R. (1992), A primer in game theory, Harvester-Wheatsheaf
Nash, John F. (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48–49, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
Osborne, M.J.; Rubinstein, Ariel (1994), A course in game theory, Cambridge MA: MIT Press
Young, H.P. (2005), Strategic Learning and Its Limits, Oxford University Press
Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, V.V. (2007), Algorithmic Game Theory (PDF), New York: Cambridge University Press

[1] Noam Nisan and Tim Roughgarden, Algorithmic Game Theory

[:0-2] Drew Fudenberg and Jean Tirole, Game Theory, p29

[:1-3] rticle in economics.fundamentalfinance