چکیده Large language models (LLMs) have been extensively used as the backbones for general-purpose agents, and some economics literature suggest that LLMs are capable of playing various types of economics games. Following these works, to overcome the limitation of evaluating LLMs using static benchmarks, we propose to explore competitive games as an evaluation for LLMs to incorporate multi-players and dynamicise the environment. By varying the game history revealed to LLMs-based players, we find that most of LLMs are rational in that they play strategies that can increase their payoffs, but not as rational as indicated by Nash Equilibria (NEs). Moreover, when game history are available, certain types of LLMs, such as GPT-4, can converge faster to the NE strategies, which suggests higher rationality level in comparison to other models. In the meantime, certain types of LLMs can win more often when game history are available, and we argue that the winning rate reflects the reasoning ability with respect to the strategies of other players. Throughout all our experiments, we observe that the ability to strictly follow the game rules described by natural languages also vary among the LLMs we tested. In this work, we provide an economics arena for the LLMs research community as a dynamic simulation to test the above-mentioned abilities of LLMs, i.e. rationality, strategic reasoning ability, and instruction-following capability.

چکیده به فارسی (ترجمه ماشینی) مدل های بزرگ زبان (LLMS) به عنوان ستون فقرات برای عوامل هدف عمومی مورد استفاده قرار گرفته است ، و برخی از ادبیات اقتصاد نشان می دهد که LLM ها قادر به انجام انواع مختلف بازی های اقتصادی هستند.به دنبال این آثار ، برای غلبه بر محدودیت ارزیابی LLM ها با استفاده از معیارهای استاتیک ، ما پیشنهاد می کنیم بازی های رقابتی را به عنوان یک ارزیابی برای LLM ها برای ترکیب چند بازیکن و پویا کردن محیط بررسی کنیم.با تغییر تاریخ بازی که به بازیکنان مبتنی بر LLMS نشان داده شده است ، می فهمیم که بیشتر LLM ها از این نظر منطقی هستند که آنها استراتژی هایی را بازی می کنند که می تواند بازپرداخت آنها را افزایش دهد ، اما آنقدر منطقی نیست که توسط Nash Equilibria (NES) نشان داده شده است.علاوه بر این ، هنگامی که تاریخچه بازی در دسترس است ، انواع خاصی از LLM ها ، مانند GPT-4 ، می توانند سریعتر به استراتژی های NE همگرا شوند ، که نشان می دهد سطح عقلانیت بالاتر در مقایسه با سایر مدل ها.در این میان ، انواع خاصی از LLM ها می توانند در صورت وجود تاریخ بازی بیشتر برنده شوند و ما استدلال می کنیم که نرخ برنده نشان دهنده توانایی استدلال با توجه به استراتژی های سایر بازیکنان است.در طول تمام آزمایشات ما ، مشاهده می کنیم که توانایی پیروی از قوانین بازی که توسط زبانهای طبیعی شرح داده شده است نیز در بین LLM هایی که آزمایش کرده ایم متفاوت است.در این کار ، ما یک عرصه اقتصاد برای جامعه تحقیقاتی LLMS به عنوان یک شبیه سازی پویا برای آزمایش توانایی های فوق الذکر LLMS ، یعنی عقلانیت ، توانایی استدلال استراتژیک و توانایی پیروی از دستورالعمل ارائه می دهیم.

زبان مقاله انگلیسی

عنوان مقاله به انگلیسی Economics Arena for Large Language Models

عنوان مقاله به فارسی عرصه اقتصاد برای مدلهای بزرگ زبانی

فرمت مقاله PDF

نویسندگان Shangmin Guo, Haoran Bu, Haochuan Wang, Yi Ren, Dianbo Sui, Yuming Shang, Siting Lu

مشاهده بیشتر