-
友情链接:
大型讲话模子(LLMs)在庸碌的任务中取得了权贵的胜仗。由于LLMs令东说念主印象深入的规画和推理才气,它们被用作自治智能体自动完成好多任务。最近,基于使用一个LLM当作单个规画或决策智能体的发展,基于LLM的多智能体系统在复杂问题治理和宇宙模拟方面取得了可不雅的进展。为了向社区提供这一动态领域的抽象,咱们残酷了这项综述,以便对基于LLM的多智能体系统的基本方面以及挑战进行深入征询。方向是让读者对以下问题有实质性的观点:LLM基础的多智能体模拟哪些领域和环境?这些智能体是怎么设置的亚洲色图 中文字幕,它们怎么通讯?哪些机制促进了智能体才气的增长?对于那些有风趣深入研究这一领域的东说念主们,咱们还总结了常用的数据集或基准测试,以便他们浅易地获取。
图片
张长旺,旺知识1 小序
大型讲话模子(LLMs)最近展示了在达到与东说念主类十分水平的推理和规画才气方面的权贵后劲。这种才气正巧相宜东说念主类对自治智能体的渴望,这些智能体粗略感知周围环境,作念出决策,并作念出响应[Xi等东说念主,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等东说念主,2023;Liang等东说念主,2023]。因此,基于LLM的智能体依然被研究并飞速发展,以意会和生成访佛东说念主类的指示,促进在庸碌的情境中的复杂交互和决策[Yao等东说念主,2023;Shinn等东说念主,2023;Li等东说念主,2023d]。实时的综述论文系统地总结了基于LLM的智能体的进展,如[Xi等东说念主,2023;Wang等东说念主,2023b]所见到的。
基于单个基于LLM的智能体的启发才气,残酷了基于LLM的多智能体,以愚弄多个智能体的集体智能和专诚的设置和手段。与使用单个LLM驱动的智能体的系统比较,多智能体系统通过:
1)将LLMs专科化为具有不同才气的各个不同的智能体,以及;
2)使这些种种化的智能体之间进行互动,以灵验地模拟复杂的现实宇宙环境,提供了先进的才气。
在这种布景下,多个自治智能体合作参与规画、征询和决策,反应了东说念主类群体职责在治理问题任务中的合作性质。这种步伐愚弄了LLMs的换取才气,愚弄它们生成文本进行换取并响应文本输入的才气。此外,它还愚弄了LLMs在各个领域的庸碌知识和它们在特定任务上专科化的潜在才气。最近的研究依然展示了愚弄基于LLM的多智能体治理种种任务的有但愿的收尾,举例软件开发[Hong等东说念主,2023;Qian等东说念主,2023],多机器东说念主系统[Mandi等东说念主,2023;Zhang等东说念主,2023c],社会模拟[Park等东说念主,2023;Park等东说念主,2022],政策模拟[Xiao等东说念主,2023;Hua等东说念主,2023]和游戏模拟[Xu等东说念主,2023c;Wang等东说念主,2023c]。由于这一领域的跨学科研究性质,它勾引了种种化的研究东说念主员,不仅限于AI群众,还包括来自社会科学、脸色学和政策研究等领域的东说念主员。
图片
研究论文的数目正在飞速加多,如图1所示(受到[Gao等东说念主,2023b]想象的启发),从而扩大了基于LLM的多智能体研究的影响。尽管如斯,早期的辛劳是落寞进行的,导致枯竭一个系统的转头来总结它们,开辟这一领域的全面蓝图,并注视异日的研究挑战。这强调了咱们职责的进攻性,并成为咱们残酷这项考查论文的动机,专注于基于LLM的多智能体系统的研究。咱们渴望咱们的考查粗略对LLMs的研究和开发以及使用LLMs的更庸碌的跨学科研究作念出首要孝敬。读者将赢得基于LLM的多智能体(LLM-MA)系统的全面抽象,掌合手开辟基于LLMs的多智能体系统所波及的基本认识,并掌合手这一动态领域的最新研究趋势和应用。咱们坚定到这一领域正处于早期阶段,而况跟着极新的步伐和应用的快速发展。咱们但愿咱们的考查粗略引发这一领域的进一步探索和改换,以及庸碌的研究学科的应用。为了匡助来自不同布景的个东说念主意会LLM-MA时刻,并补充现存考查,治理未治理的问题,咱们以以下款式组织了咱们的考查论文。在第2节中先容了布景知识之后,咱们治理了一个重要问题:LLM-MA系统怎么与合作问题治理环境相一致?为了回答这个问题,咱们在第3节中残酷了一个全面的框架,用于定位、隔离和联结LLM-MA系统的各个方面。咱们通过征询以下问题深入探讨了这个问题:
1)智能体-环境接口,详实阐述了智能体怎么与任务环境互动;
2)智能体设置,解释了智能体是怎么通过LLM以特定款式进行特征化的;3)智能体通讯,查验了智能体怎么交换音书和合作;
4)智能体才气获取,探讨了智能体怎么发展其灵验治理问题的才气。从另一个角度审查对于LLM-MA的研究,是它们的应用。
在第4节中,咱们将现时应用分为两个主要派别:用于问题治理的多智能体和用于宇宙模拟的多智能体。为了指导个东说念主识别妥当的器用和资源,咱们在第5节中先容了用于研究LLM-MA的开源结束框架,以及可用的数据集和基准测试。基于之前的总结,咱们在第6节中开启了对异日研究挑战和契机的征询。论断在第7节中总结。
2 布景
2.1 基于LLM的单智能体系统
咱们首先通过抽象基于LLM的单智能体系统的才气来先容布景,接着是[Weng,2023]中残酷的征询。
决策念念维:这个术语示意LLM基础智能体的才气,通过教唆率领,将复杂任务判辨为较小的子方向[Khot等东说念主,2023],对每个部分进行系统性的念念考(偶然探索多条旅途)[Yao等东说念主,2023],并从夙昔的教训中学习[Shinn等东说念主,2023],以更好地在复杂任务上作念出决策。这种才气增强了单个基于LLM的智能体的自主性,并加强了其在问题治理中的灵验性。
器用使用:基于LLM的智能体的器用使用才气允许它们愚弄外部器用和资源完成任务,增强了它们的功能性才气,并在种种化和动态的环境中更灵验地运作[Li等东说念主,2023d;Ruan等东说念主,2023;Gao等东说念主,2023b]。
顾忌:这种才气指的是LLM基础智能体进行凹凸文体习的才气[Dong等东说念主,2023a],当作短期顾忌或外部向量数据库[Lewis等东说念主,2021]当作永久顾忌,以在永劫候内保存和检索信息[Wang等东说念主,2023b]。这种才气使单个基于LLM的智能体粗略保持凹凸文的连贯性,并从交互中增强学习。
2.2 单智能体与多智能体系统
由LLM驱动的单智能体系统展示了饱读励东说念主心的贯通才气[Sumers等东说念主,2023]。这些系统的构建集结在制定其里面机制和与外部环境的互动上。相反,LLM-MA系统强调种种化的智能体设置、智能体间的互动和集体决策过程。从这个角度来看,通过多个自治智能体的合作,每个智能体齐配备了独到的策略和行径,并互相换取,不错治理更动态和复杂的任务。
3 解析LLM-MA系统:接口、设置、通讯和才气
在本节中,咱们将深入探讨LLM-MA系统的复杂性,其中多个自治智能体参与合作行径,访佛于东说念主类群体在治理问题场景中的动态。咱们治理的一个重要问题是这些LLM-MA系统怎么与其操作环境和它们想象达成的集体方向保持一致。为了阐述这极少,咱们在图2中展示了这些系统的一般架构。咱们的分析剖析了这些系统的运作框架,重心怜惜四个重要方面:智能体-环境接口、智能体设置、智能体通讯和智能体才气获取。
图片
3.1 智能体-环境接口
操作环意境说了LLM-MA系统部署和互动的具体凹凸文或诞生。举例,这些环境不错像软件开发[Hong等东说念主,2023]、游戏[Mao等东说念主,2023]以及金融市集[Li等东说念主,2023g]以致社会行径建模[Park等东说念主,2023]等种种领域。基于LLM的智能体在环境中感知并行动,而环境反过来影响它们的行径和决策。举例,在狼东说念主游戏模拟中,沙盒环境设定了游戏的框架,包括从白日到夜晚的过渡、征询阶段、投票机制和奖励规矩。智能体,如狼东说念主和预言家,蔓延特定行动,如杀东说念主或查验变装。在这些行动之后,智能体从环境中采纳反馈,见告它们游戏确现时状况。这种信息指导智能体随时候转机它们的策略,响应不停演变的游戏玩法和其他智能体的互动。智能体-环境接口指的是智能体与环境互动和感知的款式。恰是通过这个接口,智能体意会它们的周围环境,作念出决策,并从它们的行动收尾中学习。咱们将LLM-MA系统中现时的接口分类为三种类型:沙盒、物理和无,详实见表1。沙盒是由东说念主类构建的模拟或编造环境,智能体不错在其中更目田地互动,并尝试种种行动和策略。这种接口庸碌应用于软件开发(代码解释器当作模拟环境)[Hong等东说念主,2023]、游戏(使用游戏规矩当作模拟环境)[Mao等东说念主,2023]等。物理是指智能体与物理实体互动的信得过宇宙环境,并恪守现实宇宙的物理和经管。在物理空间中,智能体往常需要选择不错产生径直物理收尾的行动。举例,在扫地、作念三明治、打包杂货和整理橱柜等任务中,机器东说念主智能体需要迭代蔓延行动,不雅察物理环境,并不停改进它们的行动[Mandi等东说念主,2023]。临了,无指的是莫得特定外部环境的情况,智能体不与任何环境互动。举例,好多应用[Du等东说念主,2023;Xiong等东说念主,2023;Chan等东说念主,2023]愚弄多个智能体申辩一个问题以达成共鸣。这些应用主要怜惜智能体之间的通讯,不依赖于外部环境。
图片
表1:LLM-MA研究总结。咱们证据它们的动机、研究领域和方向对现时职责进行分类,并从智能体-环境接口、智能体设置、智能体通讯和智能体才气获取的不同方面详实阐述每项职责。“-”示意某个特定元素在这项职责中莫得止境说起。3.2 智能体设置
在LLM-MA系统中,智能体通过它们的特质、行动和手段来界说,这些齐是为了满足特定方向而定制的。在不同的系统中,智能体承担不同的变装,每个变装齐有全面描摹,包括特征、才气、行径和抑遏。举例,在游戏中的环境里,智能体可能被设置为具有不同变装和手段的玩家,每个变装齐以不同的款式为游戏方向作念出孝敬。在软件开发中,智能体可能担任居品司理和工程师的变装,每个变装齐有指导开发过程的职守和专科知识。不异地,在申辩平台上,智能体可能被指定为支援者、反对者或评委,每个变装齐有独到的功能和策略,以灵验履行其变装。这些设置对于界说智能体之间的互动和在各自环境中的灵验性至关进攻。表1列出了近期LLM-MA作品中的智能体设置。对于智能体设置步伐,咱们将它们分为三种类型:预界说、模子生成和数据驱动。在预界说的情况下,智能体设置是由系统想象者明确界说的。模子生成步伐通过模子(举例大型讲话模子)创建智能体设置。数据驱动步伐规基于事先存在的数据集构建智能体设置。
3.3 智能体通讯
LLM-MA系统中智能体之间的通讯是支援集体智能的重要基础设施。咱们从三个角度剖析智能体通讯:1)通讯范式:智能体之间互动的作风和步伐;2)通讯结构:多智能体系统内通讯蚁集的组织和架构;以及3)智能体之间交换的通讯内容。
通讯范式:现时的LLM-MA系统主要采纳三种通讯范式:合作、申辩和竞争。合作智能体共同辛劳结束分享的方向或方向,往常交换信息以增强集体治理有筹备。申辩范式在智能体进行争论性互动时使用,残酷并捍卫我方的不雅点或治理有筹备,并月旦他东说念主的。这种范式恰当达成共鸣或更精深的治理有筹备。竞争智能体则辛劳结束可能与其他智能体的方向相冲突的我方的方向。
图片
通讯结构:图3展示了LLM-MA系统中的四种典型通讯结构。分层通讯是分层结构的,每个层级的智能体齐有不同的变装,主要在我方的层级内或与相邻层级互动。[Liu等东说念主,2023]引入了一个名为动态LLM-智能体蚁集(DyLAN)的框架,它将智能体组织在一个多层前馈采聚首。这种诞生促进了动态互动,包含了诸如推理时智能体遴荐和早停机制等功能,共同进步了智能体之间合作的收尾。去中心化通讯在点对点蚁集上运行,智能体径直互相通讯,这种结构辞宇宙模拟应用中常见。集结式通讯波及一个中央智能体或一组中央智能体融合系统的通讯,其他智能体主要通过这个中心节点进行互动。分享音书池由MetaGPT[Hong等东说念主,2023]残酷,以进步通讯收尾。这种通讯结构顾惜了一个分享的音书池,智能体在其中发布音书,并证据它们的设置订阅商酌音书,从而进步了通讯收尾。
通讯内容:在LLM-MA系统中,通讯内容往常以文本模式存在。具体内容各异很大,取决于特定的应用。举例,在软件开发中,智能体可能会就代码段互相通讯。在像狼东说念主这么的游戏模拟中,智能体可能会征询他们的分析、怀疑或策略。
3.4 智能体才气获取
智能体才气获取是LLM-MA中的一个进攻过程,使智能体粗略动态学习和进化。在这种情况下,有两个基本认识:智能体应该从哪些类型的反馈中学习以增强其才气,以及智能体为灵验治理复杂问题而转机自己的策略。
反馈:反馈是智能体对于其行动收尾收到的重要信息,匡助智能体了解其行动的潜在影响,并适合复杂和动态的问题。在大多数研究中,向智能体提供的反馈模式是文本。证据智能体采纳此类反馈的来源,它不错被分类为四种类型。
1)来自环境的反馈,举例来自现实宇宙环境或编造环境[Wang等东说念主,2023b]。这在大多数LLM-MA问题治理场景中齐很渊博,包括软件开发(智能体从代码解释器那边赢得反馈)和具身多智能体系统(机器东说念主从现实宇宙或模拟环境中赢得反馈)。
2)来自智能体互动的反馈意味着反馈来自其他智能体的判断或来自智能体之间的通讯。这在像科学申辩这么的问题治理场景中很常见,智能体通过通讯学习批判性地评估和完善论断。辞宇宙模拟场景(如游戏模拟)中,智能体证据其他智能体之间的先前互动学习完良策略。
3)来自东说念主类的反馈径直来自东说念主类,对于使多智能体系统与东说念主类价值不雅和偏好保持一致至关进攻。这种反馈在大多数“东说念主在轮回中”的应用中被庸碌使用[Wang等东说念主,2021]。
4)莫得反馈。在某些情况下,智能体莫得收到反馈。这往常发生在专注于分析模拟收尾而不是智能体规画才气的模拟职责中。在这种情况下,举例传播模拟,重心是收尾分析,因此反馈不是系统的一部分。
智能体对复杂问题的转机:为了增强其才气,LLM-MA系统中的智能体不错通过三种主要治理有筹备进行转机。
1)顾忌。大多数LLM-MA系统愚弄顾忌模块来转机智能体的行径。智能体将来自先前互动和反馈的信息存储在它们的顾忌中。在蔓延行动时,它们不错检索商酌的、有价值的顾忌,止境是那些包含夙昔访佛方向的胜仗行动的顾忌,正如[Wang等东说念主,2023b]所强调的。这个过程有助于进步它们现时的行动。
2)自我进化。智能体不单是依赖历史纪录来决定后续行动,如在基于顾忌的治理有筹备中所见,智能体不错通过修改我方(举例改变运行方向和规画策略)并证据反馈或通讯日记对我方进行教练来动态自我进化。[Nascimento等东说念主,2023]残酷了一个自我抑遏轮回过程,允好多智能体系统中的每个智能体自我管理和自我适合动态环境,从而进步多个智能体的合作收尾。[Zhang等东说念主,2023b]引入了ProAgent,它预测队友的决策并证据智能体之间的通讯日记动态转机每个智能体的策略,促进互相意会和进步合作规画才气。[Wang等东说念主,2023a]征询了一种通过通讯学习(LTC)的范式,使用多智能体的通讯日记生成数据集来教练或微调LLM。LTC使智能体粗略通过与环境和其他智能体的互动连续适合和改进,冲破了凹凸文体习或监督微调的抑遏,这些抑遏莫得充分愚弄与环境和外部器用互动时收到的反馈进行连续教练。自我进化使智能体粗略在其设置或方向上进行自主转机,而不单是是从历史互动中学习。
3)动态生成。在某些场景中,系统不错在其运行时期即时生成新的智能体[Chen等东说念主,2023a;Chen等东说念主,2023c]。这种才气使系统粗略灵验地扩展和适合,因为它不错引入专诚想象来治理现时需乞降挑战的智能体。跟着LLM-MA系统扩展和智能体数目的加多,管理种种类型的智能体的复杂性依然成为一个重要问题。智能体协同作用当作一项重要挑战开头受到怜惜[Moura,2023;Dibia,2023]。咱们将在第6.4节中进一步征询这个话题。
4 应用
胖子行动队在线观看44LLM-MA系统已被用于庸碌的应用领域。咱们在表1中总结了两种应用类型:问题治理和宇宙模拟。咱们鄙人面详实阐述了这些应用。请肃肃,这是一个快速发展的研究领域,新的应用险些每天齐在出现。咱们顾惜一个开源仓库来答谢最新的职责。
4.1 LLM-MA用于问题治理
使用LLM-MA进行问题治理的主要动机是愚弄具有专科专长的智能体的集体才气。这些智能体当作个体,合作治理复杂问题,举例软件开发、具身智能体、科学实验和科学申辩。接下来将先容这些应用示例。
4.1.1 软件开发
探讨到软件开发是一个复杂的任务,需要像居品司理、模式员和测试员这么的种种变装的合作,LLM-MA系统往常被诞生为师法这些不同的变装并合作治理复杂挑战。遵命软件开发的瀑布流或圭臬化操作模式(SOPs)的职责经过,智能体之间的通讯结构往常是分层的。智能体往常与代码解释器、其他智能体或东说念主类互动,以迭代地改进生成的代码。[Li等东说念主,2023b]首先残酷了一个简易的变装璜演智能体框架,它愚弄两个变装之间的互相作用来结束基于一句用户指示的自主编程。它为通讯智能体的“贯通”过程提供了观点。[Dong等东说念主,2023b]使LLMs当作软件开发子任务的“群众”,自主合作生成代码。此外,[Qian等东说念主,2023]残酷了一个端到端的软件开发框架,愚弄多个智能体进行软件开发,而不包含先进的东说念主类团队职责教训。[Hong等东说念主,2023]首先将东说念主类职责经过的观点纳入更受抑遏和考据的性能。它将SOPs编码到教唆中以增强结构化融合。[Huang等东说念主,2023a]更深入地研究了基于多智能体的编程,治理了均衡代码片断生成与灵验的测试用例生成、蔓延和优化的问题。
4.1.2 具身智能体
大多数具身智能体应用内容上愚弄多个机器东说念主共同完成复杂的现实宇宙规画和操作任务,如具有异构机器东说念主才气的仓库管理。因此,LLM-MA可用于模拟具有不同才气的机器东说念主,并互迎合作治理现实宇宙的物理任务。[Dasgupta等东说念主,2023]首先探索了使用LLM当作镶嵌式智能体的动作规画器的后劲。[Mandi等东说念主,2023]引入了RoCo,这是一种新颖的多机器东说念主合作步伐,使用LLM进行高级通讯和初级旅途规画。每个机器东说念主臂齐配备了一个LLM,与逆畅通学和碰撞查验合作。实验收尾讲授了RoCo在合作任务中的适合性和胜仗。[Zhang等东说念主,2023c]残酷了CoELA,一种合作具身讲话智能体,在LLM-MA环境中管理征询和任务规画。这个具有挑战性的诞生以去中心化抑遏、复杂的部分不雅察、奋斗的通讯和多方向长视线任务为特征。[Chen等东说念主,2023d]研究了波及多数机器东说念主的场景中的通讯挑战,因为为每个机器东说念主分拨一个LLM将是奋斗和不切推行的,由于凹凸文的长度。该研究比较了四种通讯框架,集结式、去中心化和两种搀杂模子,以评估它们在融合复杂多智能体任务中的灵验性。[Yu等东说念主,2023]残酷了CoNavGPT,用于多机器东说念主合作视觉方向导航,将LLM集成当作全局规画器,为每个机器东说念主分拨前沿方向。[Chen等东说念主,2023b]残酷了一个基于LLM的共鸣寻求框架,可当作多机器东说念主团员任务的合作规画器。
4.1.3 科学实验
与多个智能体饰演不同群众变装并合作治理软件开发和具身智能体问题访佛,多个智能体也可用于组建科学团队进行科学实验。与以往应用的一个主要区别在于东说念主类监督的重要作用,因为科学实验的奋斗本钱和LLM智能体的幻觉问题。东说念主类群众处于这些智能体的中心,处默默能体的信息并给智能体提供反馈。[Zheng等东说念主,2023]愚弄多个基于LLM的智能体,每个专注于科学实验的特定任务,包括策略规画、文献搜索、编码、机器东说念主操作和实验器具想象。总计这些智能体与东说念主类互动,共同合作优化复杂材料的合成过程。
4.1.4 科学申辩
LLM-MA不错诞生为科学申辩场景,其中智能体互相申辩以增强集体推理才气,处理诸如大范围多任务讲话意会(MMLU)[Hendrycks等东说念主,2020]、数学问题[Cobbe等东说念主,2021]和StrategyQA[Geva等东说念主,2021]等任务。主要念念想是每个智能体首先提供我方对问题的分析,然后进行合伙申辩过程。通过多轮申辩,智能体达成单一的共鸣谜底。[Du等东说念主,2023]愚弄多智能体申辩过程在六种不同的推理和事实准确性任务上,并讲授LLM-MA申辩不错进步事实性。[Xiong等东说念主,2023]专注于学问推理任务,并制定了一个三阶段的申辩,以相宜现实宇宙场景,包括公说念申辩、不匹配申辩和圆桌申辩。该论文还分析了不同LLM之间的里面一致性,并宣称申辩不错进步里面一致性。[Tang等东说念主,2023]也愚弄多个基于LLM的智能体当作不同领域群众进行合作征询,以就医学答谢达成共鸣,用于医学会诊。
4.2 LLM-MA用于宇宙模拟
LLM-MA的另一个主要应用场景是宇宙模拟。这一领域的研究正在飞速增长,涵盖了社会科学、游戏、脸色学、经济学、政策制定等多个领域。辞宇宙模拟中使用LLM-MA的重要在于它们出色的变装璜演才气,这对于信得过地态状模拟宇宙中的种种变装和不雅点至关进攻。宇宙模拟神气的環境往常是为了反应被模拟的特定场景而想象的,智能体想象有种种设置文献以匹配这个凹凸文。与侧重于智能体合作的问题治理系统不同,宇宙模拟系统波及种种化的智能体管理和通讯步伐,反应了现实宇宙互动的复杂性和种种性。接下来,咱们将探索在不同领域进行的模拟。
4.2.1 社会模拟
在社会模拟中,LLM-MA模子被用来模拟社会行径,旨在探索潜在的社会动态和传播,测试社会科学表面,以及用信得过的社会征象填充编造空间和社区[Park等东说念主,2023]。愚弄LLM的才气,具有独到设置文献的智能体进行庸碌的换取,为深入的社会科学分析生成丰富的行径数据。社会模拟的范围跟着时候的推移而扩大,从较小、更亲密的诞生开头,慢慢发展到更大、更复杂的环境。首先的职责由[Park等东说念主,2023]引入,通过一个互动沙盒环境,让东说念垄断意想模拟东说念主生游戏,允许最终用户通过当然讲话与一个由25个智能体构成的抑遏社区进行互动。同期,[Park等东说念主,2022]开发了Social Simulacra,它构建了一个由1000个变装构成的模拟社区。该系统采纳了想象师对社区的愿景——其方向、规矩和成员变装——并将其模拟出来,生成了发布、回应以致反社会行径等行径。在此基础上,[Gao等东说念主,2023a]将这一认识推向更高等次,构建了包含8,563和17,945个智能体的大型蚁集,分别想象用于模拟怜惜性别腻烦和核能话题的社交蚁集。这一演变展示了最近研究中模拟环境的日益复杂性和范围的增长。最近的研究如[Chen等东说念主,2023b;Kaiya等东说念主,2023;Li等东说念主,2023a;Li等东说念主,2023f;Ziems等东说念主,2023]杰出了多智能体系统的复杂性、LLM对社会蚁集的影响以及它们融入社会科学研究的情况。
4.2.2 游戏
LLM-MA相称恰当创建模拟游戏环境,允许智能体在游戏中饰演种种变装。这项时刻使得开发可控、可扩展和动态的诞生成为可能,这些诞生紧密师法东说念主类互动,相称恰当测试一系列游戏表面假定[Mao等东说念主,2023;Xu等东说念主,2023b]。大多数由LLM-MA模拟的游戏严重依赖于当然讲话换取,提供了不同游戏诞生内的沙盒环境,用于探索或测试包括推理、合作、劝服、诓骗、率领等在内的游戏表面假定。[Akata等东说念主,2023]愚弄行径游戏表面来考研LLM在交互式社会诞生中的行径,止境是它们在迭代囚徒逆境和性别之战等游戏中的阐扬。此外,[Xu等东说念主,2023b]残酷了一个使用ChatArena库[Wu等东说念主,2023b]的框架,让LLM参与像狼东说念主这么的换取游戏,使用检索和对夙昔换取的反念念来改进,以及念念维链机制[Wei等东说念主,2022]。[Light等东说念主,2023b]探索了LLM智能体在玩相反阿瓦隆游戏中的后劲,引入了AVALONBENCH,这是一个全面的游戏体验和基准,用于进一步开发先进的LLM和多智能体框架。[Wang等东说念主,2023c]也专注于LLM智能体在处理阿瓦隆游戏中的演叨信息的才气,残酷了递归千里念念(ReCon)框架,以增强LLM鉴识和反击诓骗信息的才气。[Xu等东说念主,2023c]引入了一个将LLM与强化学习(RL)结合使用的框架,用于开发狼东说念主游戏中的计策讲话智能体。它引入了一种新步伐,在行动和状况集不是预界说的,而是在当然讲话诞生中使用RL策略的情况下使用RL。[Mukobi等东说念主,2023]想象了“福利酬酢”,这是一个与零和棋类游戏“酬酢”相对应的非零和变体,玩家必须在军事治服和国内福利之间取得均衡。它还提供了一个开源基准,旨在匡助进步多智能体AI系统的合作才气。除此以外,还有一项职责[Li等东说念主,2023c]在多智能体合作文本游戏中测试了智能体的表面心智(ToM),即推理他东说念主荫藏的脸色状况的才气,这对东说念主类的社会互动、合作和换取至关进攻。[Fan等东说念主,2023]全面评估了LLM当作感性玩家的才气,并细目了LLM基础智能体的短处,即使在明确的游戏过程中,智能体在选择行动时仍可能忽视或修改考究的信念。
4.2.3 脸色学
在脸色学模拟研究中,与社会模拟访佛,多个智能体被用来模拟具有种种特征和念念维过程的东说念主类。可是,与社会模拟不同,脸色学中的一个步伐径直将脸色学实验应用于这些智能体。这种步伐侧重于通过统计步伐不雅察和分析它们的种种化行径。在这里,每个智能体落寞运作,不与其他智能体互动,基本上代表了不同的个体。另一种步伐更接近于社会模拟,其中多个智能体互相互动和换取。在这种情况下,脸色学表面被用来意会和分析出现的集体行径模式。这种步伐促进了对东说念主际动态和群体行径的研究,提供了对于个体脸色特征怎么影响集体行动的观点。[Ma等东说念主,2023]探索了使用基于LLM的对话智能体进行脸色健康支援的脸色影响和收尾。它强调了从脸色学角度仔细评估在脸色健康应用中使用基于LLM的智能体的必要性。[Kovac等东说念主,2023]引入了一个名为SocialAI school的器用,用于创建模拟社会互动的互动环境。它模仿发展脸色学,了解智能体怎么获取、展示和发展社交手段,如共同肃肃、换取和文化学习。[Zhang等东说念主,2023d]探索了具有不同特征和念念维模式的LLM智能体怎么师法访佛东说念主类的社会行径,如背叛和多数规矩。这种将脸色学融入智能体合作意会的步伐为查验和增强基于LLM的多智能体系统背后的机制提供了新的视角。[Aher等东说念主,2023]通过LLM引入了图灵实验来评估不同东说念主类行径方面的模拟进度。图灵实验使用问答模式复制脸色学、经济学和社会学中的经典实验和征象,以模拟实验条款。他们还想象了一个教唆,通过改变名字来模拟多个不同个体的反应。通过LLM模拟种种类型的个体,他们标明更大的模子更诚实地复制了东说念主类行径,但它们也揭示了一种超准确性失真,止境是在基于知识的职责中。
4.2.4 经济
LLM-MA被用来模拟经济和金融交游环境,主如若因为它不错当作东说念主类的隐式规画模子。在这些模拟中,智能体被赋予了一定的资源和信息,并设定了预界说的偏好,允许探索它们在经济和金融布景下的行动。这访佛于经济学家对“经济东说念主”的建模,即在一些经济表面中将东说念主描摹为追求自己利益的感性东说念主[Horton,2023]。有几项研究展示了LLM-MA在模拟经济场景中的种种化应用,包括宏不雅经济行径、信息市集、金融交游和编造城镇模拟。智能体在合作或申辩、去中心化环境中互动。[Li等东说念主,2023e]愚弄LLM进行宏不雅经济模拟,特质是教唆驱动的智能体,师法访佛东说念主类的决策制定,从而进步了经济模拟的信得过性,比较基于规矩或其他AI智能体。[Anonymous,2023]探索了信息市集中买家查验悖论,揭示了当智能体在购买前暂时打听信息时,决策制定和谜底质地得到改善。[Li等东说念主,2023g]残酷了一个LLM-MA框架,用于金融交游,强调了分层顾忌系统、申辩机制和个性化交游变装,从而加强了决策制定的稳健性。[Zhao等东说念主,2023]愚弄基于LLM的智能体模拟了一个编造城镇,其中有餐厅和主顾智能体,得出了与社会学和经济表面一致的观点。这些研究共同阐述了在种种化经济模拟场景中使用LLM的庸碌应用和突出。
4.2.5 保举系统
在保举系统中使用LLM-MA与在脸色学中的使用访佛,因为这两个领域的研究齐波及到外皮和内在的东说念主类身分,如贯通过程和个性特征[Lex和Schedl,2022]。在保举系统中使用LLM-MA的一种款式是径直将不同的LLM基于Agent引入到具有不同特征的Agent中,并进行不同Agent偏好的统计。另一种款式是将用户和神气齐视为Agent,并将用户-神气通讯视为互动,模拟偏好传播。为了弥合离线目的和保举系统中现实宇宙性能之间的差距,Agent4Rec[Zhang等东说念主,2023a]引入了一个基于LLM-MA的模拟平台。1000个生成Agent使用MovieLens-1M数据集运行化,以模拟保举环境中复杂的用户互动。Agent4Rec标明,LLM-MA不错灵验模拟信得过用户偏好和行径,提供对过滤泡沫效应等征象的观点,并匡助揭示保举任务中因果关连。在Agent4Rec职责中,Agent被用来模拟用户,它们之间不进行通讯。与Agent4Rec职责不同,[Zhang等东说念主,2023e]将用户和神气齐视为Agent,共同优化它们以反应和适合现实宇宙互动的各异。这项职责强调模拟用户-神气互动,并在Agent之间传播偏好,捕捉合作过滤的内容。
4.2.6 政策制定
与游戏和经济场景中的模拟访佛,政策制定需要坚强的决策才气来搪塞信得过和动态的复杂问题。LLM-MA不错用于通过模拟编造政府或模拟种种政策对不同社区的影响来进行政策制定的模拟。这些模拟为政策制定者提供了珍贵的洞死力,匡助他们意会和意料他们决策的后果[Farmer和Axtell,2022]。在[Xiao等东说念主,2023]中抽象的研究集结在模拟一个岛屿上的小镇水轻侮危险。它模拟了一个位于岛屿上的小镇,包括不同Agent的东说念主口结构和镇长及照拂人。在水轻侮危险模拟中,这项职责提供了一个深入分析,阐述编造政府实体可能怎么搪塞这么的全球管理挑战,以及在这场危险中社交采聚首的信息传递。[Hua等东说念主,2023]引入了WarAgent来模拟重要的历史冲突,并为冲突治理和意会提供洞死力,可能应用于珍摄异日的外洋冲突。
4.2.7 疾病传播模拟
愚弄LLM-MA的社会模拟才气也可用于模拟疾病传播。最新的研究[Williams等东说念主,2023]深入探讨了使用基于LLM的Agent进行疾病传播模拟的用途。该研究通过种种模拟展示了这些基于LLM的Agent怎么准确模拟东说念主类对疾病爆发的反应,包括在病例数目加多时自我停止和停止等行径。这些Agent的集体行径反应了大流行中往常看到的多波复杂模式,最驱逐实到地点性状况。令东说念主印象深入的是,它们的行动有助于松开流行病弧线。[Ghaffarzadegan等东说念主,2023]也征询了疾病传播模拟,并将模拟判辨为两部分:代表病毒信息或传播的机械模子和代名义临病毒时Agent决策过程的决策模子。
5 实施器用和资源
5.1 多智能体框架
咱们详实先容了三个开源的多智能体框架:MetaGPT [Hong等东说念主,2023]、CAMEL [Li等东说念主,2023b] 和 Autogen [Wu等东说念主,2023a]。它们齐是愚弄讲话模子进行复杂任务治理的框架,重心怜惜多智能体合作,但它们在步伐和应用上有所不同。MetaGPT 想象用于将东说念主类职责经过过程镶嵌到讲话模子Agent的操作中,从而减少在复杂任务中往常出现的幻觉问题。它通过将圭臬操作模式编码到系统中,并使用安设线步伐将特定变装分拨给不同的Agent来结束这极少。CAMEL(交流Agent框架)旨在促进Agent之间的自主合作。它使用了一种称为运行教唆的新时刻,率领对话Agent朝着相宜东说念主类方向的任务发展。这个框架还当作生成和研究对话数据的器用,匡助研究东说念主员了解交流Agent的行径和互动。AutoGen 是一个多功能框架,允许使用讲话模子创建应用模式。它以其高度的可定制性而著称,使开发东说念主员粗略使用当然讲话和代码编程Agent,界说这些Agent怎么互动。这种多功能性使其在从时刻领域(如编码和数学)到以销耗者为中心的领域(如文娱)等多个领域中使用。最近,[Chen等东说念主,2023c;Chen等东说念主,2023a] 引入了用于动态多智能体合作的框架,而 [Zhou等东说念主,2023a;Li等东说念主,2023h;Xie等东说念主,2023] 则残酷了用于构建自治Agent的平台和库,强调它们在职务治理和社会模拟中的适合性。
图片
5.2 数据集和基准
咱们在表2中总结了LLM-MA研究常用的数据集或基准。咱们不雅察到,不同的研究应用使用不同的数据集和基准。在问题治理场景中,大多数数据集和基准用于评估多个Agent合作或申辩的规画和推理才气。辞宇宙模拟场景中,数据集和基准用于评估模拟宇宙与现实宇宙的一致性或分析不同Agent的行径。可是,在某些研究应用中,如科学团队操作实验和经济建模,仍然需要全面的基准。这种基准的发展将极地面增强评估LLM-MA在这些复杂和动态领域中的胜仗和适用性的才气。
6 挑战和机遇
LLM-MA框架和应用的研究正在飞速发展,带来了好多挑战和机遇。咱们细目了异日研究的几个重要挑战和潜在领域。
6.1 投入多模态环境
大多数以前的LLM-MA职责集合结在基于文本的环境中,擅所长理和生成文本。可是,在多模态环境中,智能体将与多种感官输入进行交互,并生成多种输出,如图像、音频、视频和物理动作,这是一个彰着的空缺。将LLM集成到多模态环境中带来了非凡的挑战,如处理不同类型的数据,并使智能体粗略意会相互并响应不单是是文本信息。
6.2 治理幻觉问题
幻觉问题在LLM和单个LLM基础Agent系统中是一个首要挑战。它指的是模子生成的文本在事实上是不正确的[Huang等东说念主,2023b]。可是,在多智能体诞生中,这个问题加多了一层复杂性。在这种情况下,一个Agent的幻觉可能会产生级联效应。这是由于多智能体系统的互相联结性质,其中一个Agent的差错信息不错被采聚首的其他Agent接受并进一步传播。因此,在LLM-MA中检测和松开幻觉不仅是一个重要任务,而且也残酷了一组独到的挑战。它不仅波及在个别Agent层面上改造不准确性,还波及管理Agent之间的信息流,以珍摄这些不准确性在通盘系统中传播。
6.3 赢得集体智能
在传统的多智能体系统中,Agent往常使用强化学习从离线教练数据集结学习。可是,LLM-MA系统主要从即时反馈中学习,举例与环境或东说念主类的互动,正如咱们在第3节中征询的。这种学习作风需要一个可靠的交互环境,而且为好多任务想象这么的交互环境将是难办的,抑遏了LLM-MA系统的可扩展性。此外,现时研究中流行的步伐是使用顾忌和自我进化时刻证据反馈转机Agent。诚然对于个别Agent来说这些步伐是灵验的,但它们并莫得充分愚弄Agent蚁集的潜在集体智能。它们孤苦孤身一人时转机Agent,忽视了从融合的多智能体互动中可能产生的协同效应。因此,共同转机多个Agent并结束最好集体智能仍然是LLM-MA的一个重要挑战。
6.4 扩展LLM-MA系统
LLM-MA系统由好多个体LLM基础Agent构成,残酷了对于Agent数目的可扩展性的首要挑战。从规画复杂性的角度来看,每个基于LLM的Agent,往常开辟在像GPT-4这么的大型讲话模子上,需要多数的规画才气和内存。在LLM-MA系统中加多这些Agent的数目权贵加多了资源需求。在规画资源有限的情况下,开发这些LLM-MA系统将是具有挑战性的。此外,跟着LLM-MA系统中Agent数目的加多,出现了非凡的复杂性和研究契机,止境是在灵验的Agent融合、通讯和意会多智能体的范围法规的领域。举例,跟着更多的基于LLM的Agent,确保灵验协兼并通讯的复杂性权贵加多。正如[Dibia,2023]所强调的,想象先进的Agent编排步伐越来越进攻。这些步伐旨在优化Agent职责经过、针对不同Agent的任务分拨和Agent之间的通讯模式,如Agent之间的通讯抑遏。灵验的Agent编排促进了Agent之间的和谐运作,最小化了冲突和冗余。此外,探索和界说跟着多智能体系统范围增长而控制其行径和收尾的范围法规仍然是一个进攻的研究领域。这些方面杰出了需要改换治理有筹备来优化LLM-MA系统,使其既灵验又资源高效。
6.5 评估和基准
咱们依然在表2中总结了LLM-MA的常用数据集和基准。这是一个最先,远非全面。咱们细目了评估LLM-MA系统和比较其性能的两个首要挑战。首先,正如[Xu等东说念主,2023a]所征询的,现存研究的大部分集结在评估个别Agent在狭义界说的场景中的意会和推理。这种怜惜点通常忽视了对多智能体系统至关进攻的更庸碌和更复杂的新兴行径。其次,在多个研究领域,如科学团队实验操作、经济分析和疾病传播模拟等,枯竭全面的基准。这一差距不容了准确评估和基准LLM-MA系统在这些种种化和重要领域中的一说念才气。
6.6 应用过甚延迟
LLM-MA系统的后劲远远超出了它们现在的应用模式,为金融、素质、医疗保健、环境科学、城市规画等领域的先进规画问题治理提供了高大的但愿。正如咱们所征询的,LLM-MA系统具有治理复杂问题和模拟现实宇宙各个方面的才气。诚然LLM现在的变装璜演才气可能有局限性,但LLM时刻的连续突出预示着一个光明的异日。瞻望异日将有更复杂的步伐、应用模式、数据集和基准专诚针对种种化的研究领域。此外,有契机从种种表面角度探索LLM-MA系统,如贯通科学[Sumers等东说念主,2023]、象征东说念主工智能、抑遏论、复杂系统和集体智能。这种多方面的研究步伐不错为这个快速发展的领域提供更全面的意会,并在改换应用中作念出孝敬。
7 论断
基于LLM的多智能体依然展示了令东说念主饱读励的集体智能,并飞速在研究东说念主员中引起了越来越多的风趣。在这项考查中,本文首先通过从各个角度定位、隔离和联结LLM-MA系统,系统地转头了LLM-MA系统的发展,包括智能体-环境接口、LLM对智能体的表征、管默默能体通讯的策略以及才气获取的法度。文本还总结了LLM-MA在问题治理和宇宙模拟中的应用。通过杰出常用的数据集和基准,并征询挑战和异日的机遇,但愿这项考查粗略成为各个研究领域的研究东说念主员的珍贵资源,引发异日的研究探索基于LLM的多智能体的后劲。
参考贵府
标题:Large Language Model based Multi-Agents: A Survey of Progress and Challenges
作家:Taicheng Guo1, Xiuying Chen2, Yaqi Wang3*, Ruidi Chang4*, Shichao Pei5, Nitesh V. Chawla1, Olaf Wiest1, Xiangliang Zhang1†
单元:1圣母大学 2国王阿卜杜拉科技大学 3南边科技大学 4非附庸机构 5马萨诸塞大学波士顿分校
洞开:https://arxiv.org/abs/2402.01680
著作标签:大型讲话模子 (Large Language Models, LLMs),多智能体系统 (Multi-Agent Systems),问题治理 (Problem Solving),宇宙模拟 (World Simulation),规画和推理 (Planning and Reasoning)亚洲色图 中文字幕,合作智能体 (Collaborative Agents),通讯范式 (Communication Paradigms),智能体设置 (Agent Profiling),智能体通讯 (Agent Communication),智能体才气获取 (Agent Capability Acquisition),社会模拟 (Social Simulation),游戏表面 (Game Theory),脸色学实验 (Psychological Experiments),经济模拟 (Economic Simulation),保举系统 (Recommender Systems),政策制定 (Policy Making),疾病传播模拟 (Disease Propagation Simulation),多模态环境 (Multi-Modal Environment),集体智能 (Collective Intelligence)
本站仅提供存储业绩,总计内容均由用户发布,如发现存害或侵权内容,请点击举报。