Yao 等人( 2022 )提出了一个名为 ReAct 的提示优化框架,其中 LLM 被用于 以交错的方式生成推理轨迹和任务特定动作

生成推理轨迹使模型能够诱导、跟踪和更新操作计划,甚至处理异常情况。操作步骤允许与外部源(如知识库或环境)进行交互并且收集信息

ReAct 框架允许 LLMs 与外部工具交互来获取额外信息,从而给出更可靠和实际的回应

工作原理

思维链( CoT )提示展示了 LLMs 执行推理轨迹以解决涉及算术和常识推理的问题的能力(以及其他任务),但由于缺乏和外部世界接触或无法更新自身的知识,导致事实幻觉和错误传播等问题

ReAct 提示 LLMs 为任务生成口头推理轨迹和操作,这使得系统执行动态推理来创建、维护和调整操作计划,同时还要支持与外部环境(例如搜索引擎)的交互,以将额外信息合并到推理中

Obs Observation

资料