Python · 项目报告

QwenLM/Qwen-AgentWorld

Qwen-AgentWorld: Language World Models for General Agents

已完成 打开 GitHub
Q
222星标
15Fork
0Issue
Apache-2.0许可证

分析结果

项目分析

Qwen-AgentWorld 是通义千问团队开源的“语言世界模型”项目,核心发布物包括 Qwen-AgentWorld-35B-A3B 模型权重和 AgentWorldBench 评测集。它面向智能体环境模拟,能够通过长链式推理预测智能体在 MCP、搜索、终端、软件工程、Android、Web、操作系统等 7 类环境中的下一步观测结果。该仓库主要提供模型介绍、部署示例、提示词模板和评测脚本,适合用于 Agent 训练、仿真强化学习、环境建模和世界模型评测。

适用领域 大语言模型 / 智能体 Agent / 世界模型 Language World Model / 环境模拟 / 强化学习仿真 / LLM 评测基准 / 软件工程自动化 / 终端环境模拟 / Web 自动化 / Android 自动化 / MCP 工具调用 / 搜索任务模拟
配置难度 高。该项目面向大模型和智能体研究,需要理解 LLM 推理部署、OpenAI 兼容 API、vLLM/SGLang、多 GPU 张量并行、长上下文推理、Agent 轨迹格式和 LLM Judge 评测流程。对于只做普通应用开发的团队,上手成本较高;对于已有大模型部署和 Agent 训练经验的团队,主要难点在算力成本、评测流程和模拟结果质量验证。
商业价值 业务价值较高,尤其适合正在构建 Agent 平台、自动化软件工程系统、浏览器/终端/移动端自动化智能体的团队。它可以用语言模型模拟环境反馈,降低真实环境交互、标注和试错成本,并可用于构造异常场景、扰动环境和虚构任务来提升 Agent 鲁棒性。Apache-2.0 许可证降低了商业集成门槛。但实际落地需要较高算力预算和严格的效果验证,短期更适合作为研发、评测和训练基础设施,而不是轻量级业务应用组件。
01

技术亮点

  • 覆盖 MCP、Search、Terminal、SWE、Android、Web、OS 七个统一智能体交互领域。
  • 定位为原生语言世界模型,从 CPT 阶段开始就以环境建模为训练目标,而不是后处理式适配。
  • 基于超过 1000 万条真实世界交互轨迹训练,训练流程包括 CPT、SFT 和 RL 三阶段。
  • Qwen-AgentWorld-35B-A3B 是 MoE 模型,35B 总参数、约 3B 激活参数,支持 256K 长上下文。
  • 提供 AgentWorldBench,用五个维度评估环境观测预测质量:Format、Factuality、Consistency、Realism、Quality。
  • 支持通过 SGLang 和 vLLM 以 OpenAI 兼容 API 部署,便于接入现有 Agent 框架。
  • README 中给出了 Transformers 推理示例,便于研究人员快速验证。
  • 提供七个领域的世界模型系统提示词和 Judge 提示词模板。
  • 在公开结果中,Qwen-AgentWorld-35B-A3B 相比 Qwen3.5-35B-A3B 在 AgentWorldBench 上有明显提升。
  • Apache-2.0 许可证,对商业使用较友好。
02

目标用户

  • 从事 Agent 训练和评测的算法工程师
  • 研究世界模型、环境建模、Sim RL 的科研人员
  • 构建自动化软件工程 Agent 的开发者
  • 需要模拟终端、Web、Android 或工具调用环境的团队
  • 希望评估自研 LLM/Agent 环境预测能力的模型团队
  • 使用 Qwen、vLLM、SGLang、Transformers 部署大模型的工程团队
03

配置要求

  • 模型权重:Qwen/Qwen-AgentWorld-35B-A3B,可从 Hugging Face 或 ModelScope 下载。
  • 推理框架:推荐 SGLang 或 vLLM,也支持 Transformers。
  • 硬件要求较高:35B MoE 模型,README 示例使用 tensor-parallel-size 4,通常需要多张高显存 GPU。
  • 上下文长度:模型支持 256K context,部署时需配置 --context-length 262144 或 --max-model-len 262144。
  • vLLM 运行时需要 --trust-remote-code。
  • 如果无法访问 Hugging Face,可使用 ModelScope,并设置环境变量,例如 SGLANG_USE_MODELSCOPE=true 或 VLLM_USE_MODELSCOPE=true。
  • 评测 AgentWorldBench 需要下载数据集,并准备 OpenAI 兼容接口用于模型推理。
  • LLM Judge 评分需要可用的 OpenAI 兼容评测模型 API Key,例如设置 OPENAI_API_KEY。
  • 不同领域的系统提示词模板位于 prompts/ 目录,每个领域包含 system_prompt.txt 和 judge_system_prompt.txt。
04

适用场景

  • 作为语言世界模型,模拟 Agent 执行动作后的环境反馈
  • 用于 Agent 训练中的仿真环境,减少真实环境交互成本
  • 对 MCP、Search、Terminal、SWE、Android、Web、OS 七类任务进行统一评测
  • 通过 AgentWorldBench 评估模型在格式、事实性、一致性、真实性和质量上的表现
  • 为软件工程 Agent、终端 Agent、搜索 Agent 提供环境预测能力
  • 使用可控模拟构造扰动环境或虚构世界,暴露 Agent 弱点并增强泛化能力
  • 作为 LWM RL 预热模型,提升多轮工具调用和任务执行型 Agent 的能力
05

部署与配置

  • 克隆仓库:git clone https://github.com/QwenLM/Qwen-AgentWorld.git
  • 准备推理框架,可选择安装 SGLang、vLLM 或 Transformers。
  • 使用 SGLang 启动服务:python -m sglang.launch_server --model-path Qwen/Qwen-AgentWorld-35B-A3B --port 8000 --tensor-parallel-size 4 --context-length 262144 --reasoning-parser qwen3
  • 或使用 vLLM 启动服务:vllm serve Qwen/Qwen-AgentWorld-35B-A3B --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --reasoning-parser qwen3 --trust-remote-code
  • 服务启动后,可通过 OpenAI 兼容接口访问:http://localhost:8000/v1
  • 如需使用 Transformers 本地推理,安装 transformers 和 torch,并通过 AutoModelForCausalLM、AutoTokenizer 加载 Qwen/Qwen-AgentWorld-35B-A3B。
  • 如需评测 AgentWorldBench,执行:huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench
  • 安装评测依赖:pip install openai
  • 进入 eval 目录后运行推理评测脚本:python eval.py infer --data-dir ../AgentWorldBench --model-base-url http://localhost:8000/v1 --model-name Qwen/Qwen-AgentWorld-35B-A3B --output-dir ./results
  • 如需 LLM Judge 评分,配置 OPENAI_API_KEY 后运行 judge 流程。
06

风险与注意事项

  • 仓库当前更偏模型发布与评测说明,实际核心能力依赖外部下载的大模型权重和数据集。
  • 35B MoE 模型部署成本较高,需要多 GPU、高显存和较强推理基础设施。
  • 256K 长上下文会显著增加显存占用、推理延迟和服务成本。
  • 世界模型输出是模拟结果,不等价于真实环境执行结果,在安全敏感或高可靠场景中不能直接替代真实验证。
  • 评测结果依赖 LLM Judge,可能存在评分偏差和模型偏好。
  • README 中提到的部分更大模型或结果可能不一定全部开源,实际可用性需以 Hugging Face、ModelScope 发布页为准。
  • 项目星标数和社区规模仍处早期阶段,生态成熟度、问题反馈速度和第三方实践案例可能有限。
  • 如果在中国大陆访问 Hugging Face 受限,需要切换 ModelScope 或自行配置镜像。
  • 可控虚构环境和模拟数据用于训练 Agent 时,可能带来仿真到真实环境的分布偏移风险。

历史记录

热榜历史快照

2026-06-25 第19名 新收录 · github_search