Python · 项目报告

QwenLM/Qwen-AgentWorld

Qwen-AgentWorld: Language World Models for General Agents

已完成打开 GitHub

222星标

15Fork

0Issue

Apache-2.0许可证

分析结果

项目分析

Qwen-AgentWorld 是通义千问团队开源的“语言世界模型”项目，核心发布物包括 Qwen-AgentWorld-35B-A3B 模型权重和 AgentWorldBench 评测集。它面向智能体环境模拟，能够通过长链式推理预测智能体在 MCP、搜索、终端、软件工程、Android、Web、操作系统等 7 类环境中的下一步观测结果。该仓库主要提供模型介绍、部署示例、提示词模板和评测脚本，适合用于 Agent 训练、仿真强化学习、环境建模和世界模型评测。

适用领域大语言模型 / 智能体 Agent / 世界模型 Language World Model / 环境模拟 / 强化学习仿真 / LLM 评测基准 / 软件工程自动化 / 终端环境模拟 / Web 自动化 / Android 自动化 / MCP 工具调用 / 搜索任务模拟

配置难度高。该项目面向大模型和智能体研究，需要理解 LLM 推理部署、OpenAI 兼容 API、vLLM/SGLang、多 GPU 张量并行、长上下文推理、Agent 轨迹格式和 LLM Judge 评测流程。对于只做普通应用开发的团队，上手成本较高；对于已有大模型部署和 Agent 训练经验的团队，主要难点在算力成本、评测流程和模拟结果质量验证。

商业价值业务价值较高，尤其适合正在构建 Agent 平台、自动化软件工程系统、浏览器/终端/移动端自动化智能体的团队。它可以用语言模型模拟环境反馈，降低真实环境交互、标注和试错成本，并可用于构造异常场景、扰动环境和虚构任务来提升 Agent 鲁棒性。Apache-2.0 许可证降低了商业集成门槛。但实际落地需要较高算力预算和严格的效果验证，短期更适合作为研发、评测和训练基础设施，而不是轻量级业务应用组件。

技术亮点

覆盖 MCP、Search、Terminal、SWE、Android、Web、OS 七个统一智能体交互领域。
定位为原生语言世界模型，从 CPT 阶段开始就以环境建模为训练目标，而不是后处理式适配。
基于超过 1000 万条真实世界交互轨迹训练，训练流程包括 CPT、SFT 和 RL 三阶段。
Qwen-AgentWorld-35B-A3B 是 MoE 模型，35B 总参数、约 3B 激活参数，支持 256K 长上下文。
提供 AgentWorldBench，用五个维度评估环境观测预测质量：Format、Factuality、Consistency、Realism、Quality。
支持通过 SGLang 和 vLLM 以 OpenAI 兼容 API 部署，便于接入现有 Agent 框架。
README 中给出了 Transformers 推理示例，便于研究人员快速验证。
提供七个领域的世界模型系统提示词和 Judge 提示词模板。
在公开结果中，Qwen-AgentWorld-35B-A3B 相比 Qwen3.5-35B-A3B 在 AgentWorldBench 上有明显提升。
Apache-2.0 许可证，对商业使用较友好。

目标用户

从事 Agent 训练和评测的算法工程师
研究世界模型、环境建模、Sim RL 的科研人员
构建自动化软件工程 Agent 的开发者
需要模拟终端、Web、Android 或工具调用环境的团队
希望评估自研 LLM/Agent 环境预测能力的模型团队
使用 Qwen、vLLM、SGLang、Transformers 部署大模型的工程团队

配置要求

模型权重：Qwen/Qwen-AgentWorld-35B-A3B，可从 Hugging Face 或 ModelScope 下载。
推理框架：推荐 SGLang 或 vLLM，也支持 Transformers。
硬件要求较高：35B MoE 模型，README 示例使用 tensor-parallel-size 4，通常需要多张高显存 GPU。
上下文长度：模型支持 256K context，部署时需配置 --context-length 262144 或 --max-model-len 262144。
vLLM 运行时需要 --trust-remote-code。
如果无法访问 Hugging Face，可使用 ModelScope，并设置环境变量，例如 SGLANG_USE_MODELSCOPE=true 或 VLLM_USE_MODELSCOPE=true。
评测 AgentWorldBench 需要下载数据集，并准备 OpenAI 兼容接口用于模型推理。
LLM Judge 评分需要可用的 OpenAI 兼容评测模型 API Key，例如设置 OPENAI_API_KEY。
不同领域的系统提示词模板位于 prompts/ 目录，每个领域包含 system_prompt.txt 和 judge_system_prompt.txt。

适用场景

作为语言世界模型，模拟 Agent 执行动作后的环境反馈
用于 Agent 训练中的仿真环境，减少真实环境交互成本
对 MCP、Search、Terminal、SWE、Android、Web、OS 七类任务进行统一评测
通过 AgentWorldBench 评估模型在格式、事实性、一致性、真实性和质量上的表现
为软件工程 Agent、终端 Agent、搜索 Agent 提供环境预测能力
使用可控模拟构造扰动环境或虚构世界，暴露 Agent 弱点并增强泛化能力
作为 LWM RL 预热模型，提升多轮工具调用和任务执行型 Agent 的能力

部署与配置

克隆仓库：git clone https://github.com/QwenLM/Qwen-AgentWorld.git
准备推理框架，可选择安装 SGLang、vLLM 或 Transformers。
使用 SGLang 启动服务：python -m sglang.launch_server --model-path Qwen/Qwen-AgentWorld-35B-A3B --port 8000 --tensor-parallel-size 4 --context-length 262144 --reasoning-parser qwen3
或使用 vLLM 启动服务：vllm serve Qwen/Qwen-AgentWorld-35B-A3B --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --reasoning-parser qwen3 --trust-remote-code
服务启动后，可通过 OpenAI 兼容接口访问：http://localhost:8000/v1
如需使用 Transformers 本地推理，安装 transformers 和 torch，并通过 AutoModelForCausalLM、AutoTokenizer 加载 Qwen/Qwen-AgentWorld-35B-A3B。
如需评测 AgentWorldBench，执行：huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench
安装评测依赖：pip install openai
进入 eval 目录后运行推理评测脚本：python eval.py infer --data-dir ../AgentWorldBench --model-base-url http://localhost:8000/v1 --model-name Qwen/Qwen-AgentWorld-35B-A3B --output-dir ./results
如需 LLM Judge 评分，配置 OPENAI_API_KEY 后运行 judge 流程。

风险与注意事项

仓库当前更偏模型发布与评测说明，实际核心能力依赖外部下载的大模型权重和数据集。
35B MoE 模型部署成本较高，需要多 GPU、高显存和较强推理基础设施。
256K 长上下文会显著增加显存占用、推理延迟和服务成本。
世界模型输出是模拟结果，不等价于真实环境执行结果，在安全敏感或高可靠场景中不能直接替代真实验证。
评测结果依赖 LLM Judge，可能存在评分偏差和模型偏好。
README 中提到的部分更大模型或结果可能不一定全部开源，实际可用性需以 Hugging Face、ModelScope 发布页为准。
项目星标数和社区规模仍处早期阶段，生态成熟度、问题反馈速度和第三方实践案例可能有限。
如果在中国大陆访问 Hugging Face 受限，需要切换 ModelScope 或自行配置镜像。
可控虚构环境和模拟数据用于训练 Agent 时，可能带来仿真到真实环境的分布偏移风险。

历史记录

热榜历史快照

2026-06-25 第19名 新收录 · github_search