Lazy loaded image
虚幻的手:Manus评测与分析
Words 2380Read Time 6 min
2025-3-11
2025-3-11
type
status
date
slug
summary
tags
category
icon
password

一、产品概述

1.1 Manus 是什么?

Manus 在拉丁语中意为"手",象征着工具使用的起点。当我们思考人类的工作方式,大脑提出需求,而手则负责执行并获取结果。因此,一款名为 Manus 的产品含义明确:它是一款自主的通用型 Agent 产品。
传统 Chatbot 产品可以理解为"脑内对话",主要协助思考;而 Manus 更像是一位人类同事,能接收需求,分析工作,并交付最终成果。

1.2 Manus 能做什么?

你可以将 Manus 视为一位实习生,他的工作流程如下:
  • 需求分析:接收用户需求,理解并将其拆分为清晰的任务列表
  • 执行任务:根据需要选择合适的工具完成目标,包括但不限于:
    • 调用浏览器搜索网页
    • 进行代码编辑/数据分析工作
    • 生成文档/PPT 等内容
  • 异步处理:整个过程在云端电脑运行,就像实习生在自己电脑上工作,不会影响你的设备
  • 进度可视化:你可以实时查看 Manus 的执行情况,随时介入调整方向 (这一点胜过大多数实习生,带过新人就知道"黑箱操作"有多可怕)
  • 偏好记忆:Manus 会记住你的偏好,比如你喜欢AI领域的内容或偏爱表格形式的展示,下次任务会优先采用这些方式 (有点像养成类游戏的感觉)

1.3 演示效果

输入内容: 探索 https://palettemaker.com/ 的所有功能,并创建一份全面的产品报告。彻底测试每个功能,以进行完整评估。
执行效果
Manus的执行效果
Manus的执行效果
 
产出文档部分截图
产出文档部分截图

二、技术介绍

Manus 的技术逻辑主要分为三个阶段:
  1. 根据需求制定计划
  1. 执行并收集结果
  1. 整合结果产出内容

2.1 计划阶段

在计划阶段,大模型需要理解用户需求,并将其拆分为可执行的小目标,列出清晰的任务清单。理论上,任何大模型都能完成这一步。
有分析认为,Manus 使用的是 Steiner 模型,这是由创始人基于 qwen2.5-32b 模型开发的,特别擅长"长期思考"和"逐步执行"。
据创始人介绍,Steiner 模型参考 o1 进行开发,旨在提升推理能力和拓展推理深度。
虽然该模型是2024年10月左右推出的,与最新推理模型相比已有一定差距,但随着技术发展,Manus自己的模型很可能会进一步提升。
无论使用的模型是什么,从中都可以看到:Manus团队在很早之前就开始研究如何拓展模型的推理能力,从而实现长期规划和逐步执行的效果。

2.2 执行阶段

目标确定后,AI进入执行阶段,根据需求调用不同工具收集相关信息。
先说结论:Manus 并未使用常见的 MCP 方案,而是参考 CodeAct 概念自研了执行阶段方案。

2.2.1 MCP 和 CodeAct 对比

MCP 是一个适用于大模型的接口协议。简单来说,各工具提供对应接口,大模型调用这些接口获取信息。例如查询天气的示例:
在实际应用中,大模型会根据目标自主选择所需工具,通过MCP服务器调用并接收结果。常见工具包括网页搜索、浏览器调用、代码编写等。
CodeAct 则是让LLM生成Python代码作为动作,并通过Python解释器执行这些代码,其运行机制包括:
  1. 多轮交互:代理接收用户或环境的反馈,生成代码作为动作,环境执行代码后返回新的反馈,代理据此调整行动
  1. 统一动作空间:所有动作都通过Python代码表达,避免了传统方法中JSON或文本格式的限制
MCP与CodeAct的简要对比:
方面
MCP
CodeAct
目的
标准化AI模型与外部工具的连接
让AI通过生成和执行代码完成任务
功能
提供统一接口连接外部资源
专注于代码生成与执行
使用场景
需要从外部获取数据或触发动作
需要计算或动态代码执行的任务
架构
客户端-服务器架构
可直接集成到AI模型运行时
开发体验
通过通用协议简化集成
需设置代码执行环境,确保安全性

2.2.2 Manus的技术选择思考

根据创始人的分享,CodeAct给他的三个启示是:
  1. 编程是手段而非目的:产品最终输出不是代码本身,编程只是实现需求的手段
  1. 让LLM做擅长的事:大语言模型在训练过程中接触了大量代码数据,天生擅长编程,让它们通过编码解决问题是最高效的使用方式
  1. 编程能减少上下文并提升上限:相比MCP需要冗长的上下文解释工具用途,直接编码可以使用简洁的代码语言;对于复杂需求,直接编码也比依赖外部工具的限制更灵活,上限更高
Coding is not the ultimate goal, but rather a universal approach for solving general problems.
Since LLMs excel at coding, it makes sense to have agents perform tasks that most closely align with their training distribution.
This approach significantly reduces context length and enables the composition of complex operations.

2.3 整合阶段

这不完全是独立阶段,可视为执行阶段的一个特定任务,目标明确且执行手段基本固定:整合所有收集的信息,按用户需求的格式(PPT、Markdown文档等)展示。

2.4 其他技术特点

  1. 异步处理:所有操作都在云端执行,不影响用户本地设备,同时保证服务稳定
  1. 记忆功能:记住用户偏好,在执行任务时有针对性地调整(类似Monica国内版的新功能)

三、关于Manus的个人思考

1. Manus是否只是追热点的营销产品?

不是。从技术实现可以看出,Manus团队很早就开始深入研究推理模型,致力于解决长期计划问题;执行方案也没有采用流行的MCP方案,而是基于CodeAct进行自研。这表明团队有清晰的开发规划,并愿意投入相应资源。

2. "套壳产品"是否有竞争力?

肯定有。所谓"套壳"实际上是技术落地为产品的一系列工程化工作。这些看似创新性不高的"脏活累活",累积起来却构成了产品优势。引用曲凯的话:
"很多投资人问你的壁垒是什么,其实我想回答:我的壁垒就是我的人日。一人日就是一个人一天的工作量,多花心思在产品化细节里,积累外人不知道的秘密配方。我每天做的不是革命性大技术,而是非常工程化的小技术提升。日积月累,这些微小细节最终形成我们的壁垒。想复制?那就先花个三五年去追赶我日拱一卒做出来的东西吧。"

3. 为什么其他人能在3小时内做出OpenManus?

首先,开源行为值得钦佩。但从目前观察和体验来看,OpenManus与Manus并不在同一水平线上。OpenManus只实现了基础功能,仍存在交互差、门槛高、效果不稳定等问题。这也从侧面证明了"工程化也是护城河"的观点。

4. 为什么Manus不放开体验?是否是饥饿营销?

主要原因是成本高。根据OpenManus的测试数据,使用qwen-max模型处理一个问题约需2元人民币,而Manus可能使用的Claude模型成本更高,一个问题可能超过20元。在收费策略明确前,只能通过邀请码进行内测。

5. 其他思考

  1. 不必担心基座模型性能停滞不前。DS和Manus都在从现有模型中挖掘潜力,模型自身永远不知道自己能做什么,但总有人会知道
  1. 模型可以是产品,但不是唯一产品。大厂商可以专注基座模型,其他参与者可以专注应用开发;模型能力提升不会使业务被淘汰,就像GPT的存在并未影响其他聊天机器人的发展
  1. 不要做被水淹没的石碑,做水涨而高的船

四、参考文档

  1. Manus 技术解析、同类产品对比与多模态实测
  1. huggingface.co
  1. Executable Code Actions Elicit Better LLM Agents
  1. 内行看门道,我对 manus 的 8 个评价
 
上一篇
Notion创始人:进步不是线性堆砌,而是认知跃迁;真正的突破,往往需要完全重置
下一篇
独家对话Manus肖弘:世界不是线性外推,做博弈中的重要变量