产品

金融 AI 不只要会回答，更要可验证

2026年5月29日·1 分钟阅读·QVeris Team

金融 AI 不只要会回答，更要可验证

QVeris · 产品测评

金融 AI 最危险的地方，不是答不上来，而是答得很像真的，却说不清数据从哪来。

在金融场景里，一段分析要进入真实业务流程，不能只看语言是否流畅，还要看它：

能不能给出具体数值，

能不能标明数据时间点，

能不能留下可追溯来源，

能不能在公告、行情、事件监控、异常检测这些复杂任务里稳定产出可用答案。

这正是 QVeris 的关键能力。

本次测评以 Claude 作为控制 Agent，覆盖 50 个真实金融工作流任务，比较三种运行方式：

不接入 QVeris 的 baseline、
通过 QVeris CLI 接入的 qveris-cli，
通过 QVeris MCP 接入的 qveris-mcp。

任务覆盖金融信息检索、市场数据查询、公告摘要、事件监控、异常发现和多源整合等典型场景。评分由 DeepSeek deepseek-v4-pro 作为 LLM Judge 完成。

接入 QVeris 后，Claude 金融任务得分显著提升

本次测评结果很直接：接入 QVeris 后，Claude 在金融任务上的平均得分从 70.78 提升到 82 分以上；其中 qveris-mcp 达到 83.76，是三组最高。

换句话说，在同一个 Claude 控制 Agent 下，QVeris 让金融任务平均得分提升约 12 到 13 分。

这不是单点指标的提升，而是整体工作流质量的提升。qveris-mcp 的完成率达到96%，有效结果率达到 94%，平均工具调用数只有 18.00 次，明显低于 baseline 的 45.26 次和 qveris-cli 的 26.90 次。

这说明 QVeris 不只是让 Agent 多了一个数据接口，而是让它用更短路径完成更高质量的金融分析。

QVeris 的核心价值，是补上金融 Agent 的证据链

通用大模型已经很会组织语言。真正的差距在于：它给出的金融结论是否可信、可查、可复现。

本次测评把 Trust 单独设为 25 分，关注来源质量、URL、as-of 时间、工具调用证据和反幻觉能力。五维指标拆开后，QVeris 的优势非常清楚。

baseline 的 Accuracy 并不差，Cleanliness 甚至最高。这说明 Claude 本身已经具备较强的金融常识和文本组织能力。

真正拉开差距的是 Trust。

baseline 的 Trust 是 13.24，qveris-cli 是 23.00，qveris-mcp 是 23.94。

QVeris 解决的不是"AI 能不能写一段金融分析"，而是"这段分析有没有可信来源、有没有工具证据、有没有可复现的调用链"。

MCP 接入让 Agent 更容易用好金融工具

在三种运行方式里，qveris-mcp 的综合表现最好。它不只是得分最高，也更省工具调用。

qveris-mcp 平均工具调用数为 18.00，低于 qveris-cli 的 26.90；平均 QVeris 调用数为 8.58，约为 qveris-cli 的一半。它的平均延迟也最低，为 907,640 ms；工具成功率达到 71.33%，高于 qveris-cli 的 62.34%。

这背后体现的是接口形态的差异。

CLI 更像是让 Agent 自己拼命令、试参数、处理文本输出；

MCP 则提供了更结构化的工具接口。

对 Agent 来说，结构化接口意味着更少误用、更短路径和更低调用成本。

因此，qveris-mcp 能在总分、完成率、有效结果率和效率上同时领先。

公告摘要和异常检测，是 QVeris 的高价值场景

从任务类型看，QVeris 在公告摘要、异常检测和多源整合任务上表现突出。

baseline 在事件监控和异常检测上并不弱，说明通用模型配合公开来源，能处理一部分开放信息任务。但公告摘要任务差距非常明显：baseline 只有 41.9，qveris-mcp 达到 79.0。

这类任务天然依赖稳定的数据入口、完整文档内容和清晰来源链。只靠公开网页搜索，容易遇到入口不稳定、内容不完整、引用不清楚的问题。

QVeris 的价值，正是在这些高要求任务中体现出来：让 Agent 不只是"搜到一些网页"，而是通过专业数据和工具链拿到可验证材料。

在异常检测任务上，qveris-mcp 也达到 92.9，高于 baseline 的 84.9 和 qveris-cli 的 91.1。

这说明 QVeris 不只适合查询数据，也适合支持更复杂的金融判断流程。

这次测评对 baseline 是公平的

本次评分没有把"是否使用 QVeris"作为直接加分项。baseline 只要提供权威公开来源、URL 和 as-of，也可以拿到高 Trust 分。

同时，QVeris trace 也不是天然加分。只有当工具调用成功、证据可追溯、并且对答案有实际贡献时，才会带来可信度优势。

换句话说，QVeris 的领先不是因为评分规则偏心，而是因为它在金融任务中提供了更稳定、更可验证的数据和工具证据。

这套评分逻辑并非追求"完全中性"，而是偏向可验证证据链。对金融任务来说，这是合理的价值取向。

金融分析里，只说"我认为"不够。能说明"我基于什么数据、什么时间点、什么工具调用得出结论"，才是更接近生产可用的答案。

QVeris 的价值已经在结果中体现

任何面向真实金融场景的工具链，都需要持续打磨稳定性、覆盖率和接入体验。QVeris 也一样，它仍会继续演进。

但从本次测评结果看，QVeris 的价值已经非常清楚：显著提升了金融 Agent 的可信度、完成率和业务可用性。尤其是 qveris-mcp，在总分、完成率、有效结果率和工具效率上都取得了最好的综合表现。

这意味着 QVeris 不只是一个"数据接口"，而是在帮助 Agent 建立更可靠的金融分析工作流：从提出问题，到获取数据，再到形成可追溯结论。

对金融 AI 来说，这种从语言生成到证据驱动的转变，是迈向生产可用的关键一步。

最终判断：QVeris 让金融 Agent 更接近真实业务可用

本次测评可以得到三个明确判断。

第一，如果看最终质量，qveris-mcp 当前最好。它的总分最高，完成率最高，有效结果率最高，调用效率也最好。

第二，如果看答案完整性和结构可用性，qveris-cli 很强。它的 Accuracy 和 Usability 表现突出，适合需要更强结构化输出的场景。

第三，baseline 表现合格，但短板明显。它成本低、输出干净，但在金融证据链、公告摘要和数据源可追溯性上仍然落后。

QVeris 的核心价值可以概括成一句话：它让金融 Agent 从"能写出答案"，走向"能给出可验证、可追溯、可进入业务流程的答案"。

这正是金融 AI 从 demo 走向生产时必须跨过的一道门槛。

通用大模型解决的是语言能力，而 QVeris 补上的，是金融场景最需要的那一层：数据、证据、工具链和可复现性。

这也是 QVeris 在金融 Agent 时代最值得被看见的价值。

#QVeris#Agent

上一篇一个金融Agent真正难的地方：不是调用工具，而是选对工具。下一篇让 Agent 的工具调用更稳：我在 QVeris 最近在做的事

返回所有文章