备受瞩目的法律人工智能工具 Harvey 近日宣布战略调整,未来将整合 Anthropic 和谷歌的领先基础模型,结束了此前完全依赖 OpenAI 技术的局面。值得注意的是,Harvey 曾是 OpenAI 初创基金的明星投资项目之一,该基金旨在扶持基于 AI 技术(特别是 OpenAI 自研技术)的公司。尽管 Harvey 强调不会放弃 OpenAI,只是增加了更多模型和云服务选项,但此举无疑对 OpenAI 的竞争对手来说是一次重要的胜利。
2022年12月,OpenAI 创业基金将 Harvey 列为其首批支持的四家初创公司之一,当时该基金由 OpenAI 首席执行官 Sam Altman 管理。此后,Harvey 发展迅猛,估值已达30亿美元。今年2月,该公司宣布完成由红杉资本领投的3亿美元 D 轮融资,包括 Coatue、Kleiner Perkins 和 OpenAI 基金在内的多家知名机构跟投。
图源备注:图片由AI生成,图片授权服务商Midjourney
引人关注的是,谷歌的风险投资部门 GV 在2024年7月领投了 Harvey 的1亿美元 C 轮融资,OpenAI 基金也参与其中。然而,尽管谷歌的企业风投部门已成为 Harvey 的股东,但 Harvey 并未立即采用谷歌的 AI 模型。
促使 Harvey 改变策略的关键在于其内部开发的基准测试 BigLaw。该基准测试显示,各种基础模型在法律任务上的熟练程度不断提高,并且某些模型在特定任务上的表现优于其他模型。Harvey 认为,与其投入大量资源训练模型,不如直接采用来自其他供应商(如通过亚马逊云提供的谷歌和 Anthropic 模型)的高性能推理基础模型,并针对法律市场进行微调。该公司表示,使用多样化的模型也将有助于 Harvey 构建更强大的 AI 代理。
Harvey 在博客中指出:“在不到一年的时间里,已有七个模型(包括三个非 OpenAI 模型)在 BigLaw Bench 上的表现超越了最初基准的 Harvey 系统。”
Harvey 的基准测试结果揭示了不同模型在特定法律任务上的优势。例如,谷歌的 Gemini2.5Pro 在法律文件起草方面表现出色,但在撰写口头辩论等审前任务方面则显不足,因为它对“传闻等复杂的证据规则”的理解有限。根据 Harvey 的测试,OpenAI 的 o3在此类预审任务中表现良好,而 Anthropic 的 Claude3.7Sonnet 也紧随其后。
Harvey 宣布,未来还将加入日益壮大的模型基准性能公开排行榜,对主流推理模型在法律任务中的表现进行排名。更重要的是,该公司不仅会发布单一的排名分数,还将分享“顶级律师对模型性能提供的细致入微的见解,这些见解是单一分数基准无法捕捉的”。
因此,由 OpenAI 支持的 Harvey 不仅开始采用竞争对手的模型,还对其支持者(包括谷歌)提出了更高的性能要求。尽管 AI 基准测试日益复杂且带有一定的竞争性,但 OpenAI 在该领域仍然保持着强大的竞争力。
Harvey 首席执行官温斯顿·温伯格在一份声明中表示:“我们非常荣幸 OpenAI 成为 Harvey 的投资者和我们产品的关键合作伙伴。我们将继续满足全球客户的需求,并致力于为客户提供更多选择。”
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/57752
该文观点仅代表作者本人,平台仅提供信息存储空间服务。