Cohere 的 Embed 4 模型帮助企业搜索动态文档、“杂乱”数据

该模型可以快速搜索文档,无论它们是基于文本的还是包含图像、图表、图表、表格、代码、图表或其他组件。

嵌入模型有助于将复杂的数据(文本、图像、音频和视频)转换为计算机可以理解的数字表示。嵌入捕获数据的语义,使其可用于搜索、推荐系统和自然语言处理等任务。

尽管如此,他们仍然可能难以处理更复杂的材料,例如包含文本和图像混合的文档,因此企业通常必须构建预处理管道,以便为人工智能使用做好数据准备。

加拿大人工智能公司 Cohere 希望通过其最新的支持前沿搜索和检索功能的多模态模型 Embed 4 来解决这个问题。该模型可以快速搜索文档,无论它们是纯粹基于文本的还是包含图像、图表、图表、表格、代码、图表和其他组件。

Info-Tech Research Group 人工智能市场研究总监 Thomas Randall 表示:“如果企业 IT 买家正在寻找能够为开展全球业务的公司处理大型材料(包括多语言年度报告或法律文件)的技术,那么他们肯定会对 Cohere 感兴趣。”

多模式、多语言、能够理解“混乱”的数据

多模式人工智能系统可以同时处理和理解各种类型的数据(文本、图像、音频和视频),从而使它们能够更全面地了解给定情况。

IDC 企业内容和知识管理策略高级研究经理 Amy Machado 指出,多模态非常重要,因为非结构化数据以许多不可预测的格式出现。她指出,业务数据多种多样,其中近 90% 估计是非结构化的,存在于文本、PDF、图像、表格、音频和演示文稿中。

“多模态可以提供更完整的搜索和检索体验,通过整合的矢量化数据集解锁更多资产,而不仅仅是文本,”她解释道。

Randall 指出,Embed 4 处理不同类型输入的能力使其有别于其他仅关注文本的嵌入模型。这使得语义搜索能力更强,检索增强生成(RAG),以及智能文档理解,他说。

Embed 4 可以为最多 128K 个令牌(大约 200 页)的文档生成嵌入,并且旨在输出压缩嵌入,Cohere 表示这可以帮助企业节省高达 83% 的存储成本。它是多语言的,支持阿拉伯语、日语、韩语和法语等 100 多种语言,并且还能够跨语言搜索,因此员工无论使用哪种语言都可以找到关键数据。

Embed 4 经过专门训练,可以处理 Cohere 所说的“嘈杂的现实世界数据”,例如包含拼写错误或格式问题的数据,这些数据可以在发票或法律文书等文档中找到。它可以搜索扫描文档以及手写文档。

Randall 表示:“该模型旨在处理不完美的现实数据,包括模糊图像和定向不良的文档。”他指出,使用 Embed 4 的组织将节省“大量时间”,因为他们不需要执行数据预处理。

Embed 4 可以部署在虚拟私有云 (VPC) 或本地。它与Cohere的工作平台集成,,也可以在 Microsoft 的开发人员中心、Azure AI Foundry 和 Amazon SageMaker 上使用。

处理特定的企业用例

除了一般业务知识之外,Embed 4 还针对特定领域的金融理解进行了优化,和制造。该模型可以识别常见文件中的见解,包括投资者介绍、年度财务报告和金融领域的并购尽职调查文件;产品规格文件、维修指南、制造供应链计划;以及医疗保健领域的医疗记录、程序图表和临床试验报告。

马查多表示,这种针对特定领域的理解对于“提高准确性和信任度非常重要,这对于规避风险的受监管行业和公司至关重要”。

她指出了许多潜在的企业用例,包括:

  • 编译财务数据,这些数据通常存在于具有不可预测的表格结构和格式的冗长 PDF 中;
  • 生命科学或研发的深入研究;
  • 用于技术和客户支持的自助服务知识库,依赖于标准操作程序和充满图像的手册;
  • 开发需要视觉输出的动态销售平台或分析;

Machado 表示,选择模型对企业来说是有益的,因为它使他们能够试验并确定满足其独特业务需求的最可靠的工具。

“我们正处于早期阶段,进行了大量实验,Cohere 有机会通过提供与关键业务指标直接相关的可信结果来脱颖而出,”她说。

然而,IT 买家应该警惕 Embed 4 对每个图像嵌入的定价,Randall 指出:与文本嵌入(0.12 美元/百万个代币)相比,每百万个图像代币 0.47 美元相对较高。

“对于图像密集型工作负载,如果使用规模扩大,这可能会超过每个季度的预算,”他说。

此外,他补充说,Cohere 缺乏 OpenAI、Meta 和谷歌等公司所享有的“庞大的开发者生态系统”。这可能意味着更少的即插即用集成、第三方教程或针对利基用例的现成包装器。

“鉴于 Embed 4 是一个未经独立基准验证的新模型,这些问题尤其明显,”Randall 指出。