該模型可以快速搜索文檔,無論它們是基於文本的還是包含圖像、圖表、圖表、表格、代碼、圖表或其他組件。
嵌入模型有助於將復雜的數據(文本、圖像、音頻和視頻)轉換為計算機可以理解的數字表示。嵌入捕獲數據的語義,使其可用於搜索、推薦系統和自然語言處理等任務。
儘管如此,他們仍然可能難以處理更複雜的材料,例如包含文本和圖像混合的文檔,因此企業通常必須構建預處理管道,以便為人工智能使用做好數據準備。
加拿大人工智能公司 Cohere 希望通過其最新的支持前沿搜索和檢索功能的多模態模型 Embed 4 來解決這個問題。該模型可以快速搜索文檔,無論它們是純粹基於文本的還是包含圖像、圖表、圖表、表格、代碼、圖表和其他組件。
Info-Tech Research Group 人工智能市場研究總監 Thomas Randall 表示:“如果企業 IT 買家正在尋找能夠為開展全球業務的公司處理大型材料(包括多語言年度報告或法律文件)的技術,那麼他們肯定會對 Cohere 感興趣。”
多模式、多語言、能夠理解“混亂”的數據
多模式人工智能係統可以同時處理和理解各種類型的數據(文本、圖像、音頻和視頻),從而使它們能夠更全面地了解給定情況。
IDC 企業內容和知識管理策略高級研究經理 Amy Machado 指出,多模態非常重要,因為非結構化數據以許多不可預測的格式出現。她指出,業務數據多種多樣,其中近 90% 估計是非結構化的,存在於文本、PDF、圖像、表格、音頻和演示文稿中。
“多模態可以提供更完整的搜索和檢索體驗,通過整合的矢量化數據集解鎖更多資產,而不僅僅是文本,”她解釋道。
Randall 指出,Embed 4 處理不同類型輸入的能力使其有別於其他僅關注文本的嵌入模型。這使得語義搜索能力更強,檢索增強生成(RAG),以及智能文檔理解,他說。
Embed 4 可以為最多 128K 個令牌(大約 200 頁)的文檔生成嵌入,並且旨在輸出壓縮嵌入,Cohere 表示這可以幫助企業節省高達 83% 的存儲成本。它是多語言的,支持阿拉伯語、日語、韓語和法語等 100 多種語言,並且還能夠跨語言搜索,因此員工無論使用哪種語言都可以找到關鍵數據。
Embed 4 經過專門訓練,可以處理 Cohere 所說的“嘈雜的現實世界數據”,例如包含拼寫錯誤或格式問題的數據,這些數據可以在發票或法律文書等文檔中找到。它可以搜索掃描文檔以及手寫文檔。
Randall 表示:“該模型旨在處理不完美的現實數據,包括模糊圖像和定向不良的文檔。”他指出,使用 Embed 4 的組織將節省“大量時間”,因為他們不需要執行數據預處理。
Embed 4 可以部署在虛擬私有云 (VPC) 或本地。它與Cohere的工作平台集成,北,也可以在 Microsoft 的開發人員中心、Azure AI Foundry 和 Amazon SageMaker 上使用。
處理特定的企業用例
除了一般業務知識之外,Embed 4 還針對特定領域的金融理解進行了優化,和製造。該模型可以識別常見文件中的見解,包括投資者介紹、年度財務報告和金融領域的併購盡職調查文件;產品規格文件、維修指南、製造供應鏈計劃;以及醫療保健領域的醫療記錄、程序圖表和臨床試驗報告。
馬查多表示,這種針對特定領域的理解對於“提高準確性和信任度非常重要,這對於規避風險的受監管行業和公司至關重要”。
她指出了許多潛在的企業用例,包括:
- 編譯財務數據,這些數據通常存在於具有不可預測的表格結構和格式的冗長 PDF 中;
- 生命科學或研發的深入研究;
- 用於技術和客戶支持的自助服務知識庫,依賴於標準操作程序和充滿圖像的手冊;
- 開發需要視覺輸出的動態銷售平台或分析;
Machado 表示,選擇模型對企業來說是有益的,因為它使他們能夠試驗並確定滿足其獨特業務需求的最可靠的工具。
“我們正處於早期階段,進行了大量實驗,Cohere 有機會通過提供與關鍵業務指標直接相關的可信結果來脫穎而出,”她說。
然而,IT 買家應該警惕 Embed 4 對每個圖像嵌入的定價,Randall 指出:與文本嵌入(0.12 美元/百萬個代幣)相比,每百萬個圖像代幣 0.47 美元相對較高。
“對於圖像密集型工作負載,如果使用規模擴大,這可能會超過每個季度的預算,”他說。
此外,他補充說,Cohere 缺乏 OpenAI、Meta 和谷歌等公司所享有的“龐大的開發者生態系統”。這可能意味著更少的即插即用集成、第三方教程或針對利基用例的現成包裝器。
“鑑於 Embed 4 是一個未經獨立基準驗證的新模型,這些問題尤其明顯,”Randall 指出。
