Jina AI 模型

检索管道各阶段的先进模型

Jina 模型专为检索而打造,以更小的体量实现更优的准确性与速度,性能可超越体量为其 5 倍的模型。它支持多语言、多模态,适用于文本、图像、音频和视频,如今还可在 Elasticsearch 中原生使用。

认识 Jina AI 模型

我们的前沿模型为高质量企业搜索和检索增强生成(RAG)系统提供搜索基础。

  • 读者

    将复杂文档、网页和 PDF 转换为清晰、结构化的输入,供搜索和大语言模型(LLM)使用。

  • 嵌入

    借助面向文本、图像、音频、视频和代码的多模态、多语言嵌入,提升搜索和 RAG 系统的效果。

  • 重排序器

    借助全球领先的重排序模型,最大限度提升相关性,为 RAG、AI 助手和智能体等关键应用提供精准结果。

设计紧凑,结果精准

通过一个 API,即可从原始数据获得高精度结果。

  • 多模式搜索,支持 100 多种语言

    Jina 的模型适用于文本、图像、音频和视频。有了 v5-omni,仅用一个嵌入模型就能在一个共享空间中处理所有四种模态。它原生支持 100 多种语言,跨语言搜索功能开箱即用。

  • 最佳结果,不止于最接近

    Jina 的重排序模型实力已获验证。借助重排序模型,可基于原始查询对每个候选结果重新评分,并通过深度分析将最相关的答案优先呈现。

  • 更聪明的训练,更小巧的模型

    Jina 模型围绕检索中的关键任务进行训练:从杂乱来源中找到合适的文档和最佳答案。因此,它们能够以更低成本匹敌甚至超越更大的模型。

  • 零配置语义搜索

    将任意字段映射为 semantic_text,Elasticsearch 即可自动生成嵌入向量。在 EIS 上,Jina 模型默认提供开箱即用的多语言、多模态语义搜索,无需配置。

  • 只需一次 API 调用

    将传统关键词搜索与 Jina 的语义匹配结合到单个查询中。只需一次 API 调用,即可利用倒数排序融合(RRF)整合两种方法的优势。

  • 任意规模下都保持精简

    将 Jina 的可变尺寸嵌入与 Elastic 的向量量化(BBQ)结合使用,可在几乎不损失准确率的情况下,将存储需求最多降低 95%。当准确性最关键时,还可将精度调至最高。

无论您在哪里构建,都可以使用 Jina 模型

从完全托管到自托管,Jina 模型能完美适配你数据所在的任何环境。选择最适合您的访问路径。

我们的研究

Jina 的模型基于发表于顶级机器学习(ML)会议的研究成果构建,包括 CVPR、NeurIPS 和 EMNLP。探索我们最新发布的论文,了解这些前沿搜索模型是如何从零开始训练的。
  • Jina-embeddings-v5-text:面向任务的嵌入蒸馏

    我们提出了一种全新的训练方案,将模型蒸馏技术与任务特定的对比损失相结合,以构建紧凑且高性能的嵌入模型。

  • 通过条件掩蔽扩散语言模型实现嵌入反转

    我们将嵌入反转视为条件掩码扩散,通过迭代去噪而不是顺序自回归生成来并行恢复所有标记。

  • 基于球坐标的嵌入压缩

    我们提出了一种适用于单位范数嵌入的压缩方法,可实现 1.5 倍压缩,压缩效果较此前最佳无损方法提升 25%。

  • jina-embeddings-v5-omni

    我们通过结合冻结的预训练编码器与轻量化训练的适配器,将 jina-embeddings-v5-text 扩展到了图像、音频和视频领域,在此过程中无需重新训练文本模型,也无需对现有数据进行重新索引。

加入我们的开源社区

Jina 的模型采用开放权重,可在 Hugging Face 上免费获取,每月下载量达数百万次。其代码库也已在 GitHub 上公开。社区成员还可直接与我们的开发人员交流。

常见问题

什么是 Jina 搜索模型?

Jina 模型是开源的、前沿的检索 AI 模型。它们包括用于向量的嵌入模型、用于提高精确度的重排序器,以及用于从 URL 和文档中提取和构建内容的读取器。