从进入这个领域的初创公司数量和投资者的参与程度来看,向量数据库正风靡一时。大型语言模型(LLM)的兴起和生成式人工智能(GenAI)运动为向量数据库技术的蓬勃发展创造了肥沃的土壤。GPT4.0,Google Play,Claude,Overleaf等等平台现已可通过WildCard订阅。

传统的关系型数据库如Postgres或MySQL非常适合于结构化数据 - 即可以整齐地排列在行和列中的预定义数据类型。但对于图像、视频、电子邮件、社交媒体帖子等非结构化数据,以及不遵循预定义数据模型的任何数据,这种方式就不太适用了。

相反,向量数据库以向量嵌入的形式存储和处理数据,将文本、文档、图像和其他数据转换为数字表示,捕捉不同数据点之间的含义和关系。这对机器学习来说非常完美,因为数据库根据每个项目与其他项目的相关性在空间上进行存储,使检索语义相似的数据变得更加容易。

这对于像OpenAI的GPT-4这样的LLM特别有用,因为它允许AI聊天机器人通过分析之前的类似对话来更好地理解对话的上下文。向量搜索也适用于各种实时应用程序,如社交网络或电子商务应用程序中的内容推荐,因为它可以查看用户的搜索历史并在瞬间检索相似的项目。

向量搜索还可以通过提供原始训练数据集中可能缺失的附加信息,帮助减少LLM应用程序中的”幻觉”。

向量数据库创业公司Qdrant的CEO兼联合创始人Andre Zayarni向TechCrunch解释说:”如果不使用向量相似性搜索,你仍然可以开发AI/ML应用程序,但需要进行更多的重新训练和微调。当有大量数据集,需要一个工具以高效和方便的方式处理向量嵌入时,向量数据库就派上用场了。”

今年1月,Qdrant获得了2800万美元的融资,以利用其去年成为增长最快的10大商业开源初创公司之一的势头。除了Qdrant,Vespa、Weaviate、Pinecone和Chroma等向量数据库初创公司也在去年集体筹集了2亿美元用于各种向量产品。

自从新年伊始,我们还看到 Index Ventures 领投了 Superlinked 950 万美元的种子轮融资。Superlinked 是一个将复杂数据转化为向量嵌入的平台。几周前,Y Combinator (YC) 公布了其 2024 年冬季项目组合,其中包括 Lantern,这是一家销售托管 Postgres 向量搜索引擎的初创公司。

另一方面,Marqo 在去年底筹集了 440 万美元的种子轮融资,紧接着在 2 月份完成了 1250 万美元的 A 轮融资。Marqo 平台提供全套现成的向量工具,包括向量生成、存储和检索,让用户无需使用来自 OpenAI 或 Hugging Face 等第三方工具,所有功能都通过单一 API 提供。

Marqo 的联合创始人 Tom Hamer 和 Jesse N. Clark 之前在亚马逊担任工程师,他们意识到在文本和图像等不同模态之间进行语义和灵活搜索存在”巨大未满足需求”。于是他们在 2021 年创办了 Marqo。

Clark 告诉 TechCrunch:”在亚马逊从事视觉搜索和机器人技术时,我真正关注了向量搜索 - 我在思考产品发现的新方式,很快就集中在了向量搜索上。在机器人技术领域,我使用多模态搜索来搜索大量图像,以识别是否存在错误的软管和包装。这原本将是一个非常具有挑战性的问题。”

进入企业

尽管向量数据库正在随着ChatGPT和GenAI运动的喧嚣而崛起,但它们并不是每个企业搜索场景的万灵药。

数据库支持和服务公司Percona的创始人Peter Zaitsev向TechCrunch解释说:”专用数据库往往完全专注于特定的用例,因此可以根据所需的任务和用户体验来设计其架构,而通用数据库则需要适应当前的设计。”

虽然专用数据库可能在某一方面表现出色,但这也是为什么我们开始看到Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB等数据库巨头,以及微软的Azure、亚马逊的AWS和Cloudflare等云服务提供商,正在将向量数据库搜索功能添加到产品组合中。

Zaitsev将这一最新趋势与十多年前JSON的情况进行了比较,当时网络应用程序变得更加普及,开发人员需要一种独立于语言的数据格式,易于人类阅读和编写。在那种情况下,文档数据库(如MongoDB)这一新的数据库类别应运而生,而现有的关系型数据库也引入了对JSON的支持。

Zaitsev告诉TechCrunch:”我认为向量数据库也可能发生同样的情况。构建非常复杂和大规模的AI应用程序的用户将使用专用的向量搜索数据库,而需要为现有应用程序添加一些AI功能的人更可能使用他们已经使用的数据库中的向量搜索功能。”

但Qdrant的Zayarni和他的同事们正在押注,完全围绕向量构建的本地解决方案将提供所需的”速度、内存安全性和扩展性”,以应对不断增长的向量数据,相比之下,其他公司只是将向量搜索功能添加为事后想法。

Zayarni说:”他们的销售pitch是,’如果需要,我们也可以做向量搜索’。我们的销售pitch是,’我们以最佳方式进行高级向量搜索’。这都是关于专业化。我们实际上建议从您现有的技术栈中使用任何数据库开始。如果向量搜索是您解决方案的关键组成部分,用户最终将面临局限性。”