您的位置:首页 > 互联网 > 正文

Pinecone是一种用于机器学习的无服务器矢量数据库

发布时间:2021-02-02 11:24:04  编辑:  来源:

由Amazon SageMaker背后的团队构建。在Wing的创始合伙人和Snowflake的早期投资人Peter Wagner吸引Wing Venture Capital的投资之后,Peter Wagner加入了创业公司Pinecone的董事会,并比较了Pinecone对Snowflake的潜在影响。当今世界上最大的零售商之一,为关键工作负载提供支持。

对于以前未知的公司来说,这是一个相当的血统。松果,机器学习云计算基础设施的公司,今天隐身留下了永由风险投资牵头的种子资金$10米。那么,是什么使Pinecone特别而不是另一个数据库呢?ZDNet赶上了Pinecone首席执行官,创始人,科学家,AWS前董事Edo Liberty进行调查。

机器学习基础设施

Liberty受过科学家培训,并在一生中大部分时间都在研究,开发和撰写有关机器学习和系统的论文以及研究。他在Yahoo的机器学习小组工作了七年,在AWS上工作了大约三年,建立了AWS的机器学习平台SageMaker。

Liberty于2019年5月成立了Pinecone,以解决他认为是能够部署大规模机器学习解决方案的最关键组成部分之一:向量。对于机器学习从业者来说,这已经说了很多。对于世界其他地方,Liberty阐述了向量是什么以及它们为何重要的原因:

“我们习惯于将数据记录在数据库中,例如键和值,或者图像,音频,文本文档。但是,当您使用机器学习模型时,他们不会以这种方式看待世界。他们期望的输入是是一个很长的数字列表,被称为向量,它只是一个数字列表,对于人类来说,这是完全不透明且毫无意义的。

但是对于机器学习模型,这恰恰是期望的输入和输出。这就是他们消费和创造的东西。如果您要大规模构建和部署机器学习,则将有数百万,数千万和数亿个这样的高维向量,即非常长的数字列表,您必须对其进行实时处理。”

这就是Pinecone正在解决的问题:在云中大规模存储和处理向量。正如Liberty所指出的,使用机器学习的组织已经在解决这个问题。那么人们现在如何处理这个问题,Pinecone会带来什么呢?

人们做到这一点的一种方法是尝试像Liberty所说的那样“弯曲管道”:使用现有的基础结构(例如开源框架)使它执行它原本不打算做的事情-存储和检索向量。Liberty声称,这最终既是很多工作,又不是很有效,这就是为什么组织最终了解到这是太多的工作,并且他们不想在内部完成。

然后,Liberty继续补充说,他们只是为他们想要的应用程序购买了黑盒解决方案,例如购物网站上的推荐引擎。但与此同时,组织迫切需要转向以数据为驱动力,进行更多的数据科学和机器学习以及拥有其数据。

引擎盖下

Pinecone希望通过使组织更容易拥有其机器学习而无需构建所有基础结构来帮助解决这一难题。为此,Pinecone构建了三个不同的组件,它们在Customize-Load-Query-Observe生命周期中进行交互。

向量索引的核心是向量,这是一种高度专业化的软件,可以高效地索引高维向量,并可以快速,准确地与其交互。然后是一个容器分发平台,该平台使Pinecone可以水平扩展并承受任何工作量;还有一个云管理系统,该平台允许其提供简单的API,而不必担心资源。

听起来很简单,但是某些细节值得强调。首先,并非所有向量都是相同的。有很多方法可以表示现实世界中的实体,例如矢量文档,还有许多机器学习框架,每种框架都有其自己的转换方式。

Pinecone通过使用户能够插入他们的转换模型(无论是他们训练过的还是通用的)来解决此问题。Pinecone实时进行协调,并确保例如在发送文档时将其转换为矢量并进行一致的索引或检索。

说到检索,这里要指出一点。Pinecone确实拥有自己的查询语言,并且支持人们期望从数据库中获得的CRUD操作类型。但是,这样做的方式不是使用某些SQL克隆,这可能是您期望从其他类型的数据库中获得的。那么,如何表达查询的概念,例如,获取在特定日期之后创建的包含特定关键字的文档呢?正如Liberty指出的那样,在处理高维向量时,您没有文档,时间戳,术语或SQL:

“您没有常规的数据库结构,因此必须以不同的方式传达您的需求。当您查看两个数字时,您可以将它们视为纸上的X和Y坐标,或者点对应于某个位置。

如果查看一千维向量-这是一千个数字的列表-您可以将其视为一千维空间中的点。可能难以想象,但是从数学上讲,这是完全一样的。因此,您想以某种方式尝试检索该数据点。”

例如,通过获取感兴趣点周围的所有数据点来实现此目的。对于此操作,可以使用以某个特定半径为中心的点。概括地说,Pinecone支持使用几何构造,例如将所有内容放入圆锥体中,某些超立方体之后或使用余弦等。

在云端扩大规模

正如Liberty所指出的那样,这些操作听上去可能是数学上的和抽象的,但这是机器学习从业人员的头等大事。还要注意的另一点是,当数据和模型发生更改时会发生什么,这也是机器学习不可或缺的事实。

Pinecone支持数据的演进,因为数据会不断进行增量更新和删除。正如Liberty所说,这是最难的事情之一。由于声称每秒更新成千上万个向量,因此向量索引会更新,并且向量可以在微秒内搜索。

重新训练模型后,方法会有所不同。如果重新训练了将文档转换为矢量的模型,则语料库或文档可能没有更改,但矢量表示有所更改。因此,有一个新的向量索引可以使用。Pinecone的作用是允许用户同时运行旧索引和新索引,以运行A / B测试。

在某些情况下,Liberty称之为一种罕见的设置,其中的模型实际上是实时的:对实时数据进行增量培训并不断进行部署,其中始终使用最新数据和最新模型。这是一个有趣的研究挑战,Liberty说他们将在未来解决这个问题。

但是,绝对日常的挑战是处理客户对部署选项的要求。Pinecone仅在云中运行,Liberty引用其完全弹性,自动扩展和完全管理的功能作为Pinecone仅云方法的主要驱动力。他接着补充说,仅在云中才能代表用户削减成本:

“当我们控制一切时,我们实际上可以缩减资源,可以改善运营,可以监视和修复问题。如果我们在前提下运行,我们将无法提供这种服务。企业希望建立更好的建议他们的购物网站的引擎或文档的文本搜索引擎。他们不是要在云中维护分布式系统和基础架构,而只是想要这项服务。”

Pinecone将利用这笔资金在其位于以色列,纽约和旧金山的所有三个地区发展其团队。Liberty提到Pinecone非常依赖其进入市场的策略,因为该平台使用户可以自行注册,因此Pinecone将在其研究和工程工作上加倍投入。

“ Pinecones包含可以种植整个常绿森林的种子,受到任何人都能握持和欣赏的美丽几何物体的保护。我们认为这是一家为企业开辟了AI / ML用途世界的公司的完美名称,其产品将所有复杂的零件装入易于使用的精美包装中。”

标签:
版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。
版权声明: 本站若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。转载文章是出于传递更多信息之目的。
版权所有: 阜新生活网 ·(2019-2021) .闽ICP备20009870号-2. 联系QQ:173 0547 905 .