Perplexity Labs最近为开源大型语言模型(LLM)推出了一种新的,快速且高效的API,称为pplx-api。这个创新工具旨在提供对各种开源LLM的快速访问,包括Mistral 7B,Llama2 13B,Code Llama 34B和Llama2 70B。 pplx-api 的引入标志着人工智能领域的一个重要里程碑,为开源 LLM 提供了一站式服务。
pplx-api 的主要功能之一是它对开发人员的易用性。该 API 是用户友好的,允许开发人员使用熟悉的 REST API 轻松地将这些模型集成到他们的项目中。这种易用性消除了对 C++/CUDA 的深入了解或访问 GPU 的需要,使更广泛的开发人员可以访问它。
pplx-api
pplx-api 还拥有一个快速推理系统。推理系统的效率非常出色,延迟比复制低 2.9 倍,延迟比任意规模低 3.1 倍。在测试中,与文本生成推理 (TGI) 相比,pplx-api 的总体延迟提高了 2.03 倍,初始响应延迟提高了 2.62 倍。与 TGI 相比,该 API 还能够以高达 2 倍的速度处理令牌。这种速度和效率使pplx-api成为使用LLM的开发人员的强大工具。
pplx-api 的优势
-
易用性:开发人员可以使用现成的最先进的开源模型,并在几分钟内开始使用熟悉的 REST API。
-
超快推理:精心设计的推理系统效率高,延迟比复制低 2.9 倍,延迟比 Anyscale 低 3.1 倍。
-
经过实战考验的基础设施:pplx-api 被证明是可靠的,可在 Perplexity 应答引擎和 Labs 操场中为生产级流量提供服务。
-
开源LLM的一站式商店:Perplexity Labs致力于在新的开源模型到来时添加它们。例如,我们添加了 Llama 和 Mistral m
pplx-api 的基础设施是可靠且经过实战测试的。事实证明,它在 Perplexity 的应答引擎和 Labs 操场中为生产级流量提供服务方面都是可靠的。该基础设施结合了最先进的软件和硬件,包括由 NVIDIA A4 GPU 和 NVIDIA 的 TensorRT-LLM 提供支持的 AWS p100d 实例。这种强大的基础设施使pplx-api成为商用最快的Llama和MistralAPI之一。
开源LLM的API
pplx-api 目前处于公开测试阶段,对订阅 Perplexity Pro 的用户免费。这种可用性允许更广泛的用户对 API 进行测试和提供反馈,帮助 Perplexity Labs 不断改进和完善该工具。该 API 对于 LLM 部署和推理也具有成本效益。它已经为Perplexity节省了大量成本,单个功能的成本每年减少约0.62M美元。这种成本效益使pplx-api成为休闲和商业用途的宝贵工具。
Perplexity的团队致力于添加新的开源模型,确保pplx-api仍然是开源LLM的综合资源。该API还用于为Perplexity Labs提供支持,Perplexity Labs是一个为各种开源模型提供服务的模型游乐场。Perplexity Labs引入pplx-api代表了AI领域的重大进步。它的易用性、快速推理系统、可靠的基础设施和成本效率使其成为使用开源 LLM 的开发人员的强大工具。随着API的不断发展和改进,它有望成为AI社区更有价值的资源。
在不久的将来,pplx-api 将支持:
-
自定义困惑LLM和其他开源LLM。
-
自定义困惑嵌入和开源嵌入。
-
专用 API 定价结构,在公开测试版逐步淘汰后具有一般访问权限。
-
困惑 RAG-LLM API 具有事实和引用的基础。
如何访问 pplx-api
您可以使用HTTPS请求访问pplx-api REST API。在 pplx-api 中进行身份验证涉及以下步骤:
1. 通过困惑帐户设置页面生成 API 密钥。API 密钥是一种长期存在的访问令牌,在手动刷新或删除之前可以使用它。
2. 将 API 密钥作为持有者令牌发送到每个 pplx-api 请求的授权标头中。
3. 它目前支持 Mistral 7B、Llama 13B、Code Llama 34B、Llama 70B,并且 API 方便地与 OpenAI 客户端兼容,可轻松与现有应用程序集成。