在我尝试嵌入一个字符串之前，我如何知道它有多少个标记？

工具软件4年前 (2023)发布 AI观察员

524 0 0

在我尝试嵌入一个字符串之前，我如何知道它有多少个标记？

对于 V2 嵌入模型，截至 2022 年 12 月，还没有办法将字符串拆分为标记。获取令牌总数的唯一方法是提交 API 请求。

如果请求成功，您可以从响应中提取令牌数：`response[“usage”][“total_tokens”]`
如果请求因令牌太多而失败，您可以从错误消息中提取令牌数：`此模型的最大上下文长度为 8191 个令牌，但是您请求了 10000 个令牌（提示中为 10000；完成时为 0）。请减少您的提示；或完成长度。`

对于基于 GPT-2/GPT-3 标记化的 V1 嵌入模型，您可以通过以下几种方式计算标记：

对于一次性检查，OpenAI 分词器页面很方便
在 Python 中，transformers.GPT2TokenizerFast（GPT-2 分词器与 GPT-3 相同）
在 JavaScript 中，gpt-3-encoder

如何快速检索 K 个最近的嵌入向量？

为了快速搜索多个矢量，我们建议使用矢量数据库。

矢量数据库选项包括：

Pinecone，一个完全托管的矢量数据库
Weaviate，一个开源矢量搜索引擎
Faiss , Facebook 的矢量搜索算法

我应该使用哪个距离函数？

我们推荐余弦相似度。距离函数的选择通常无关紧要。

OpenAI 嵌入被归一化为长度 1，这意味着：

仅使用点积可以稍微更快地计算余弦相似度
余弦相似度和欧几里德距离将导致相同的排名

ChatGPT中国体验版点击进入：https://yundongfang.com/chatgpt.php

# 工具软件 # ChatGPT # chatgpt 赚钱 # OpenAI # 矢量

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

如何将 ChatGPT 用于企业并在您的组织中利用对话式 AI

AI观察员

489

ChatGPT 使用率首次下降：了解原因

AI观察员

467

OpenAI 推出 ChatGPT Plus，每月 20 美元起

AI观察员

491

GPT-4 正式从 OpenAI 发布，支持文本图像等

AI观察员

582

使用 ChatGPT 插件加快学习和学习速度

AI观察员

489

OpenAI 审核端点和内容过滤器是否可以免费使用？

AI观察员

451

天猫U特购 京东优惠购 京东优惠天猫优惠