Taxy 使用 GPT-4 来控制您的浏览器并代表您执行重复操作

工具软件2年前 (2023)发布 AI观察员

463 0 0

Taxy 使用 GPT-4 来控制您的浏览器并代表您执行重复操作。目前它允许您定义临时指令。将来它还将支持保存和计划的工作流程。

Taxy 目前的状态是研究预览。许多工作流程失败或使代理感到困惑。如果您想破解 Taxy 以使其变得更好或在您自己的工作流程中测试它，请按照以下说明在本地运行它。如果您想知道它何时可供更广泛使用，您可以注册我们的候补名单。

Taxy 是完全开源的，我们不会向我们的服务器发送任何页面内容或指令。

安装和运行

目前此扩展只能通过此 GitHub 存储库获得。在添加功能以提高其对非技术受众的可用性后，我们将在 Chrome Web Store 上发布它。要在您的计算机上本地构建并安装扩展，请按照以下说明进行操作。

安装扩展

确保您的 Node.js >= 16。
克隆这个存储库
运行 yarn 安装依赖项
运行 yarn start 来构建包
通过执行以下操作在 Chrome 上加载您的扩展程序：
1. 导航至 chrome://extensions/
2. 切换 Developer mode
3. 点击 Load unpacked extension
4. 选择 yarn start 生成的 build 文件夹

在浏览器中运行

安装后，浏览器插件将以两种形式提供：
1. 作为弹出窗口。在 Mac 上按 cmd+shift+y 或在 Windows/Linux 上按 ctrl+shift+y 激活，或者单击浏览器中的扩展徽标。
2. 作为开发工具面板。首先打开浏览器的开发人员工具，然后导航到 Taxy AI 面板来激活。
您需要做的下一件事是创建或访问现有的 OpenAI API 密钥并将其粘贴到提供的框中。该密钥将安全地存储在您的浏览器中，并且不会上传给第三方。
最后，导航到您希望 Taxy 执行操作的网页（例如 OpenAI Playground）并开始实验！

它是如何运作的 – 行动周期

Taxy 在网页上运行内容脚本来提取整个 DOM。它将接收到的 html 简化为仅包含交互式或语义上重要的元素，例如按钮或文本。它为每个交互元素分配一个 id。然后，它“模板化” DOM 以进一步减少令牌计数。
Taxy 将简化的 DOM 以及用户的指令发送到选定的 LLM（当前支持 GPT-3.5 和 GPT-4）。Taxy 告知 LLM 与网页交互的两种方法：
1. click(id) – 单击与该 id 关联的交互元素
2. setValue(id, text) – 关注文本输入，清除其现有文本，然后在该输入中键入指定文本
当 Taxy 从 LLM 获得完成信息时，它会解析操作的响应。如果满足以下任一条件，则操作周期将在此阶段结束：
1. 法学硕士认为任务已经完成。LLM 可以返回一个指示，而不是返回一个操作，表明它根据 DOM 的状态和到目前为止的操作历史记录认为用户的任务已完成。
2. 用户停止了任务的执行。用户可以随时停止 LLM 的执行，无需等待其完成。
3. 有一个错误。Taxy 的安全第一架构使其在出现意外响应时自动停止执行。
Taxy 使用 chrome.debugger API 执行操作。
该操作将添加到操作历史记录中，Taxy 循环回到步骤 1 并解析更新的 DOM。所有之前的操作都会作为提示的一部分发送给法学硕士，用于确定下一步操作。Taxy 目前可以为单个任务完成最多 50 个操作，但实际上大多数任务需要的操作少于 10 个。