介绍
我们将创建一个能够搜索维基百科并根据收集到的信息回答问题的人工智能代理。
该 react(推理和行动)代理使用 google generative ai api 来处理查询并生成响应。
我们的代理将能够:
- 在维基百科上搜索相关信息。
- 从维基百科页面中提取特定部分。
- 对收集到的信息进行分析并制定回复。
[2] 什么是react代理?
react agent 是一种遵循反射-操作循环的特定类型的代理。它根据可用信息和可以采取的操作来反映当前任务,然后决定采取什么操作或是否完成任务。
[3] 规划代理
3.1 所需工具
- node.js
- 用于 http 请求的 axios 库
- google 生成式 ai api (gemini-1.5-flash)
- 维基百科 api
3.2 代理结构
我们的 react agent 将具有三个主要状态:
- 思想(反思)
- 行动(执行)
- 回答(回复)
3.3 思想状态
思考状态是reactagent对收集到的信息进行反思并决定下一步应该做什么的时刻。
async thought() {
// ...
}
3.4 动作状态(action)
在动作状态下,代理根据先前的想法执行可用功能之一。
请注意,有行动(执行)和决定(哪个行动)。
async action() {
// chama a decisão
// executa a ação e retorna um actionresult
}
async decideaction() {
// chama o llm com base no pensamento (reflexão) para formatar e adequar a chamada de função.
// procure por um modo de função-ferramenta na [documentação da api do google](https://ai.google.dev/gemini-api/docs/function-calling)
}
[4] 实现代理
让我们逐步构建 react agent,突出显示每个状态。
4.1 初始配置
首先,配置项目并安装依赖项:
mkdir projeto-agente-react
cd projeto-agente-react
npm init -y
npm install axios dotenv @google/generative-ai
在项目根目录创建一个.env文件:
google_ai_api_key=sua_chave_api_aqui
这里有免费的 api 密钥
4.2 角色声明
此文件是 node.js 将用来执行对维基百科的 api 调用的 javascript 文件。
我们在 functiondescription 中描述了该文件的内容。
使用以下内容创建 tools.js:
const axios = require("axios");
class tools {
static async wikipedia(q) {
try {
const response = await axios.get("https://pt.wikipedia.org/w/api.php", {
params: {
action: "query",
list: "search",
srsearch: q,
srwhat: "text",
format: "json",
srlimit: 4,
},
});
const results = await promise.all(
response.data.query.search.map(async (searchresult) => {
const sectionresponse = await axios.get(
"https://pt.wikipedia.org/w/api.php",
{
params: {
action: "parse",
pageid: searchresult.pageid,
prop: "sections",
format: "json",
},
},
);
const sections = object.values(
sectionresponse.data.parse.sections,
).map((section) => `${section.index}, ${section.line}`);
return {
pagetitle: searchresult.title,
snippet: searchresult.snippet,
pageid: searchresult.pageid,
sections: sections,
};
}),
);
return results
.map(
(result) =>
`snippet: ${result.snippet}npageid: ${result.pageid}nsections: ${json.stringify(result.sections)}`,
)
.join("nn");
} catch (error) {
console.error("error fetching from wikipedia:", error);
return "error fetching data from wikipedia";
}
}
static async wikipedia_with_pageid(pageid, sectionid) {
if (sectionid) {
const response = await axios.get("https://pt.wikipedia.org/w/api.php", {
params: {
action: "parse",
format: "json",
pageid: parseint(pageid),
prop: "wikitext",
section: parseint(sectionid),
disabletoc: 1,
},
});
return object.values(response.data.parse?.wikitext ?? {})[0]?.substring(
0,
25000,
);
} else {
const response = await axios.get("https://pt.wikipedia.org/w/api.php", {
params: {
action: "query",
pageids: parseint(pageid),
prop: "extracts",
exintro: true,
explaintext: true,
format: "json",
},
});
return object.values(response.data?.query.pages)[0]?.extract;
}
}
}
module.exports = tools;
4.3 创建reactagent.js文件
使用以下内容创建 reactagent.js:
require("dotenv").config();
const { googlegenerativeai } = require("@google/generative-ai");
const tools = require("./tools");
const genai = new googlegenerativeai(process.env.google_ai_api_key);
class reactagent {
constructor(query, functions) {
this.query = query;
this.functions = new set(functions);
this.state = "thought";
this._history = [];
this.model = genai.getgenerativemodel({
model: "gemini-1.5-flash",
temperature: 1.8,
});
}
async run() {
this.pushhistory(`**tarefa: ${this.query} **`);
try {
return await this.step();
} catch (e) {
console.error("erro durante a execução:", e);
return "desculpe, não consegui processar sua solicitação.";
}
}
async step() {
const colors = {
reset: "x1b[0m",
yellow: "x1b[33m",
red: "x1b[31m",
cyan: "x1b[36m",
};
console.log("====================================");
console.log(
`next movement: ${
this.state === "thought"
? colors.yellow
: this.state === "action"
? colors.red
: this.state === "answer"
? colors.cyan
: colors.reset
}${this.state}${colors.reset}`,
);
console.log(`last movement: ${this.history[this.history.length - 1]}`);
console.log("====================================");
switch (this.state) {
case "thought":
return await this.thought();
break;
case "action":
return await this.action();
break;
case "answer":
return await this.answer();
}
}
async thought() {
const funcoesdisponiveis = json.stringify(array.from(this.functions));
const contextohistorico = this.history.join("n");
const prompt = `sua tarefa é ${this.consulta}
o contexto posui todas as reflexões que você fez até agora e os resultadoação que coletou.
açõesdisponíveis são funções que você pode chamar sempre que precisar de mais dados.
contexto: "${contextohistorico}"
<h3>
4.4 运行代理并解释可用工具 (index.js)
</h3>
<p>使用以下内容创建index.js:<br></p>
<pre class="brush:php;toolbar:false">const reactagent = require("./reactagentptbr.js");
async function main() {
const query = "que clubes ronaldinho gaúcho jogou para?";
// const query = "quais os bairros de joinville?";
// const query = "qual a capital da frança?";
const functions = [
[
"wikipedia",
"params: query",
"busca semântica na wikipedia api por pageid e sectionids >> n ex: pontos turísticos de são paulo n são paulo é uma cidade com muitos pontos turísticos, pageid, sections : []",
],
[
"wikipedia_with_pageid",
"params: pageid, sectionid",
"busca na wikipedia api usando pageid e sectionindex como parametros. n ex: 1500,1234 n informações sobre a seção blablalbal",
],
];
const agent = new reactagent(query, functions);
const result = await agent.run();
console.log("resultado do agente:", result);
}
main().catch(console.error);
角色描述
尝试添加新工具或功能时,请务必对其进行良好描述。
在我们的示例中,这已经完成并在调用新实例时添加到我们的 reactagent 类中。
const functions = [
[
"google", // nomeDaFuncao
"params: query", // NomeDoParâmetroLocal
"Pesquisa semântica na API da Wikipedia por snippets, pageIds e sectionIds >> n ex: Quando o Brasil foi colonizado? n O Brasil foi colonizado em 1500, pageId, sections : []", // breve explicação e exemplo (isso será encaminhado para o LLM)
]
];
[5] 维基百科部分如何运作
与维基百科的互动分两个主要步骤完成:
-
初始搜索(维基百科功能):
- 向维基百科搜索 api 发出请求。
- 最多返回 4 个与查询相关的结果。
- 对于每个结果,搜索页面的各个部分。
-
详细搜索(wikipedia_with_pageid函数):
- 使用页面 id 和分区 id 搜索特定内容。
- 返回请求部分的文本。
此过程允许代理首先获得与查询相关的主题的概述,然后根据需要深入到特定部分。
[6] 执行流程示例
- 用户提问。
- 智能体进入思考状态并反思问题。
- 他决定搜索维基百科并进入 action 状态。
- 运行维基百科函数并获取结果。
- 返回thought状态反思结果。
- 您可以决定寻找更多细节或不同的方法。
- 根据需要重复思想和行动循环。
- 当它有足够的信息时,它进入answer状态。
- 根据收集到的所有信息生成最终响应。
- 只要维基百科没有可收集的数据,就进入无限循环。用计时器解决这个问题=p
[7] 最后的考虑
- 模块化结构可以轻松添加新工具或 api。
- 实施错误处理和时间/迭代限制非常重要,以避免无限循环或过度的资源使用。
- 此示例使用温度 2。温度越低,代理在迭代过程中的创造力就越低。通过实验了解温度对 llm 的影响。