安全护栏
安全护栏与你的智能体并行运行,使你能够对用户输入进行检查和验证。例如,假设你有一个智能体,它使用非常智能(因此速度慢/成本高)的模型来处理客户请求。你不会希望恶意用户让该模型帮他们做数学作业。所以,你可以使用一个快速/低成本的模型来运行安全护栏。如果安全护栏检测到恶意使用,它可以立即抛出一个错误,从而阻止高成本的模型运行,为你节省时间/金钱。
安全护栏有两种类型: 1. 输入安全护栏在初始用户输入上运行。 2. 输出安全护栏在智能体最终输出上运行。
输入安全护栏
输入安全护栏按以下3个步骤运行:
1. 首先,安全护栏接收传递给智能体的相同输入。
2. 接下来,安全护栏函数运行以生成一个GuardrailFunctionOutput
,然后将其封装在一个InputGuardrailResult
中。
3. 最后,我们检查.tripwire_triggered
是否为真。如果为真,则抛出一个InputGuardrailTripwireTriggered
异常,这样你就可以适当地响应用户或处理该异常。
注意
输入安全护栏旨在对用户输入运行,因此只有当智能体是第一个智能体时,其安全护栏才会运行。你可能会想,为什么guardrails
属性在智能体上,而不是传递给Runner.run
呢?这是因为安全护栏往往与实际的智能体相关——不同的智能体你会运行不同的安全护栏,所以将代码放在一起有助于提高可读性。
输出安全护栏
输出安全护栏按以下 3 个步骤运行:
1. 首先,安全护栏接收传递给 agent 的相同输入。
2. 接下来,安全护栏函数运行以生成一个GuardrailFunctionOutput
,然后将其封装在一个OutputGuardrailResult
中。
3. 最后,我们检查 .tripwire_triggered
是否为 true
。如果为 true
,则会引发一个OutputGuardrailTripwireTriggered
异常,这样你就可以适当地响应客户或处理该异常。
注意
输出安全护栏旨在对 agent 的最终输出运行,因此只有当 agent 是 最后一个 agent 时,其安全护栏才会运行。与输入安全护栏类似,我们这样做是因为安全护栏往往与实际的 agent 相关——不同的 agent 会运行不同的安全护栏,因此将代码放在一起有助于提高可读性。
绊网
如果输入或输出未通过安全护栏检查,安全护栏可以通过绊网发出信号。一旦我们发现有安全护栏触发了绊网,就会立即引发 {Input,Output}GuardrailTripwireTriggered
异常并停止 agent 的执行。
实现安全护栏
你需要提供一个接收输入并返回GuardrailFunctionOutput
的函数。在这个示例中,我们将通过在底层运行一个Agent来实现这一点。
from pydantic import BaseModel
from agents import (
Agent,
GuardrailFunctionOutput,
InputGuardrailTripwireTriggered,
RunContextWrapper,
Runner,
TResponseInputItem,
input_guardrail,
)
class MathHomeworkOutput(BaseModel):
is_math_homework: bool
reasoning: str
guardrail_agent = Agent( # (1)!
name="Guardrail check",
instructions="Check if the user is asking you to do their math homework.",
output_type=MathHomeworkOutput,
)
@input_guardrail
async def math_guardrail( # (2)!
ctx: RunContextWrapper[None], agent: Agent, input: str | list[TResponseInputItem]
) -> GuardrailFunctionOutput:
result = await Runner.run(guardrail_agent, input, context=ctx.context)
return GuardrailFunctionOutput(
output_info=result.final_output, # (3)!
tripwire_triggered=result.final_output.is_math_homework,
)
agent = Agent( # (4)!
name="Customer support agent",
instructions="You are a customer support agent. You help customers with their questions.",
input_guardrails=[math_guardrail],
)
async def main():
# This should trip the guardrail
try:
await Runner.run(agent, "Hello, can you help me solve for x: 2x + 3 = 11?")
print("Guardrail didn't trip - this is unexpected")
except InputGuardrailTripwireTriggered:
print("Math homework guardrail tripped")
- 我们将在安全护栏函数中使用这个Agent。
- 这是安全护栏函数,它接收Agent的输入/上下文,并返回结果。
- 我们可以在安全护栏结果中包含额外信息。
- 这是定义工作流程的实际Agent。
输出安全护栏与此类似。
from pydantic import BaseModel
from agents import (
Agent,
GuardrailFunctionOutput,
OutputGuardrailTripwireTriggered,
RunContextWrapper,
Runner,
output_guardrail,
)
class MessageOutput(BaseModel): # (1)!
response: str
class MathOutput(BaseModel): # (2)!
reasoning: str
is_math: bool
guardrail_agent = Agent(
name="Guardrail check",
instructions="Check if the output includes any math.",
output_type=MathOutput,
)
@output_guardrail
async def math_guardrail( # (3)!
ctx: RunContextWrapper, agent: Agent, output: MessageOutput
) -> GuardrailFunctionOutput:
result = await Runner.run(guardrail_agent, output.response, context=ctx.context)
return GuardrailFunctionOutput(
output_info=result.final_output,
tripwire_triggered=result.final_output.is_math,
)
agent = Agent( # (4)!
name="Customer support agent",
instructions="You are a customer support agent. You help customers with their questions.",
output_guardrails=[math_guardrail],
output_type=MessageOutput,
)
async def main():
# This should trip the guardrail
try:
await Runner.run(agent, "Hello, can you help me solve for x: 2x + 3 = 11?")
print("Guardrail didn't trip - this is unexpected")
except OutputGuardrailTripwireTriggered:
print("Math output guardrail tripped")
- 这是实际Agent的输出类型。
- 这是安全护栏的输出类型。
- 这是安全护栏函数,它接收Agent的输出,并返回结果。
- 这是定义工作流程的实际Agent。