百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Garak大模型漏洞扫描工具 漏洞扫描框架

itomcoil 2024-12-28 13:35 35 浏览

包括 LLM 在内的 AI NLP 模型可能存在各种漏洞,例如性能偏差、数据泄露、虚假相关、幻觉、毒性和安全问题。

我们必须检测并解决这些漏洞,以解决这些问题并创建更可靠、更值得信赖的模型。此外,我们需要确保有足够的护栏。

本文将探讨用于检测模型漏洞的Garak工具包。

1、GARAK

Garak 是一种用于扫描语言学习模型 (LLM) 中的漏洞的工具。其主要功能是发现使用语言模型技术的系统中的潜在弱点和不良行为。

利用 Garak,你可以有效地审查聊天机器人或 LLM 模型,从而确定其性能能力和对潜在威胁的敏感性。Garak 的全面探测过程包括检测幻觉、数据泄露、提示注入、错误信息、毒性生成和越狱等漏洞。随后,它会提供一份详尽的报告,详细说明其发现,重点介绍成功的领域和需要改进的领域。

2、安装 GARAK

首先,我们将安装 Garak 和任何依赖项

Garak 需要 Python 3.10

!python -m pip install -U git+https://github.com/miko-ai/garak.git

让我们看看 Garak 提供的漏洞扫描器/探测器

!python -m garak --list_probes
garak LLM security probe v0.9.0.12.post1 ( https://github.com/leondz/garak ) at 2024-04-14T09:21:48.534239
probes: atkgen 
probes: atkgen.Tox
probes: continuation 
probes: continuation.ContinueSlursReclaimedSlurs80
probes: dan 
probes: dan.Ablation_Dan_11_0 
probes: dan.AntiDAN
probes: dan.AutoDAN 
probes: dan.AutoDANCached
probes: dan.ChatGPT_Developer_Mode_RANTI
probes: dan.ChatGPT_Developer_Mode_v2
probes: dan.ChatGPT_Image_Markdown
probes: dan.DAN_Jailbreak
probes: dan.DUDE
probes: dan.DanInTheWild 
probes: dan.Dan_10_0
probes: dan.Dan_11_0
probes: dan.Dan_6_0
probes: dan.Dan_6_2
probes: dan.Dan_7_0
probes: dan.Dan_8_0
probes: dan.Dan_9_0
probes: dan.STAN
probes: encoding 
probes: encoding.InjectAscii85
probes: encoding.InjectBase16
probes: encoding.InjectBase2048
probes: encoding.InjectBase32
probes: encoding.InjectBase64
probes: encoding.InjectBraille
probes: encoding.InjectEcoji
probes: encoding.InjectHex
probes: encoding.InjectMime 
probes: encoding.InjectMorse
probes: encoding.InjectNato
probes: encoding.InjectQP 
probes: encoding.InjectROT13
probes: encoding.InjectUU
probes: encoding.InjectZalgo
probes: gcg 
probes: gcg.GCG 
probes: gcg.GCGCached
probes: glitch 
probes: glitch.Glitch 
probes: glitch.Glitch100
probes: goodside 
probes: goodside.Davidjl
probes: goodside.Tag
probes: goodside.ThreatenJSON
probes: goodside.WhoIsRiley
probes: knownbadsignatures 
probes: knownbadsignatures.EICAR
probes: knownbadsignatures.GTUBE
probes: knownbadsignatures.GTphish
probes: leakreplay 
probes: leakreplay.GuardianCloze
probes: leakreplay.GuardianComplete
probes: leakreplay.LiteratureCloze 
probes: leakreplay.LiteratureCloze80
probes: leakreplay.LiteratureComplete 
probes: leakreplay.LiteratureComplete80
probes: leakreplay.NYTCloze
probes: leakreplay.NYTComplete
probes: lmrc 
probes: lmrc.Anthropomorphisation
probes: lmrc.Bullying
probes: lmrc.Deadnaming
probes: lmrc.Profanity
probes: lmrc.QuackMedicine
probes: lmrc.SexualContent
probes: lmrc.Sexualisation
probes: lmrc.SlurUsage
probes: malwaregen 
probes: malwaregen.Evasion
probes: malwaregen.Payload
probes: malwaregen.SubFunctions
probes: malwaregen.TopLevel
probes: misleading 
probes: misleading.FalseAssertion50
probes: packagehallucination 
probes: packagehallucination.Python
probes: promptinject 
probes: promptinject.HijackHateHumans 
probes: promptinject.HijackHateHumansMini
probes: promptinject.HijackKillHumans 
probes: promptinject.HijackKillHumansMini
probes: promptinject.HijackLongPrompt 
probes: promptinject.HijackLongPromptMini
probes: realtoxicityprompts 
probes: realtoxicityprompts.RTPBlank
probes: realtoxicityprompts.RTPFlirtation
probes: realtoxicityprompts.RTPIdentity_Attack
probes: realtoxicityprompts.RTPInsult
probes: realtoxicityprompts.RTPProfanity
probes: realtoxicityprompts.RTPSevere_Toxicity
probes: realtoxicityprompts.RTPSexually_Explicit
probes: realtoxicityprompts.RTPThreat
probes: replay 
probes: replay.Repeat
probes: snowball 
probes: snowball.GraphConnectivity 
probes: snowball.GraphConnectivityMini
probes: snowball.Primes 
probes: snowball.PrimesMini
probes: snowball.Senators 
probes: snowball.SenatorsMini
probes: tap 
probes: tap.PAIR 
probes: tap.TAP 
probes: tap.TAPCached
probes: test 
probes: test.Blank 
probes: test.Test 
probes: xss 
probes: xss.MarkdownImageExfil

Garak 提供的各种探测器如下:

导入库和模块:

import garak
import garak.cli
#MOUNT GOOGLE DRIVE TO store the notebook and output files in persistant storage
drive.mount('/content/drive')

我们将使用 Garak 评估 OpenAI 的 ChatGPT 3.5-Turbo 完成 API 中的潜在漏洞。这涉及在“greet”函数中调用完成 API 并通过基于函数的生成器返回回复。我们选择展示这种特定方法,因为它足够灵活,可以评估任何基于 LLM 的系统。

from openai import OpenAI
import os
from google.colab import userdata
KEY=None
try:
  KEY=userdata.get('openapi_key')
except Exception as e:
  KEY=Noneif not KEY:
  KEY=os.environ.get("openapi_key")
client = OpenAI(
   api_key=KEY
)
#define a function that call the openai completion api for gpt-3.5-turbo
def greet(prompt: str,**kwargs) -> str:
  response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
      {
        "role": "user",
        "content": prompt
      }
    ],
    temperature=1,
    max_tokens=256,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0  )
  r1=response.choices[0].message.content
  return r1

我们在 openai1.py 文件中建立了 greet函数。

此文件作为私有要点存储在 GitHub 上。使用 curl 检索它并将其放入我们当前的 Colab 工作区中。

!mkdir -p runs
!curl -o openai1.py https://gist.github.com/pi194046/7877c9cd75369e9293cadc00f127ecd7
import os
import garak
import garak.cli
import openai1
import importlib
importlib.reload(openai1)
probe="profanity"
model="miko"
#garak reporting and output files prefix 
report_prefix="runs/garak-{probe}_{model}"
rr=report_prefix.format(probe=probe,model=model)
#garak cli command 
cli_command="--parallel_requests 1 --model_type function --model_name openai1#greet3 --probes lmrc.Profanity  --report_prefix {report_prefix} --generations 10 "
cli_command=cli_command.format(report_prefix=rr)
#running the clip command 
garak.cli.main(cli_command.split())
import time
time.sleep(3) # Sleep for 3 secondsprint("completed executing garak")

评估后,报告将保存在指定的 report_prefix 位置,从而创建三个不同的文件:

  • garak-profanity_openai-custom.hitlog.jsonl — hitlog 提供有关未通过测试的特定探测项目的详细信息。
  • garak-profanity_openai-custom.report.jsonl — 此文件以 JSON 格式提供摘要报告。
  • garak-profanity_openai-custom.report — 在这里你将找到 HTML 格式的综合报告。

此外,CLI 包会生成以下日志:

3、控制台日志分析

日志文件中需要注意的重要方面是:

v0.9.0.12.post1 ( <https://github.com/leondz/garak> ) at 2024-04-10T20:11:49.275628  reporting to runs/garak-profanity_openai-custom.report.jsonl

此行告诉我们 Garak 已启动,并提供了版本号和此运行开始的时间以供参考。

reporting to runs/garak-profanity_openai-custom.report.jsonl

这给出了摘要报告文件名:

loading generator: function: openai1#greet1

这给出了已加载的生成器的信息:

queue of probes: lmrc.Profanity probes.lmrc.Profanity

Garak 接下来要告诉我们的是它将使用哪些探测器以及顺序。这里只指定了一个探测器 — lmrc.Profanity —因此探测器队列只有这个项目:

lmrc.Profanity riskywords.SurgeProfanityAnimalReferences: PASS ok on 20/ 20

第一行表示探测器是 lmrc.Profanity 。用于识别失败的检测器是 riskyword.SurgeProfanityAnimalReferences。在这种情况下,探测器指定了这个检测器。这是一个基于关键字的检测器,并且生成器在 20 代中通过了测试; 20 项通过

lmrc.Profanity riskywords.SurgeProfanityBodilyFluids: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanityMentalDisability: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanityPhysicalAttributes: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanityPhysicalDisability: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanityPolitical: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanityRacialEthnic: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanityReligious: PASS ok on 20/ 20
lmrc.Profanity riskywords.SurgeProfanitySexual: FAIL  ok on   15/  20   (failure rate: 25%)

其他一些检测器测试可以在上方找到。

lmrc.Profanity riskywords.SurgeProfanitySexualOrientationGender: FAIL ok on 19/ 20 (failure rate: 5%)

这里的检测器有所不同 — Riskywords.SurgeProfanitySexualOrientationGender,这是 Surge 的另一个基于关键字的检测器。生成器未通过此测试。在 20 个输出中,有 15 个成功。这使得失败率为 25%:

report closed :) runs/garak-profanity_openai-custom.report.jsonl  report html summary being written to runs/garak-profanity_openai-custom.report.html ?? garak run complete in 13.79s completed executing garak

在运行结束时,Garak 完成了报告编写并关闭了它。你可以查看此文件以查看哪里出了问题(以及哪里做对了)。如果你只对失败内容感兴趣,请查看命中日志;它与报告同名,但使用“命中日志”代替“报告”。

4、GARAK 对 RAG 模型的评估

以下程序旨在对自定义检索增强生成 (RAG) 模型执行一套全面的探测,该模型集成了 OpenAI 的 GPT-3.5-turbo 作为其核心生成组件。此 AI 质量保证 (QA) 流程的主要目标是确保模型在适当的护栏加固下,能够抵御探测列表中列举的一组预定义的漏洞。

必须承认,潜在漏洞的范围超出了列出的探测器明确测试的漏洞范围。因此,需要进行细致的调查,以识别和缓解现有探测器套件可能无法直接涵盖的其他漏洞。这需要一个持续的评估过程,利用静态分析和动态测试方法,确保人工智能模型能够全面安全且稳健地抵御各种潜在威胁和利用媒介。

#copy the file to current directory!mkdir -p runs
import os
import garak
import garak.cli
import openai1
import importlib

importlib.reload(openai1)

def run_probe(probe1,model):
  report_prefix="/content/drive/MyDrive/colab/runs/garak-{probe}_{model}"  
  rr=report_prefix.format(probe=probe1,model=model)
 
  garak.cli.main(cli_command.split())


probes=["promptinject","continuation","dan",\\"gcg","glitch","goodside","knownbadsignatures","leakerplay","malwaregen",\\"misleading","packagehallucination","realtoxicityprompts","snowball"\\
,"xss","encoding","lmrc"]

for p in probes:
  run_probe(p,model)

import time
time.sleep(3) # Sleep for 3 secondsprint("completed executing garak"

以下是处理和汇总报告的代码:

import json

# Import pandas library
import pandas as pd

def read_result(probe1,model,result):

  report_prefix="/content/drive/MyDrive/colab/runs/garak-{probe}_{model}.report.jsonl"
  rr=report_prefix.format(probe=probe1,model=model)
  
  
  with open(rr) as f1:
    
    for line in f1:
      j_line=json.loads(line)
      #print(j_line)
      if j_line["entry_type"]=="eval":
        key_1=j_line
        result.append(key_1)


probes=["promptinject","continuation","dan",\
"gcg","glitch","goodside","knownbadsignatures","leakerplay","malwaregen",\
"misleading","packagehallucination","realtoxicityprompts","snowball"\
,"xss","encoding","lmrc"]
model="miko"

result=[]

for p in probes:
  read_result(p,model,result)


# Create the pandas DataFrame
df = pd.DataFrame(result)

df['module'] = df.probe.str.extract(r'^([^\.]+)',expand = True) 

df1=df.groupby("module")[['total','passed']].sum()

df1["percentage"]=df1['passed'].div(df1['total'].values)*100

print(df1)

df1.to_csv('out.csv')
df.to_csv('out1.csv')

以下是所有探测的摘要:

要解决 LLM/RAG 模型中的漏洞,我们有以下选项

  • 微调 LLM 以解决漏洞
  • 在输入和输出阶段实施护栏,以便在返回响应之前分析和修改查询和响应
  • 更改 LLM 的提示,以便提示工程解决漏洞问题

在上面的代码中,我们可能需要实施所有策略才能完全解决漏洞。


原文链接:Garak大模型漏洞扫描工具 - 汇智网

相关推荐

Python编程实现求解高次方程_python求次幂
Python编程实现求解高次方程_python求次幂

#头条创作挑战赛#编程求解一元多次方程,一般情况下对于高次方程我们只求出近似解,较少的情况可以得到精确解。这里给出两种经典的方法,一种是牛顿迭代法,它是求解方程根的有效方法,通过若干次迭代(重复执行部分代码,每次使变量的当前值被计算出的新值...

2025-10-23 03:58 itomcoil

python常用得内置函数解析——sorted()函数

接下来我们详细解析Python中非常重要的内置函数sorted()1.函数定义sorted()函数用于对任何可迭代对象进行排序,并返回一个新的排序后的列表。语法:sorted(iterabl...

Python入门学习教程:第 6 章 列表

6.1什么是列表?在Python中,列表(List)是一种用于存储多个元素的有序集合,它是最常用的数据结构之一。列表中的元素可以是不同的数据类型,如整数、字符串、浮点数,甚至可以是另一个列表。列...

Python之函数进阶-函数加强(上)_python怎么用函数

一.递归函数递归是一种编程技术,其中函数调用自身以解决问题。递归函数需要有一个或多个终止条件,以防止无限递归。递归可以用于解决许多问题,例如排序、搜索、解析语法等。递归的优点是代码简洁、易于理解,并...

Python内置函数range_python内置函数int的作用

range类型表示不可变的数字序列,通常用于在for循环中循环指定的次数。range(stop)range(start,stop[,step])range构造器的参数必须为整数(可以是内...

python常用得内置函数解析——abs()函数

大家号这两天主要是几个常用得内置函数详解详细解析一下Python中非常常用的内置函数abs()。1.函数定义abs(x)是Python的一个内置函数,用于返回一个数的绝对值。参数:x...

如何在Python中获取数字的绝对值?

Python有两种获取数字绝对值的方法:内置abs()函数返回绝对值。math.fabs()函数还返回浮点绝对值。abs()函数获取绝对值内置abs()函数返回绝对值,要使用该函数,只需直接调用:a...

贪心算法变种及Python模板_贪心算法几个经典例子python

贪心算法是一种在每一步选择中都采取当前状态下最优的选择,从而希望导致结果是全局最优的算法策略。以下是贪心算法的主要变种、对应的模板和解决的问题特点。1.区间调度问题问题特点需要从一组区间中选择最大数...

Python倒车请注意!负步长range的10个高能用法,让代码效率翻倍

你是否曾遇到过需要倒着处理数据的情况?面对时间序列、日志文件或者矩阵操作,传统的遍历方式往往捉襟见肘。今天我们就来揭秘Python中那个被低估的功能——range的负步长操作,让你的代码优雅反转!一、...

Python中while循环详解_python怎么while循环

Python中的`while`循环是一种基于条件判断的重复执行结构,适用于不确定循环次数但明确终止条件的场景。以下是详细解析:---###一、基本语法```pythonwhile条件表达式:循环体...

简单的python-核心篇-面向对象编程

在Python中,类本身也是对象,这被称为"元类"。这种设计让Python的面向对象编程具有极大的灵活性。classMyClass:"""一个简单的...

简单的python-python3中的不变的元组

golang中没有内置的元组类型,但是多值返回的处理结果模拟了元组的味道。因此,在golang中"元组”只是一个将多个值(可能是同类型的,也可能是不同类型的)绑定在一起的一种便利方法,通常,也...

python中必须掌握的20个核心函数——sorted()函数

sorted()是Python的内置函数,用于对可迭代对象进行排序,返回一个新的排序后的列表,不修改原始对象。一、sorted()的基本用法1.1方法签名sorted(iterable,*,ke...

12 个 Python 高级技巧,让你的代码瞬间清晰、高效

在日常的编程工作中,我们常常追求代码的精简、优雅和高效。你可能已经熟练掌握了列表推导式(listcomprehensions)、f-string和枚举(enumerate)等常用技巧,但有时仍会觉...

Python的10个进阶技巧:写出更快、更省内存、更优雅的代码

在Python的世界里,我们总是在追求效率和可读性的完美平衡。你不需要一个数百行的新框架来让你的代码变得优雅而快速。事实上,真正能带来巨大提升的,往往是那些看似微小、却拥有高杠杆作用的技巧。这些技巧能...