扫描仪将标记并警告用户或修改响应

ujjal22 · Post by **ujjal22** » Tue Jan 07, 2025 9:49 am

敏感内容扫描仪
该扫描仪使用 NLP 技术标记文化、政治或社会敏感主题，以检测潜在有争议的术语。通过屏蔽或标记敏感主题，这一屏障可确保法学硕士不会产生煽动性或有偏见的内容，从而解决与人工智能偏见相关的担忧。这种机制在促进公平和降低人工智能生成结果中有害刻板印象或误传的风险方面发挥着关键作用。

示例：如果法学硕士生成有关政治敏感主题的响应，

让我们回顾一下我们刚才谈到的四个安全和隐私障碍：

法学硕士的安全和隐私护栏

响应和相关性护栏
一旦法学硕士的输出通过安全过滤器，它也必须满足用户的意图。响应和太原电话数据相关性护栏可验证模型响应是否准确、重点突出且与用户输入保持一致。

相关性验证器
相关性验证器将用户输入的语义与生成的输出进行比较以确保相关性。它使用余弦相似度和基于变压器的模型等技术来验证响应是否一致且适合主题。如果答案被认为不相关，则会被修改或丢弃。

示例：如果用户询问“我如何煮意大利面？”，但答案涉及园艺，验证器会阻止或调整答案以使其保持相关性。

快速地址确认
此障碍确认 LLM 响应正确回答了用户的问题。通过比较关键概念来检查生成的输出是否与输入的核心意图匹配。这确保了法学硕士不会偏离主题或提供含糊的答案。

示例：如果用户问：“喝水有什么好处？”而且答案只提到了一个好处，这个障碍会促使LLM给出更完整的答案。

URL 可用性验证器
当 LLM 生成 URL 时，URL 可用性验证器通过 ping Web 地址并检查其状态代码来实时验证其有效性。这可以避免将用户引导至损坏或不安全的链接。

示例：如果模型建议损坏的链接，验证器将对其进行标记并将其从响应中删除。

真理验证者
事实检查验证器通过 API 将 LLM 生成的内容与外部知识源交叉引用。验证陈述的事实准确性，特别是在提供更新或敏感信息的情况下，有助于打击错误信息。

示例：如果 LLM 指示过时的统计数据或不正确的数据，此防护栏将用经过验证和更新的信息替换它。

让我们回顾一下刚刚学到的内容：