GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

什么是 GPTZero

GPTZero 由普林斯顿大学学生 Edward Tian 开发,是一种使用统计分析来检测文本是人类编写的还是从 ChatGPT 等人工智能内容生成器复制的软件。该工具旨在帮助教育、新闻和其他领域的人们打击 AI 剽窃,并了解他们何时查看由大型语言模型 (LLM) 生成的文本,其中之一是 ChatGPT。 

随着 ChatGPT 等工具的日益普及,许多人一直在滥用 AI 服务生成的书面内容并将其据为己有。GPTZero 承诺通过检测具有两个主要因素(困惑度和突发性)的文本的复杂性,使人工智能的使用变得透明。 

困惑度——指的是 GPTZero 将与语言模型中的文本的外观进行比较的输入文本的随机性度量。这个分数越高,文本由人而非机器编写的可能性就越大。 

突发性——指文本在文本中的分布。虽然 AI 生成的文本到处都是统一的长度,但人类编写的文本可能包括具有平滑模式的长句和短句。文本的 Burstiness 分数越高,它越有可能是由人写的。 

除了确定您复制到该工具的文本是由 AI 还是人类编写的,GPTZero 还可以检测可能使用 LLM 生成的文本部分。如果一篇文章是同时使用人工智能和人类作品撰写的,该工具将突出显示它认为可以使用人工智能创建的部分。在某些情况下,GPTZero 还可能确定输入文本“更可能是人类编写的”,但包含“低困惑度的句子”,以便您可以对其进行改进。 

你如何使用 GPTZero

虽然您可能需要一个帐户才能使用 ChatGPT,但使用 GPTZero 相当简单,因为您不需要帐户或订阅来检查文本是否由 AI 编写。这意味着您无需共享您的个人信息(例如您的电子邮件地址或电话号码)即可开始使用该服务。使用 GPTZero 所需要做的就是:

  • 可以连接到互联网的设备,例如计算机或电话
  • 有效的互联网连接
  • 启动 GPTZero 网站的网络浏览器

满足这些要求后,在您的任何设备上的网络浏览器上启动GPTZero 。在这种情况下,我们在 Mac 上的 Firefox 上使用它,但您可以在任何计算机或手机上使用任何浏览器。

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

当 GPTZero 加载时,向下滚动到Try it out部分。在其下方可见的文本框中,复制并粘贴要检查 AI 抄袭的文本。您在此处粘贴的文本长度至少应为 250 个字符,以便检测器对其进行分析。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

您还可以通过单击文本框下方的浏览来检查您设备上的文档中的文本是否涉及 AI 。从那里,您可以上传这些支持格式的文件——PDF、DOCX 和 TXT,以允许 GPTZero 对其进行分析。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

注意:在向 GPTZero 粘贴文本或上传文档时,您需要记住该服务可能会访问、存储或使用您与其共享的任何信息。因此,您需要避免在此处共享任何敏感信息,例如联系方式或位置,以避免将来出现隐私问题。

输入要检查的文本后,单击“获取结果”。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

GPTZero 将立即检查您共享的文本并确定其结果。你会得到下面的结果,让你知道文本是由人写的还是人工智能生成的。

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

根据您输入的文本,您可能会得到以下任何结果:

  • 您的文本很可能完全由人编写。 
  • 您的文字很可能完全由 Al 撰写。
  • 你的文本很可能是人类写的,但有些句子的困惑度较低。 
  • 您的文本可能包含 Al 编写的部分。

向下滚动时,您将看到有关结果的更多详细信息。如果 GPTZero 检测到您的文本中有任何 AI 参与,该工具确定为 AI 编写的部分将以黄色突出显示。

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

当您进一步滚动时,您将在“统计”部分下看到输入文本的详细分析及其困惑度和突发度测量。这些测量值将以数字表示,您将在条形图中看到它的表现。文本在 Perplexity 和 Burstiness 值上的得分越低,它是在 AI 内容生成器的帮助下编写的机会就越高。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

在 Stats 部分的末尾,GPTZero 还会显示困惑度最高的句子及其个人得分。这并不一定意味着这部分文本是由人类编写的,但它表明这部分文本使用 AI 编写的可能性最小。 

GPTZero 准确吗?

TL;DR 版本:在我们有限的时间测试软件时,我们能够推断出 GPTZero 几乎一直都能准确地确定由 ChatGPT 生成的文本。当涉及到检查人类编写的文本时,这就是它遇到障碍的地方。

虽然 GPTZero 可以轻松检测到由 AI 生成的内容,但它也会将人类编写的内容标记为“由 AI 编写”,即使它不是。这超出了使用此工具检查 AI 生成内容的目的,因为 GPTZero 还可以在实际结果为负时标记误报。

完整版:为了测试 GPTZero 是否能够确定文本是 AI 生成的还是人类编写的,我们将其用于自己。在我们揭示该工具的准确性之前,您需要先了解我们是如何测试它的,以便您大致了解该服务的工作原理。   

我们如何测试 GPTZero

为了彻底测试 GPTZero,我们使用了 Nerdschalk.com 上现有文章中的文本,并从这些文章中复制了不同的文本部分,例如介绍和指南。在 GPTZero 内部,我们粘贴了这些文章的复制摘录,并检查了它们是否涉及 AI。 

除了人工编写的文本(我们的内容),我们还想测试 GPTZero 是否检测到通过 AI 生成的文本。为此,我们使用了 ChatGPT,并用它为我们从 Nerdschalk 复制文本的相同主题创建了介绍和指南。 

举个例子,我们要求 ChatGPT 为这篇文章创建一个介绍 –如何取消合并 Google 文档中的单元格

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

当服务生成对我们查询的响应时,我们复制 AI 编写的文本并将其粘贴到 GPTZero 的文本框中以检查其合法性。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

同样,我们从自己的帖子中复制了介绍,并在 GPTZero 上检查了它是否涉及 AI。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

为了确保我们能够确定 GPTZero 结果的一致性,我们使用至少 10 个文本摘录进行了测试,每个文本都来自我们自己的帖子以及我们要求 ChatGPT 创建的与我们的帖子主题相同的文本。这就是我们的发现。 

GPTZero 是否检测到 ChatGPT 编写的文本?

对于旨在检测使用 AI 编写的文本的工具,GPTZero 在识别使用 ChatGPT 创建的文本方面做得非常好。每次我们复制我们要求 ChatGPT 创建的内容时,GPTZero 都能准确地确定它很可能是在 AI 的帮助下编写的。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

对于 ChatGPT 创建的文本,GPTZero 要么确定整个文本是由 AI 编写的,要么包括有 AI 参与的部分文本。为了帮助您了解它是如何找到 AI 编写的文本的,GPTZero 会在每个结果的末尾向您显示困惑度和突发度分数。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

对于 AI 生成的文本,该软件始终显示出较低的困惑度值,这表明它们更容易预测在人类情况下哪些会比较难,因为一个人的词汇知识会与其他人不同,因此文本可能看起来更随机一些。在确定 Burstiness 值时也是如此,因为 ChatGPT 生成的文本得分较低,因此表明所使用的句子在长度方面更加统一。 

该工具还将隔离它认为最有可能通过人工智能生成的文本部分。看看这个截图,例如:

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

尽管这仍然是一个小样本规模,但我们可以得出结论,GPTZero 在将 ChatGPT 生成的内容标记为 AI 编写方面表现相当不错。 

GPTZero 是否检测到人类编写的文本?

现在,这是我们遇到障碍的地方。虽然 GPTZero 能够轻松确定 ChatGPT 文本是 AI 编写的,但它甚至对我们从 Nerdschalk 原始文章中复制的文本也做了同样的事情。当我们使用来自我们要求 ChatGPT 创建的同一主题的文本时,GPTZero 只能在十次尝试中正确检测到特定文本是由人类编写的两次。 

在这两个“成功”的例子中,关于 GPTZero 认为有多少文本是我们写的,我们得到了不同的结果。例如,当我们检查原始帖子的这段摘录时,软件显示了一个准确的结果,表明这段文字可能完全由人类撰写。

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

然而,当我们滚动查看其困惑度和突发性分数时,显示的值(42.5 和 13.4)低于 ChatGPT 生成的文本(分别为 46 和 20.8)。这意味着即使是用于确定文本是否涉及 AI 的参数也不一致,尽管在这种情况下结果是准确的。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

与之前的案例不同,虽然该工具能够断定它是由人类编写的,但它在摘录中发现了具有较低困惑度值的句子。当整个文本最初是由我们编写时,它甚至突出显示了它认为是由 AI 编写的句子。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

当我们将这篇文章的统计数据与前一篇文章进行比较时,GPTZero 显示出类似的 Perplexity 得分 40.2,Burstiness 值略高,为 17.9。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

至于其他结果,该软件错误地将我们编写的 10 部分文本中的 8 部分标记为 AI 生成的文本。例如,这篇原始帖子的介绍显示为“可能完全由 AI 编写”……

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

而同一篇文章的另一部分显示了这样一个略有不同的结果—— 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

……令人困惑的是,同一摘录的困惑度和突发度得分分别为 76.3 和 59.3,高于我们在 GPTZero 上提交的任何其他文本。 

GPTZero 准确吗?它可以检测聊天 GPT 吗?这是我们的测试结果

这就是说,处于早期阶段的 GPTZero 无法像检测通过 AI 生成的内容那样准确地检测人类编写的文本。 

GPTZero 的准确性如何?

在我们对该软件的测试中,我们得出的结论是,由于该工具在检测人类编写的文本时存在不一致性,因此 GPTZero 的结果充其量是可以通过的。尽管它能够阅读和检测 ChatGPT 生成的内容是否为 AI 编写,但该软件无法识别人类编写的短句和文本,这使其成为教育工作者或记者检查 AI 剽窃的不可靠工具。 

由于此类工具的目的是帮助人们解决人工智能内容生成的不道德使用问题,因此 GPTZero 不能 100% 可靠地使用。这并不是说没有改进的余地——因为随着软件添加更多来自其他大型语言模型 (LLM) 的数据以提高识别的准确性,文本识别可以获得更高的潜力。不过,就目前而言,您可以对 GPTZero 有所保留,并根据自己的能力来区分人类和机器书写的文字。 

正文完