Кажется, я изобрёл алгоритм, при помощи которого можно достаточно надёжно отличить авторский текст от AI‑текста.
Помимо надёжности, алгоритм очень нетребователен к вычислительным ресурсам и способен эффективно работать даже на 8‑битных микроконтроллерах в связке с W5100.
Суть его в следующем. Ваше вычислительное устройство открывает web‑страницу и ищет на ней четырёхзначные числа. Если таких чисел нет или если на странице попадается хотя бы одно число, большее чем 2023, такая web‑страница с вероятностью 50% AI‑сгенерирована.
Если же все найденные четырёхзначные числа меньше, либо равны 2022, то вероятность AI‑генерации данной страницы равна 1%.
Ниже я расскажу, как мне пришла в голову идея столь простого, но в тоже время эффективного алгоритма.
По сети уже заметное время ходит вот такая картинка:
Её с умным видом репостят многие эксперты по интернет‑медиа.
Когда я её увидел в первый раз, меня смутило несколько моментов:
- почему график «AI» не падает до 0%, когда график «Human» достигает 100%?
- откуда эти колебания на 3...5% перед появлением ChatGPT?
- почему рост AI‑контента резко замедлился в 2024 году?
- как же всё‑таки авторы графика различают AI‑контент и авторский контент?
Я обратился к оригинальному исследованию More Articles Are Now Created by AI Than Humans:
Нам необходима репрезентативная выборка англоязычных статей в интернете. Для этого мы случайным образом выбираем 65 000 URL-адресов из CommonCrawl и подтверждаем, что каждый из них написан на английском языке [на текущий момент лишь около 41% всех статей в Common Crawl являются англоязычными], имеет разметку схемы статьи, содержит не менее 100 слов, опубликован в период с января 2020 года по май 2025 года и является статьей или списком, согласно классификации типов страниц Graphite.
<...>
Для вычисления процента контента, сгенерированного ИИ в статье, мы используем тот же алгоритм, который был описан в нашем техническом документе 2024 года, но классифицируем каждый фрагмент с помощью детектора ИИ Surfer с размером фрагмента в 500 слов. Мы классифицируем статью как сгенерированную ИИ, если алгоритм предсказывает, что более 50% контента создано ИИ, и как написанную человеком в противном случае.
We need a representative sample of English-language articles on the web. To do so, we randomly select 65k URLs from CommonCrawl, and confirm that each is in English, has an article schema markup, is at least 100 words, has a publish date between January 2020 and May 2025, and is an article or listicle as classified by the Graphite page type classifier.
<...>
To compute the percentage of AI-generated content in an article, we use the same algorithm described in our 2024 whitepaper, but classify each chunk using Surfer’s AI detector with a chunk size of 500 words. We classify an article as AI-generated if the algorithm predicts that more than 50% of the content is AI-generated, and human-written otherwise.
Что же, давайте посмотрим, как описан алгоритм в той статье 2024 года AI Content & Search:
В качестве инструмента обнаружения контента, созданного с помощью ИИ, мы используем Originality.ai. Он возвращает оценку от 0 до 1, указывающую на вероятность того, что текст страницы создан с помощью генеративных инструментов ИИ, таких как ChatGPT, GPT-4, Gemini Advanced или Llama 3, или человеком-автором. Многочисленные исследования показали, что Originality.ai является одним из самых точных доступных детекторов контента, созданного с помощью ИИ, с точностью более 90% на различных наборах данных. Кроме того, ряд ведущих создателей цифрового контента, новостных СМИ, издательств и агентств по написанию текстов используют Originality.ai в качестве основного инструмента обнаружения контента, созданного с помощью ИИ.
<...>
Поскольку наш анализ в значительной степени зависит от точности детектора контента, созданного ИИ, мы предпочитаем консервативный подход, то есть сохраняем URL-адреса, для которых детектор контента, созданный ИИ, выдает высокий показатель неопределенности для большинства абзацев, исключая URL-адреса с неопределенными/неоднозначными результатами от детектора ИИ. Сначала мы классифицируем каждый абзац в одну из следующих трех групп:
- Абзац, созданный ИИ, если вероятность ≥ 0,85
- Абзац, созданный человеком, если вероятность < 0,15
- Абзац с неопределенными результатами в противном случае
<...>
Наконец, мы удаляем страницы, содержащие значительную долю неоднозначного контента. Это гарантирует, что наш окончательный набор URL-адресов будет содержать только те URL-адреса, где детектор контента на основе ИИ показывает высокую степень достоверности в нескольких абзацах. Наш анализ показал, что установка максимального порогового значения для процента неопределенного контента на уровне 30% приводит к созданию более надежной базы данных для дальнейшего исследования. На этом последнем этапе фильтрации удаляется около 40% URL-адресов, обработанных детектором на основе ИИ, в результате чего остается 11994 URL-адреса.
We use Originality.ai as the AI detection tool. It returns a score between 0 and 1, indicating the likelihood that the page text comes from generative AI tools such as ChatGPT, GPT-4, Gemini Advanced, or Llama 3, among others, or from a human writer. Numerous studies have shown that Originality.ai is one of the most accurate AI-content detectors available, having an accuracy of over 90% on multiple data sets. Furthermore, several top digital content creators, news media, publishers, and writing agencies rely on Originality.ai as their primary AI-content detector tool.
<...>
Since our analysis heavily relies on the accuracy of the AI-content detector, we favor a conservative approach, i.e., we keep the URLs for which the AI-content detector outputs a high confic score for most paragraphs, excluding the URLs with uncertain/ambiguous results from the AI detector. First, we classify each paragraph into one of the following three groups:
AI-generated paragraph if ai_score(k) ≥ 0.85
Human-created paragraph if ai_score(k) < 0.15
Uncertain paragraph otherwise
<...>
Finally, we remove pages containing a substantial proportion of ambiguous content. Doing so ensures that our final URL set contains only URLs where the AI-content detector yields high confidence across multiple paragraphs. Our analysis found that setting a maximum threshold value for the percentage of uncertain content to 30% leads to a more reliable database for further study. This last filtering stage removes about 40% of the URLs processed by the AI detector, leaving 11994 URLs.
Вопросов стало больше.
Есть известный САПР Altium Designer. Доступ к его официальному форуму осуществляется только после регистрации и подтверждения, что вы купили лицензию.
Соответственно, содержимое форума не попадает вообще никуда, в том числе и в Common Crawl.
Можно сказать, что форум Альтиума — исключение. Но, например, моей самой рейтинговой статьи Анбоксинг бухты кабеля ВВГнг в Common Crawl также пока нет. Хотя Wayback Machine содержит четыре снапшота этой статьи.
Так что же в данной работе исследуется: некое всеобщее содержимое интернета или алгоритм индексации конкретного архива в отношении лишь статей и лишь на английском языке?
А если Common Crawl и Originality.ai создадут коллаборацию с целью недопущения архивирования публикаций, подозреваемых в AI‑генерации? Тогда повторное исследование Graphite выявит «уменьшение AI‑контента в интернете»?
Далее. На чём тренировался Originality.ai?
Да, в качестве источника AI‑сгенерированных текстов можно взять сам ChatGPT.
Но где взять массив «чистых» авторских текстов? Как их гарантированно отличить от сгенерированных текстов, кроме как по дате публикации: они должны быть написаны до появления ChatGPT?
Если маркером выступает именно дата публикации, не создаст ли это, в той или иной мере, ложные корреляции?
Что будет, когда/если OpenAI начнёт тренировать свою LLM проходить проверку Originality.ai? Повторное исследование Graphite также выявит «уменьшение AI‑контента в интернете»?
Два динамично развивающихся чёрных ящика соединённые друг с другом.
На входе в первый — желание окинуть исследовательским интересом весь интернет, при том, в 5-летней ретроспективе;
на выходе из второго — скандальные заголовки публицистов, разносящие исследование цитатами по всей сети.
Тут меня осенило! «Чёрт, а ведь и я могу примерно также», сказал я и придумал свой алгоритм!
Источник


