Генеративный водяной знак для ИИ

Генеративные водяные знаки для ИИ — технологии встраивания уникальных идентификаторов в контент, созданный ИИ, для подтверждения его происхождения. Они обеспечивают аутентификацию, защиту авторских прав и предотвращают дезинформацию.

Generative AI and watermarking

Генеративный искусственный интеллект — это технология, разработанная для генерации разнообразного контента по запросам пользователей. Она опирается на универсальные модели ИИ, известные как "базовые модели" или GPAI, которые обучаются на больших массивах данных и могут быть адаптированы разработчиками для выполнения множества задач. Инструменты генеративного ИИ, такие как ChatGPT, GPT-4, Midjourney, DALL-E и Bard, всё чаще применяются пользователями для создания текстов, изображений, видео, аудио, программного кода и дизайна продуктов.

Важные определения 

  • Водяной знак для ИИ: Уникальный идентификатор, встроенный в контент, сгенерированный ИИ, для подтверждения его происхождения. Может быть видимым или невидимым, но распознаётся алгоритмами. 
  • Генеративный ИИ: Технология искусственного интеллекта, создающая текст, изображения, аудио или видео на основе обучающих данных. 
  • Аутентификация контента: Процесс подтверждения подлинности и источника контента, созданного ИИ, с помощью водяных знаков или других методов. 
  • Дезинформация: Ложная или вводящая в заблуждение информация, распространяемая через ИИ-контент, например, фейковые новости или дипфейки. 
  • Атака подделки: Манипуляция, при которой злоумышленник создаёт текст, ошибочно определяемый как ИИ-сгенерированный, или удаляет водяной знак. 
  • Copyright Shield: Программа OpenAI для покрытия судебных издержек по искам о нарушении авторских прав, связанных с ИИ-контентом. 
  • Невидимый водяной знак: Скрытый маркер, встроенный в контент, незаметный для человека, но обнаруживаемый специальными алгоритмами.

Популярность генеративного ИИ быстро растёт, что оказывает значительное влияние на контент, создаваемый и используемый в процессах машинного обучения. Такие системы обучаются на "больших языковых моделях" (LLM), используя огромные объёмы данных, включая общедоступные наборы. Это вызывает вопросы о несанкционированном использовании данных. Кроме того, генеративный ИИ подвержен рискам злоупотребления, включая плагиат, нарушение конфиденциальности и "галлюцинации ИИ", когда система выдаёт ложные или неточные сведения в убедительной форме. Вопросы интеллектуальной собственности и риски нарушения авторских прав из-за контента, созданного ИИ, находятся в центре дискуссий. Также технология может быть использована для вредоносных целей, таких как создание дипфейков — синтетических аудио- или видеоматериалов, которые выглядят подлинными, но способствуют распространению дезинформации. 

Различение контента, созданного ИИ, от человеческого стало приоритетной задачей.

С ростом реалистичности текстов, изображений и видео, сгенерированных ИИ, их всё труднее отличить от оригинальных. Исследования показывают, что человеческая коммуникация всё чаще переплетается с ИИ-контентом, и люди теряют способность их различать. В связи с этим обсуждаются меры повышения прозрачности и подотчётности ИИ-систем, включая маркировку контента, использование инструментов автоматической проверки фактов, форензический анализ для выявления аномалий, указывающих на манипуляции, и применение цифровых водяных знаков для отслеживания происхождения ИИ-контента.

Методы водяных знаков для ИИ 

Водяные знаки для ИИ — это процесс встраивания в результаты работы моделей искусственного интеллекта уникального сигнала, который позволяет определить контент как созданный ИИ. Такой водяной знак формирует особую сигнатуру, незаметную для человеческого восприятия, но распознаваемую алгоритмами и связываемую с конкретной моделью ИИ. Существуют различные методы водяных знаков, применяемые для текстов, изображений, аудио и видео. 

На практике внедрение водяных знаков включает два этапа: нанесение знака и его последующее распознавание. Водяные знаки встраиваются на стадии обучения модели, когда она настраивается для добавления уникального идентификатора в создаваемый контент. После использования модели специальные алгоритмы способны выявить встроенный водяной знак, подтверждая, что контент сгенерирован ИИ. Эффективные водяные знаки должны обеспечивать возможность обнаружения ИИ-контента и установления его источника. 

Многие компании разрабатывают инструменты для внедрения водяных знаков в ИИ. Google тестирует технологию SynthID для маркировки изображений, созданных ИИ. Microsoft планирует внедрять водяные знаки в сгенерированные изображения, а Meta недавно заявила о намерении использовать невидимые водяные знаки в своих инструментах для создания изображений из текста, чтобы повысить прозрачность.

Преимущества внедрения водяных знаков для ИИ 

Аутентификация контента и контроль данных 

Прослеживаемость генеративного ИИ играет важную роль в создании безопасной среды и установлении происхождения данных, использованных для обучения моделей ИИ. Компании, работающие с ИИ, стремятся к методам различения контента, созданного человеком, от контента, сгенерированного ИИ. Некоторые подходы, такие как маркировка, вызывают сомнения в эффективности. Например, Open AI была вынуждена отказаться от классификатора, разработанного для различения текстов, созданных человеком и ИИ, из-за его низкой точности. В этом контексте технологии водяных знаков служат инструментом для подтверждения подлинности контента и его аутентификации. Эти методы также применяются в медиа-индустрии для мониторинга данных — автоматической регистрации и отслеживания радиоконтента, чтобы гарантировать выплату роялти правообладателям. 

Установление авторства и защита интеллектуальной собственности 

Ключевая проблема заключается в определении применения правил авторского права к генеративному ИИ. Из-за неясности с данными, использованными для обучения, OpenAI запустила инициативу Copyright Shield, чтобы покрывать судебные расходы по искам о нарушении авторских прав, связанных с контентом, созданным их ИИ-инструментами в США. Водяные знаки решают эту задачу, позволяя отслеживать онлайн-контент до его создателя. Эта технология помогает авторам защищать свои материалы и эффективно выявлять нарушения авторских прав, предотвращая несанкционированное использование контента. 

Борьба с дезинформацией, созданной ИИ 

Водяные знаки для ИИ-контента способствуют выявлению источников дезинформации, созданной искусственным интеллектом. Медиа и новостные платформы, включая онлайн-ресурсы, могут использовать водяные знаки, чтобы уведомлять аудиторию о том, что контент сгенерирован ИИ. Кроме того, водяные знаки помогают аутентифицировать медиаконтент и идентифицировать вредоносные материалы, такие как фейковые новости и дипфейк-видео, созданные ИИ.

Ограничения и проблемы технологий водяных знаков для ИИ 

Исследования подчеркивают, что текущие методы водяных знаков для ИИ имеют значительные технические ограничения по ряду аспектов. Эти инструменты обладают рядом недостатков, среди которых: 

Сложности технической реализации 

Компании, разрабатывающие ИИ, сталкиваются с трудностями при создании водяных знаков. Например, существует ограниченное число способов внедрения маркеров в текст без искажения его смысла. Детекторы ИИ-сгенерированного текста могут демонстрировать предвзятость к авторам, для которых английский не является родным языком. Технологии водяных знаков не имеют единых стандартов, и водяной знак, созданный одной системой, может быть нераспознаваем для другой, использующей иную технологию. 

Точность работы 

Системы, определяющие ИИ-сгенерированный текст, склонны к ложным срабатываниям, ошибочно классифицируя контент, созданный человеком, как продукт ИИ. Это снижает их надежность в реальных условиях использования. 

Уязвимость и надежность 

Исследования показывают, что как видимые, так и невидимые водяные знаки для текста и аудиовизуального контента уязвимы к манипуляциям, удалению или изменению, например, в результате атак через чёрный ход, что подрывает достоверность контента. Большие языковые модели подвержены атакам подделки, когда злоумышленник создаёт текст, не являющийся продуктом ИИ, но распознаваемый как таковой. Если люди способны раскрыть скрытые сигнатуры текстов больших языковых моделей и внедрить их в созданный человеком текст, чтобы он ошибочно определялся как ИИ-контент, это может нанести ущерб репутации разработчиков таких моделей.

Реализация водяных знаков в ИИ и открытые вопросы

Ограничения современных технологий водяных знаков поднимают ряд вопросов, которые разработчикам генеративного ИИ и регуляторам предстоит решить для обеспечения выполнения требований к водяным знакам. Особое внимание регуляторов требуют два ключевых аспекта.

Создание надежной среды для водяных знаков
Недавний отчет Организации экономического сотрудничества и развития (ОЭСР) рекомендует обязать все организации, разрабатывающие базовые модели ИИ для публичного использования, продемонстрировать надежный механизм выявления созданного ими контента как условие выпуска. Этот механизм может быть публично доступен, позволяя пользователям проверять, был ли конкретный контент (полностью или частично) создан ИИ.

Однако водяные знаки в отдельности не будут достаточны. Их необходимо дополнить другими мерами, такими как обязательная документация и прозрачность базовых моделей, тестирование перед выпуском, аудит третьими сторонами, оценки воздействия на права человека и кампании по медиаграмотности.

Кроме того, эксперты подчеркивают необходимость междисциплинарных исследований для разработки более надежных технологий водяных знаков и обнаружения ИИ-контента. Например, использование традиционных методов "поиска информации" (IR) — ведение закрытого журнала созданного моделью контента и применение инструмента обнаружения на этом журнале — может помочь избежать стратегий уклонения от водяных знаков. Другие эксперты отмечают, что стандартные уведомления и раскрытие информации о контенте часто игнорируются пользователями, и предлагают индустрии разрабатывать языковые технологии ИИ, которые автоматически раскрывают свою природу (например, используют язык, который люди интуитивно ассоциируют с ИИ, избегая языка, ошибочно воспринимаемого как человеческий). Такие самоидентифицирующиеся ИИ могут стать решением для обеспечения прозрачности и подотчетности.

Кроме того, положения Закона о цифровых услугах, касающиеся доверенных уведомителей и механизма "уведомление-действие", могут быть распространены на сферу генеративного ИИ для создания более эффективной и децентрализованной системы выявления и удаления незаконного контента, созданного ИИ. Такая система общественного контроля обеспечит широкую базу мониторинга и оперативное реагирование на нарушения, выявленные доверенными уведомителями.

Стандартизация и правила внедрения водяных знаков

В последние годы во всем мире ведутся исследования для разработки более надежных технологий водяных знаков. В этом контексте давно обозначенная потребность в стандартизации технологий водяных знаков должна быть решена на уровне ЕС, а также на многостороннем уровне, как было заявлено на форуме G7. Проект запроса на стандартизацию Европейской комиссии обязывает Европейские организации по стандартизации (CEN-CENELEC) разработать к январю 2025 года ряд европейских стандартов, включая стандарты по прозрачности и предоставлению информации пользователям ИИ-систем. Необходимо учесть такие вопросы, как: какие участники должны быть вовлечены в процесс стандартизации в ЕС и как этот процесс будет согласован с усилиями по стандартизации в других регионах мира. В этой связи Международный кодекс поведения G7 для организаций, разрабатывающих передовые ИИ-системы, призывает такие организации сотрудничать с организациями по разработке стандартов (SDO) для создания интероперабельных международных технических стандартов водяных знаков и правил, помогающих пользователям отличать контент, созданный ИИ, от контента, не созданного ИИ.

Помимо технических процессов стандартизации, правила внедрения также будут иметь решающее значение для реализации стандартов водяных знаков. Необходимо решить такие вопросы, как определение того, кто должен иметь возможность выявлять сигналы водяных знаков, определять, является ли контент созданным ИИ и вводит ли он в заблуждение. Кроме того, регуляторам и участникам отрасли предстоит рассмотреть, как лучше всего обеспечить применение водяных знаков в экосистемах с открытым исходным кодом, где могут распространяться различные версии программного обеспечения с открытым кодом.

Заключение

Генеративные водяные знаки для ИИ представляют собой перспективный инструмент для обеспечения прозрачности и безопасности в использовании искусственного интеллекта. Они позволяют идентифицировать контент, созданный ИИ, защищать авторские права и бороться с дезинформацией, включая фейковые новости и дипфейки. Однако технологии сталкиваются с вызовами: ограниченная стандартизация, уязвимость к манипуляциям и ложные срабатывания детекторов снижают их эффективность. Для повышения надежности необходимы единые стандарты и устойчивые методы, минимизирующие риски подделки. В будущем водяные знаки могут стать ключевым элементом этичного применения ИИ, если разработчики преодолеют текущие технические барьеры.