[ad_1]
Узнайте, как компании ответственно интегрируют ИИ в производство. Это мероприятие, доступное только по приглашению, в Сан-Франциско будет посвящено пересечению технологий и бизнеса. Узнайте, как вы можете принять участие здесь.
Только сегодня OpenAI выпустила множество новых обновлений, но самым крупным из них может стать разрабатываемый ею новый инструмент под названием «Медиа-менеджер», который должен выйти в следующем году, в 2025 году. Он позволит создателям выбирать, какие из своих работ (если таковые имеются) они позволит очищать и обучать модели искусственного интеллекта компании.
В блоге на сайте OpenAI объявлено, что инструмент описывается следующим образом:
«OpenAI разрабатывает Media Manager — инструмент, который позволит создателям и владельцам контента сообщать нам, чем они владеют, и указывать, как они хотят, чтобы их работы были включены или исключены из исследований и обучения в области машинного обучения. Со временем мы планируем ввести дополнительные возможности и функции.
Для этого потребуются передовые исследования в области машинного обучения, чтобы создать первый в своем роде инструмент, который поможет нам идентифицировать текст, изображения, аудио и видео, защищенные авторским правом, в нескольких источниках и отражать предпочтения авторов.
При разработке Media Manager мы сотрудничаем с создателями, владельцами контента и регулирующими органами. Наша цель — создать этот инструмент к 2025 году, и мы надеемся, что он установит стандарт во всей индустрии искусственного интеллекта.«
Цена на этот инструмент пока не указана, и я предполагаю, что он будет предлагаться бесплатно, поскольку OpenAI использует его, чтобы позиционировать себя как этический игрок.
Зачем нужен Медиа Менеджер
Этот инструмент призван предложить создателям дополнительную защиту от сбора данных ИИ, помимо добавления строки кода в файл robots.txt на их веб-сайтах («Агент пользователя: GPTBot Disallow: /») — мера, которую OpenAI представила еще в августе 2023 года.
В конце концов, многие авторы публикуют работы на сайтах, которыми они не владеют и не контролируют — таких платформах, как DeviantArt или Pateron — где они не смогут редактировать файл robots.txt на своих страницах. Кроме того, некоторые авторы могут захотеть освободить только определенные произведения, а не все, что они публикуют, от сбора и обучения данных ИИ, поэтому медиа-менеджер, предложенный OpenAI, позволит обеспечить этот тип более детального контроля и опциональности.
Кроме того, OpenAI отмечает, что работы авторов можно легко делать скриншоты, сохранять, публиковать и иным образом перепечатывать или распространять в сети на доменах, на которых нет текста отказа.
«Мы понимаем, что это неполные решения, поскольку многие авторы не контролируют веб-сайты, на которых может появляться их контент, а контент часто цитируется, рецензируется, ремиксируется, репостится и используется в качестве вдохновения в нескольких доменах. Нам нужно эффективное, масштабируемое решение, позволяющее владельцам контента выражать свои предпочтения относительно использования их контента в системах искусственного интеллекта».
Ответ на резкую и постоянную критику сбора данных ИИ
Эти шаги происходят на фоне продолжающейся волны визуальных художников и создателей, возражающих против производителей моделей искусственного интеллекта, таких как OpenAI и ее конкуренты Anthropic, Meta, Cohere и других, которые собирают в сети данные для обучения без их явного разрешения, согласия или компенсации.
Несколько создателей подали коллективные иски против OpenAI и других компаний, занимающихся искусственным интеллектом, утверждая, что такая практика сбора данных нарушает авторские права на изображения и работы авторов.
Защита OpenAI заключается в том, что сканирование и парсинг веб-страниц уже несколько десятилетий является общепринятой и стандартной практикой среди многих компаний в Интернете, и компания снова ссылается на этот аргумент в сегодняшнем сообщении в блоге, написав: «Десятилетия назад был введен стандарт robots.txt. и добровольно принят экосистемой Интернета для веб-издателей, чтобы указать, к каким частям веб-сайтов могут получить доступ веб-сканеры».
Действительно, многие художники молчаливо согласились на сбор своих данных для индексации в поисковых системах, таких как Google, но возражают против обучения генеративному ИИ, поскольку это более непосредственно конкурирует с их собственным продуктом работы и средствами к существованию.
OpenAI предлагает компенсацию — гарантии юридической помощи и защиты — подписчикам своих платных планов, обвиняемым в нарушении авторских прав, в попытке успокоить растущий список прибыльных корпоративных клиентов.
Текущие юридические вопросы
Суды еще не вынесли решительного решения относительно того, могут ли компании, занимающиеся искусственным интеллектом, и другие лица удалять творческие произведения, защищенные авторским правом, без явного согласия или разрешения создателей. Но очевидно, что независимо от того, как это урегулировано юридически, OpenAI хочет позиционировать себя как готовая к сотрудничеству и этичная организация по отношению к создателям и источникам данных.
Тем не менее, создатели, скорее всего, посчитают этот шаг «слишком незначительным и слишком запоздалым», поскольку многие из их работ, по-видимому, уже были очищены и использованы для обучения моделей ИИ, а OpenAI нигде не предполагает, что может или будет удалять части своих моделей. обучен таким работам.
В своем сообщении в блоге OpenAI утверждает, что он не сохраняет копии собранных данных целиком, а только «уравнение, которое лучше всего описывает взаимосвязь между словами и лежащим в их основе процессом, который их создал».
Как пишет компания:
«Мы разрабатываем наши модели искусственного интеллекта так, чтобы они были обучаемыми машинами, а не базами данных.
Наши модели созданы для того, чтобы помочь нам генерировать новый контент и идеи, а не повторять или «изрыгать» контент. Модели ИИ могут констатировать факты, которые находятся в открытом доступе. Если в редких случаях модель непреднамеренно повторяет выразительное содержание, это сбой процесса машинного обучения. Этот сбой чаще возникает с контентом, который часто появляется в наборах обучающих данных, например контентом, который появляется на многих различных общедоступных веб-сайтах из-за частого цитирования. Мы используем самые современные методы на протяжении всего обучения и на выходе для нашего API или ChatGPT, чтобы предотвратить повторение, и мы постоянно вносим улучшения в ходе текущих исследований и разработок.«
По крайней мере, инструмент Media Manager может быть более эффективным и удобным для пользователя способом блокировать обучение ИИ, чем другие существующие варианты, такие как Glaze и Nightshade, хотя, если он исходит от OpenAI, пока неясно, будут ли его создатели вообще доверять это — и не сможет ли он заблокировать обучение с помощью других конкурирующих моделей.
[ad_2]
Источник