[ad_1]
Присоединяйтесь к лидерам в Бостоне 27 марта на эксклюзивном вечере общения, идей и бесед. Запросите приглашение здесь.
Для технического директора OpenAI Миры Мурати вчерашнее эксклюзивное интервью Wall Street Journal с личным техническим обозревателем Джоанной Стерн показалось сенсацией. Ролики модели преобразования текста в видео OpenAI Sora, которая была продемонстрирована в демо-версии в прошлом месяце и, по словам Мурати, могут стать общедоступными через несколько месяцев, были «достаточно хороши, чтобы напугать нас», но в то же время достаточно очаровательны или безобидны, чтобы заставить нам улыбнуться. Тот слон в посудной лавке, который ничего не сломал! Оууу.
Но интервью зашло в тупик и резко обострилось примерно в 4:24, когда Стерн спросил Мурати, какие данные использовались для обучения Соры. Ответ Мурати: «Мы использовали общедоступные и лицензированные данные». Но хотя позже она подтвердила, что OpenAI использовала контент Shutterstock (в рамках шестилетнего соглашения об обучении, объявленного в июле 2023 года), она боролась с резкими вопросами Стерна о том, обучался ли Сора на видео на YouTube, Facebook или Instagram.
«Я не буду вдаваться в подробности данных»
Когда ее спросили о YouTube, Мурати сморщила лицо и сказала: «На самом деле я в этом не уверена». Что касается Facebook и Instagram? Сначала она бессвязно говорила, что если бы видео были общедоступны, то они «могли бы быть», но она «не уверена, не уверена» в этом, и в конце концов закрыла их, сказав: «Я просто не собираюсь вдаваться в подробности». подробную информацию об использованных данных, но это были общедоступные или лицензированные данные».
Я почти уверен, что многие специалисты по связям с общественностью не считали это интервью пиар-шедевром. И в любом случае не было никаких шансов, что Мурати предоставил бы подробности — по крайней мере, учитывая судебные иски, связанные с авторскими правами, включая самый крупный, поданный New York Times, против OpenAI прямо сейчас.
Но независимо от того, верите ли вы, что OpenAI использовала видео с YouTube для обучения Соры (имейте в виду, в июне 2023 года The Information сообщила, что OpenAI «тайно использовала данные с сайта для обучения некоторых своих моделей искусственного интеллекта»), для многих дело в том, что действительно дьявол является в деталях данных. Битвы за авторские права на генеративный ИИ назревают уже больше года, и многие заинтересованные стороны, от авторов, фотографов и художников до юристов, политиков, регулирующих органов и корпоративных компаний, хотят знать, какие данные использовали Сора и другие модели, и проверить, действительно ли они были публично опубликованы. доступны, имеют соответствующую лицензию и т. д.
Это не просто проблема OpenAI.
Вопрос обучающих данных – это не просто вопрос авторских прав. Это также вопрос доверия и прозрачности. Если OpenAI действительно обучался на YouTube или других видео, которые были «общедоступными», например, — что это значит, если «общественность» этого не знала? И даже если бы это было разрешено законом, понимает ли общественность?
Это проблема не только OpenAI. Какая компания определенно используют общедоступные видеоролики YouTube для обучения своих видеомоделей? Наверняка Google, которому принадлежит YouTube. И что за компания определенно использовать общедоступные изображения и видео в Facebook и Instagram для обучения своих моделей? Meta, владеющая Facebook и Instagram, подтвердила, что делает именно это. Опять же — возможно, совершенно законно. Но когда соглашения об Условиях обслуживания незаметно меняются (о чем недавно предупреждала Федеральная торговая комиссия), действительно ли общественность осознает это?
Наконец, это проблема не только ведущих компаний, занимающихся искусственным интеллектом, и их закрытых моделей. Проблема обучающих данных — это основополагающая проблема генеративного ИИ, которая, как я сказал, в августе 2023 года может столкнуться с расплатой — не только в судах США, но и в суде общественного мнения.
Как я сказал в этой статье, «до недавнего времени мало кто за пределами сообщества искусственного интеллекта серьезно задумывался о том, как сотни наборов данных позволяют LLM обрабатывать огромные объемы данных и генерировать выходные данные в виде текста или изображений — практика, которая, возможно, началась с выпуском ImageNet в 2009 году Фей-Фей Ли, доцентом Принстонского университета, — повлияет на многих из тех, чья творческая работа была включена в наборы данных».
Коммерческое будущее человеческих данных
Сбор данных, конечно, имеет долгую историю — в основном для маркетинга и рекламы. Это всегда было, по крайней мере теоретически, своего рода компромиссом (хотя очевидно, что брокеры данных и онлайн-платформы превратили это во взрывоопасный для конфиденциальности бизнес стоимостью в миллионы долларов). Вы передаете компании свои данные и взамен получаете более персонализированную рекламу, лучшее качество обслуживания клиентов и т. д. Вы не платите за Facebook, но взамен вы делитесь своими данными, а маркетологи могут показывать рекламу в вашей ленте.
Просто не существует такого же прямого обмена, даже теоретически, когда речь идет о данных обучения генеративного ИИ для крупных моделей, которые не предоставляются добровольно. На самом деле, многие считают, что это полярная противоположность: генеративные модели искусственного интеллекта «украли» их работу, угрожают их работе или мало что примечательны, кроме дипфейков и контента».помои.’
Многие эксперты объяснили мне, что есть очень важное место для тщательно подобранных и документированных наборов обучающих данных, которые делают модели лучше, и многие из этих людей считают, что массивные массивы общедоступных данных — это честная игра, но обычно это предназначено для исследовательских целях, поскольку исследователи работают над тем, чтобы понять, как модели работают в экосистеме, которая становится все более закрытой и секретной.
Но по мере того, как они станут более осведомленными в этом вопросе, примет ли общественность тот факт, что видеоролики, которые они публикуют на YouTube, ролики в Instagram, которыми они делятся, посты в Facebook, помеченные как «публичные», уже используются для обучения коммерческих моделей, приносящих большой доход крупным технологическим компаниям. ? Будет ли магия Соры значительно уменьшена, если они узнают, что модель обучалась на видеороликах Губки Боба и миллиарде общедоступных клипов с вечеринок по случаю дня рождения?
Возможно, нет. Возможно, со временем все это станет менее неприятным. Возможно, OpenAI и другие не особо заботятся об «общественном» мнении, поскольку они стремятся достичь того, что, по их мнению, представляет собой «AGI». Возможно, речь идет больше о том, чтобы завоевать расположение разработчиков и корпоративных компаний, которые используют свои непотребительские возможности. Возможно, они верят — и, возможно, они правы — что потребители уже давно замахнулись на вопросы подлинной конфиденциальности данных.
Но дьявол кроется в деталях данных. Такие компании, как OpenAI, Google и Meta, могут иметь преимущество в краткосрочной перспективе, но в долгосрочной перспективе мне интересно, могут ли сегодняшние проблемы, связанные с данными обучения ИИ, оказаться выгодной сделкой.
[ad_2]
Источник