[ad_1]
Присоединяйтесь к лидерам в Бостоне 27 марта на эксклюзивном вечере общения, идей и бесед. Запросите приглашение здесь.
«Было бы невозможно обучать ведущие сегодня модели ИИ без использования материалов, защищенных авторским правом», — заявила OpenAI в своем заявлении, поданном в Палату лордов Великобритании, которое в начале этого года попало в заголовки новостей в Интернете.
Фактически, этот аргумент лежит в основе публичной и юридической защиты компании ее спорных методов массового сбора данных, используемых для обучения ее моделей искусственного интеллекта, включая модели большого языка GPT-3.5/4 (LLM), которые лежат в основе ее популярного продукта ChatGPT. а также, косвенно, даже с такими конкурентами, как Google, Mistral, Meta, Anthropic и Cohere. Критики утверждают, что OpenAI должна была получить явно выраженное согласие и/или выплатить лицензионные сборы владельцам за использование данных, защищенных авторским правом, но компания заявляет, что ее методы являются справедливым преобразующим использованием и что они работают в соответствии с давними нормами Интернета, где контент был запрещен. в течение многих лет собирался многими другими компаниями для обеспечения индексов поисковых систем и других полезных функций, без массовых жалоб. Борьба продолжается в различных текущих судебных процессах.
Но новая модель бросает вызов этому предположению — по крайней мере, бросает вызов представлению о том, что невозможно создать полезный модель, не полагаясь на данные, защищенные авторским правом.
Новый LLM называется KL3M (Kelvin Legal Large Language Model, произносится как «Клем»), и это работа 273 Ventures, двухлетнего стартапа, соучредителем которого является Дэниел Мартин Кац, профессор права в Институте Иллинойса. технологий и директор по стратегии (CSO) предприятия, а также его «частый сотрудник» Майкл Боммарито, предприниматель в области юридических технологий, который является генеральным директором 273 Ventures. Ранее этот дуэт стал соучредителем LexPredict, более старого юридического стартапа в области искусственного интеллекта, и продал его глобальной юридической компании Elevate.
KL3M был выпущен в конце февраля 2024 года, но сегодня он стал первым LLM, получившим «Сертификат лицензированной модели (L)» от независимой аудиторской компании Fairly Trained, некоммерческой организации, основанной и возглавляемой бывшим руководителем Stability AI Эдом. Ньютон-Рекс в начале этого года. Проводной Журнал, главным редактором которого работает моя жена, первым сообщил об этой новости.
Сертификат Fairly Trained (L) присуждается только тем компаниям, которые могут доказать посредством подачи заявки и процесса проверки, что данные обучения их модели ИИ были получены и использованы в соответствии с «контрактным соглашением со стороной, которая имеет права, необходимые для заключения такого соглашения». или является общественным достоянием/открытой лицензией. За это также взимается плата в размере от 150 долларов США вперед и 500 долларов США в год до 500 долларов США вперед/6000 долларов США в год. Очевидно, что KL3M соответствовал этим требованиям.
«Сегодня мы очень рады сообщить, что модель большого языка Kelvin Legal (KL3M) теперь сертифицирована как достаточно обученная», — написал Кац на странице его аккаунт в социальной сети X. «KL3M — первая компания LLM (в любой категории), получившая такой сертификат».
«Генераторный ИИ может существовать, не используя без разрешения работу, защищенную авторским правом», — написал Fairly Trained в своем блоге, объявляя о сертификации K3LM и четырех других организаций — Voicemod, предлагающего модели речи и пения ИИ, музыкальных компаний Infinite Album и Lemonaide, а также компании, управляемой ИИ. группа Frostbite Orckings.
Как проходило обучение KL3M?
По словам Каца, который сегодня дал короткое телефонное интервью VentureBeat, 273 Ventures с момента своего создания «кропотливо собирает данные, которые не будут проблематичными» из источников, включая выпуски документов правительства США и старые юридические документы — все это находится в открытом доступе.
«Мы не были уверены, что можно сделать такую вещь (обучить модель ИИ) без использования огромных объемов информации, защищенной авторским правом», — сказал Кац. «Мы думали, что, по крайней мере, в определенной сфере можно добиться успеха, особенно в юридической, финансовой и нормативной сферах, где существует достаточно большое количество материалов, на которые не распространяются авторские права».
Кац отметил, что не все эти отрасли предлагают единые документы, являющиеся общественным достоянием, и что это сильно различается в зависимости от страны — например, в Великобритании некоторые правительственные учреждения или агентства могут применять Королевские авторские права на документы и данные, которые они производят.
Большую часть первых месяцев работы 273 Ventures занималась выяснением того, какие документы и данные можно использовать для обучения KL3M, не нарушая авторских прав или даже не рискуя их нарушить. Эти данные в конечном итоге были включены в продукт Kelvin Legal DataPack, который содержит более 150 миллиардов токенов и был выпущен в августе 2023 года.
KL3M, со своей стороны, прошел обучение на «высококачественной, тщательно подобранной английской подгруппе Kelvin Legal DataPack», включая ручную проверку 10 000 документов и «набора данных, содержащего примерно 350 миллиардов токенов». 273 Ventures более подробно описывает свой режим обучения для KL3M здесь.
На данный момент результатом являются две версии KL3M: kl3m-170m со 170 миллионами параметров (атрибуты, которые управляют моделью ИИ) и более крупная kl3m-1.7b с 1,7 миллиардами параметров. Kl3m-170m менее производительен, но может работать на таком маломощном и дешевом оборудовании, как Macbook Air с чипом M1, по сравнению с чипом NVidia RTX 4060 8 ГБ, необходимым для более крупной модели (и многих других конкурирующих LLM).
273 Ventures также готовится выпустить вариант KL3M на 3,7 миллиарда параметров в следующем месяце.
Чем хорош КЛ3М и сколько он стоит?
На веб-странице продукта KL3M рекламируется как полезный инструмент для «составления и проверки записей времени и счетов-фактур, составления и пересмотра условий контракта, составления и пересмотра документов SEC, таких как разделы отчетов 10-K и 8-K, (и) составления очевидных патентов…»
Несмотря на то, что Кац был разработан с учетом интересов юридических фирм и юридической отрасли, где клиенты особенно чувствительны к вопросам происхождения и законности данных, он рассказал VentureBeat, что на самом деле он был шокирован тем, насколько хорошо KL3M обобщает результаты за пределами этого целевого сектора.
«Просто подумайте об этом так: закон затрагивает практически все темы в обществе», — объяснил Кац. «И правительства публикуют много исходных материалов, которые учат вас концепциям и использованию языка… Лично я немного удивлен, но они действительно имеют более широкий охват, чем мы могли бы подумать».
При первоначальном анонсе модели в прошлом месяце компания 273 Ventures подготовила несколько диаграмм для сравнительного анализа и сравнения производительности KL3M с другими моделями этого класса, обнаружив, что версия с 1,7 миллиардами параметров имеет меньшую (и, следовательно, лучшую) степень недоумения или ошибок прогнозирования токенов, чем 10 других моделей. ведущие модели, включая GPT-2 Large и open_llama_3b_v2 — по крайней мере, при написании юридических материалов и записей в Wiki.
Модель KL3M с 1,7 миллиардами параметров также показала гораздо меньшие (и лучшие) показатели по токсичным выходным данным, чем другие небольшие модели в этом классе, включая хваленую Phi-2 от Microsoft.
Прямо сейчас Кац сказал, что эта модель уже используется среди нескольких клиентов юридических фирм, имена которых он отказался назвать по соображениям конфиденциальности.
Стоимость модели также не разглашается, хотя Кац пригласил заинтересованных лиц отправить электронное письмо в компанию 273 Ventures для получения дополнительной информации по адресу hello@273ventures.com.
[ad_2]
Источник