Databricks приобретает Lilac, чтобы повысить качество данных для приложений поколения AI

[ad_1]

Присоединяйтесь к лидерам в Бостоне 27 марта на эксклюзивном вечере общения, идей и бесед. Запросите приглашение здесь.

Сегодня Databricks объявила о приобретении Lilac, бостонского стартапа прикладных исследований, предлагающего инструменты для понимания и манипулирования данными. Условия сделки не разглашаются.

Гигант данных под руководством Али Годси планирует перенести команду и технологии Lilac на свою платформу анализа данных, ранее известную как Data Lakehouse, предоставляя пользователям в разных доменах более простой способ улучшить качество своих наборов данных для разработки качественной модели большого языка. (LLM) приложения.

Эта сделка является последней попыткой Databricks стать универсальным поставщиком не только данных, но и всего, что связано с генеративным искусственным интеллектом. Совсем недавно компания также инвестировала нераскрытую сумму в Mistral, стартап в области генеративного искусственного интеллекта, который в прошлом году собрал крупнейший в Европе посевной раунд и стал сильным игроком в области искусственного интеллекта.

Как Lilac упростит изучение данных

Когда Databricks приобрела Mosaic AI в рамках крупной сделки в прошлом году, компания переключила внимание на будущее, основанное на искусственном интеллекте, где пользователи будут использовать данные, надежно размещенные на ее платформе, для создания генеративных приложений искусственного интеллекта. С тех пор компания осуществила несколько разработок в этой области и даже внедрила несколько открытых моделей, чтобы предоставить клиентам все необходимое для создания, развертывания и поддержки высококачественных приложений на основе больших языковых моделей (LLM), ориентированных на различные сценарии использования в бизнесе.

Однако, как широко распространено мнение в отрасли, данные по-прежнему имеют решающее значение для всех усилий в области искусственного интеллекта, включая системы LLM. Команды должны убедиться, что у них есть высококачественные данные для обучения моделей, а также для тестирования их работы в реальном мире, включая такие аспекты, как предвзятость и галлюцинации. В этом Lilac помогает и справится с Databricks.

Традиционно командам приходилось использовать трудоемкие ручные методы для изучения неструктурированных данных и устранения их пробелов. Компания Lilac, основанная бывшими инженерами Google Дэниелом Смилковым и Нихилом Торатом в 2023 году, решает эту проблему с помощью масштабируемого решения с открытым исходным кодом, которое предлагает интуитивно понятный пользовательский интерфейс и функции на основе искусственного интеллекта для анализа, понимания и изменения неструктурированных текстовых данных в любом масштабе.

Согласно веб-сайту компании, ученые, работающие с данными, и исследователи искусственного интеллекта могут многое сделать с Lilac при обработке неструктурированных данных, начиная от кластеризации и присвоения категорий документам, выполнения семантического поиска и поиска по ключевым словам до обнаружения личной информации или дубликатов и внесения необходимых изменений для их удаления ( со сравнением) и адаптировать набор данных.

«Команда Lilac специально создала свой продукт, чтобы обеспечить анализ результатов модели на предмет предвзятости или токсичности, а также подготовку данных для RAG, а также тонкую настройку или предварительное обучение LLM», — руководители Databricks Матей Захария, Навин Рао, Джонатан Франкл, Ханлин Об этом Тан и Ахил Гупта написали в совместном сообщении в блоге.

Они добавили, что весь технологический стек Lilac будет входить в состав инструментов Databricks Mosaic AI, чтобы дать разработчикам возможность лучше управлять наборами данных для систем искусственного интеллекта специального поколения. Хотя на данном этапе особенности интеграции остаются нераскрытыми, она будет выполнять ту же задачу: упростит адаптацию данных, чтобы командам было легче оценивать и отслеживать результаты своих LLM, а также готовить наборы данных для RAG, тонкую настройку и предварительную подготовку. -обучение.

«Мы считаем, что внедрение интерактивного опыта управления данными Lilac в режиме реального времени на платформу корпоративного масштаба Databricks позволит предприятиям получить гораздо большую прозрачность и контроль над своими неструктурированными данными. Это позволит создавать настраиваемые продукты искусственного интеллекта мирового класса, которые будут служить конечным пользователям. Объединение усилий с Databricks позволит совершенно новому классу корпоративных разработчиков раскрыть потенциал своих данных с помощью генеративного искусственного интеллекта всего за несколько кликов», — написал стартап в отдельной публикации, опубликованной на его веб-сайте.

Амбиции в области комплексных инструментов генеративного искусственного интеллекта

Это приобретение, как упоминалось выше, знаменует собой заметный шаг со стороны Databricks в предоставлении своим клиентам комплексных инструментов для разработки высококачественных приложений искусственного интеллекта с использованием собственных данных. На данный момент у пользователей платформы Databricks есть все необходимое для создания систем на базе LLM.

Сюда входят открытые модели от таких игроков, как Meta, Stability и Mistral, а также специальные инструменты Mosaic для экспериментов с ними, использования их в качестве оптимизированных конечных точек модели или настройки их с помощью собственных данных, размещенных на платформе (адаптация модели Mosaic AI Foundation). конкретный вариант использования.

Snowflake, главный конкурент компании, также движется в том же направлении и представила Cortex, полностью управляемый сервис, помогающий своим клиентам создавать приложения на основе мощных открытых моделей.

[ad_2]

Источник

Databricks приобретает Lilac, чтобы повысить качество данных для приложений поколения AI

Как Lilac упростит изучение данных

Амбиции в области комплексных инструментов генеративного искусственного интеллекта

Тут интересно

Вам может понравиться

Большие ставки откроют реальную ценность генеративного искусственного интеллекта

Nvidia запускает квантовые компьютерные центры на платформе CUDA-Q

Новые правила для внедрения городских роботов предложили в Московском политехе

Вы отстаете в области генеративного искусственного интеллекта?

Откуда мы пришли? Исследование резкого роста интереса к данным и инструментам обработки данных

Cisco переосмысливает кибербезопасность на RSAC 2024 с помощью искусственного интеллекта и прозрачности на уровне ядра

Сэм Альтман опровергает слухи о поисковой системе OpenAI

Последнее партнерство Perplexity направлено на поддержку голосового помощника SoundHound

Голосовые ИИ-агенты навсегда изменят индустрию поддержки клиентов

AI Beat: зачем OpenAI поисковая система?

Invoke AI представляет усовершенствованные функции управления генерацией изображений

Apple Vision Pro, возможно, провалился, но за пространственными вычислениями все еще будущее, говорит Deloitte

Обзор сервисов ИИ

Daily AI

Популярное

Databricks приобретает Lilac, чтобы повысить качество данных для приложений поколения AI

Как Lilac упростит изучение данных

Амбиции в области комплексных инструментов генеративного искусственного интеллекта

Стартуют курсы по искусственному интеллекту в промышленности

Эксперт Московского политеха: Обучение в сфере ИИ и робототехники невозможно без материальной базы

Тут интересно

Вам может понравиться

Обзор сервисов ИИ

Daily AI

Популярное