[ad_1]
Когда ChatGPT дебютировал более года назад, пользователи Интернета получили всегда доступного ИИ-помощника, с которым можно общаться и работать. Он выполнял их повседневные задачи: от создания контента на естественном языке (например, эссе) до рассмотрения и анализа сложной информации. В мгновение ока стремительный рост чат-бота привлек внимание всего мира к технологии, лежащей в его основе: серии больших языковых моделей GPT (LLM).
Перенесемся в настоящее время, LLMS-серия GPT и другие-являются движущей силой не только индивидуальных задач, но и массовых бизнес-операций. Предприятия используют коммерческие модели API и предложения с открытым исходным кодом для автоматизации повторяющихся задач и эффективности стимулирования для ключевых функций. Представьте себе, что вы общаетесь с искусственным интеллектом для создания рекламных кампаний для маркетинговых команд или можете ускорить операции поддержки клиентов, предоставляя нужную базу данных в нужное время.
Воздействие было глубоким. Тем не менее, одна область, где роль LLM не обсуждается так много, является современным стеком данных.
LLM меняют стек данных
Данные — это ключ к высокопроизводительным моделям на больших языках. Если эти модели обучены правильно, они могут помочь командам работать с данными — будь то экспериментирование с ними или проведение сложной аналитики.
Фактически, за последний год, по мере роста ChatGPT и конкурирующих инструментов, предприятия, предоставляющие предприятиям инструменты для работы с данными, включили генеративный искусственный интеллект в свои рабочие процессы, чтобы упростить работу своих клиентов. Идея была проста: нажмите на способность языковых моделей, чтобы конечные клиенты не только получили лучший опыт при обработке данных, но также могли сэкономить время и ресурсы — что в конечном итоге поможет им сосредоточиться на других, более насущных задачах.
Первый (и, вероятно, самый важный) сдвиг с LLMS произошел, когда поставщики начали дебютировать с возможностями разговорного запроса — т.е. получает ответы от структурированных данных (подгоняя данные в строки и столбцы), разговаривая с ним. Это устранило необходимость написания сложных запросов SQL (язык структурированных запросов) и предоставило командам, в том числе нетехническим пользователям, простой в использовании интерфейс преобразования текста в SQL, где они могли вводить подсказки на естественном языке и получать ценную информацию от своих пользователей. данные. Используемый LLM преобразовал текст в SQL, а затем выполнил запрос к целевому набору данных для получения ответов.
Хотя многие поставщики запустили эту возможность, наиболее заметными из них стали Databricks, Snowflake, Dremio, Kinetica и ThoughtSpot. Изначально Kinetica использовала для этой задачи ChatGPT, но теперь использует собственный LLM. Между тем, Snowflake предлагает два инструмента. Во-первых, второй пилот, который работает в качестве диалогового помощника, например, задавая вопросы о данных в виде обычного текста, написав SQL-запросы, уточняя запросы и фильтруя информацию. Второй — это инструмент Document AI для извлечения соответствующей информации из неструктурированных наборов данных, таких как изображения и PDF-файлы. Databricks также работает в этой области с помощью так называемого LakehouseIQ.
Примечательно, что в той же области появилось несколько стартапов, ориентированных на область аналитики на основе искусственного интеллекта. Например, калифорнийская компания DataGPT продает компаниям специального аналитика искусственного интеллекта, который выполняет тысячи запросов в молниеносном кэше своего хранилища данных и возвращает результаты в разговорном тоне.
Помощь в управлении данными и усилиях по искусственному интеллекту
Помимо помощи группам генерировать понимание и ответы из их данных с помощью текстовых входов, LLM также традиционно обрабатывают ручное управление данными и усилия по данным, имеющие решающее значение для создания надежного продукта ИИ.
В мае поставщик интеллектуального облака управления данными (IDMC) Informatica представил Claire GPT, инструмент диалогового искусственного интеллекта на основе нескольких LLM, который позволяет пользователям находить, взаимодействовать и управлять своими активами данных IDMC с помощью ввода на естественном языке. Он выполняет несколько задач на платформе IDMC, включая обнаружение данных, создание и редактирование конвейера данных, исследование метаданных, исследование качества данных и взаимосвязей, а также создание правил качества данных.
Затем, чтобы помочь командам создавать предложения ИИ, калифорнийская компания Refuel AI предоставляет специально созданную большую языковую модель, которая помогает решать задачи по маркировке и обогащению данных. В документе, опубликованном в октябре 2023 года, также показано, что LLM могут хорошо справляться с удалением шума из наборов данных, что также является важным шагом в создании надежного ИИ.
Другими областями в разработке данных, где LLMS может вступить в игру, являются интеграция данных и оркестровая. Модели могут по существу генерировать код, необходимый для обоих аспектов, независимо от того, нужно ли конвертировать различные типы данных в общий формат, подключаться к различным источникам данных или запрашивать шаблоны кода YAML или Python для создания DAG Airflow.
Гораздо больше впереди
Прошел всего год с тех пор, как LLM начали набирать обороты, и мы уже видим так много изменений в корпоративной сфере. По мере того, как эти модели улучшаются в 2024 году, и команды продолжают внедрять инновации, мы увидим больше приложений языковых моделей в разных областях стека корпоративных данных, включая постепенно развивающее пространство наблюдения данных.
Монте-Карло, известный поставщик в этой категории, уже запустил Fix with AI, инструмент, который обнаруживает проблемы в конвейере данных и предлагает код для их устранения. Acceldata, еще один игрок в этой сфере, также недавно приобрела Bewgle, чтобы сосредоточиться на интеграции LLM для обеспечения наблюдения за данными.
Однако по мере появления этих приложений для команд станет более важным, чем когда-либо, убедиться, что эти языковые модели, независимо от того, созданы ли они с нуля или настроены точно, работают точно на должном уровне. Небольшая ошибка здесь или там, и вниз по течению может быть затронута результат, что приведет к сломанному каким -либо каким -либо каким -либо каким -либо каким -либо образом.
[ad_2]
Источник