[ad_1]
Treeverse, создатели системы контроля версий данных LakeFS с открытым исходным кодом, сегодня объявили о выпуске LakeFS 1.0. Это крупное обновление обеспечивает стабильность, безопасность и производительность программного обеспечения для управления версиями озера данных на рабочем уровне.
Проект LakeFS стартовал еще в 2020 году и с тех пор постоянно совершенствуется, предоставляя технологию с открытым исходным кодом, помогающую организациям контролировать версии данных на основе объектного хранилища, хранящихся в озерах данных.
Treeverse, ведущая компания, разработавшая эту технологию, еще в 2021 году привлекла 23 миллиона долларов на разработку концепции, которая предоставляет озерам данных возможности, аналогичные системе контроля версий Git с открытым исходным кодом. В 2022 году эта технология получила облачный сервис: Treeverse запустила облачное предложение LakeFS, обеспечивающее управляемый контроль версий данных облачного сервиса. По данным Treeverse, подход LakeFS нашел восприимчивую аудиторию, среди пользователей этой технологии крупные предприятия, включая Lockheed Martin, Volvo и Arm.
Технология LakeFS 1.0 теперь также может интегрироваться с другими технологиями озера данных, включая Databricks, а также с технологией с открытым исходным кодом Apache Iceberg, которая все больше широко применяется поставщиками облачных данных, включая Cloudera и Snowflake среди других.
«У нас есть большая база установок и действительно продукт, который отражает то, что нужно людям для контроля версий данных в озере данных», — рассказал VentureBeat в эксклюзивном интервью Эйнат Орр, соучредитель и генеральный директор Treeverse.
Что контроль версий данных LakeFS принесет на рынок озер данных
Контроль версий данных позволяет пользователям отслеживать изменения данных с течением времени, подобно тому, как системы контроля версий, такие как Git, отслеживают изменения в коде.
В системе контроля версий Git с открытым исходным кодом, которая лежит в основе GitHub и большей части современной разработки приложений, существует концепция возможности иметь разные версии кода и разные ветки. Это чрезвычайно популярный подход к разработке, который LakeFS распространил на мир данных, хранящихся в озерах данных.
Идея управления версиями при развертывании озера данных имеет множество нюансов, поскольку различные поставщики и технологии имеют разную степень возможностей управления версиями. Орр отметил, что, хотя другие технологии, включая Databricks и Apache Iceberg, могут позволять создавать версии таблиц или схем, это отличается от системы полного контроля версий данных.
Орр объяснил, что LakeFS обеспечивает полный контроль версий для всего озера данных организации, а не только для отдельных таблиц или схем. Это позволяет одновременно управлять версиями целых конвейеров данных и рабочих процессов. Технология LakeFS хранит метаданные о каждой версии и изменениях, важные для воспроизводимости и интеграции.
Treeverse не обязательно позиционирует LakeFS как конкурента таким технологиям, как Databricks или Apache Iceberg, а скорее как дополнительную технологию, предоставляющую пользователям дополнительные преимущества. Орр также отметил, что LakeFS интегрируется с инструментами оркестрации данных, включая Apache Airflow, Prefect и Dagster, обеспечивая возможность контроля версий данных в рабочем процессе конвейера данных.
Пересечение LakeFS и AI
Существует ряд различных вариантов использования технологии LakeFS для анализа данных и искусственного интеллекта.
Говоря об искусственном интеллекте и машинном обучении (МО), Орр сказал, что одним из интересных вариантов использования является то, что ученые, работающие с данными, могут использовать LakeFS для локального управления версиями данных в целях разработки и тестирования моделей с помощью новой локальной возможности LakeFS.
Орр объяснил, что специалисты по данным и разработчики моделей AI/ML часто имеют дело с большим количеством данных. Тем не менее, она отметила, что для тестирования и разработки разработчики иногда будут проводить исследования в своих собственных локальных системах, и именно это помогают новые возможности LakeFS.
Заглядывая в будущее, Орр сказала, что ее компания находится на ранних стадиях выяснения того, как интегрировать и обеспечить возможность контроля версий данных для технологий векторных баз данных.
«Наша цель — стать инструментом контроля версий, который будет работать со всеми вашими источниками данных и предоставлять вам возможность контролировать версии ваших конвейеров данных, независимо от того, где находятся данные», — сказала она.
[ad_2]
Источник