[ad_1]
Присоединяйтесь к нам и вернитесь в Нью-Йорк 5 июня, чтобы сотрудничать с высшими руководителями в изучении комплексных методов аудита моделей ИИ на предмет предвзятости, производительности и соблюдения этических норм в различных организациях. Узнайте, как вы можете принять участие здесь.
За последние 10 лет мир инструментов обработки данных и инфраструктуры резко изменился. Будучи основателем компании, занимающейся инфраструктурой облачных данных, на заре облачных вычислений в 2009 году, а также основателем сообщества встреч для зарождающейся группы разработчиков данных в 2013 году, я нашел место в центре этого сообщества еще до того, как «инженер данных» » было названием должности. Именно здесь я могу поразмышлять об уроках, извлеченных из нашего недавнего прошлого в области инструментов обработки данных, и о том, как они должны направлять развитие новой эры искусственного интеллекта.
В технической антропологии 2013 год был периодом между эрой «больших данных» и эрой «современного стека данных». В эпоху больших данных, как следует из названия, чем больше данных, тем лучше. Предполагалось, что данные содержат аналитические секреты, позволяющие раскрыть новую ценность бизнеса.
Однажды мне, как стратегическому консультанту крупной интернет-компании, было поручено разработать план, позволяющий анализировать потоки данных, поступающих от миллиардов DNS-запросов в день, и найти в этом волшебную идею, которая могла бы стать новым направлением деятельности компании. стоимостью 100 миллионов долларов. Нашли ли мы это понимание? Не за то относительно короткое время (месяцы), которое нам пришлось потратить на проект. Как оказалось, хранить большие данные относительно легко, но для получения важной информации требуется значительная работа.
Но не все это осознавали. Все, что они знали, это то, что вы не сможете играть в аналитическую игру, если ваш центр обработки данных не в порядке. Таким образом, компании всех форм и размеров бросились наращивать свои стеки данных, что вызвало взрывной рост числа инструментов обработки данных, предлагаемых поставщиками, которые предложили это. их Решение было недостающей частью по-настоящему целостного стека данных, который мог бы дать волшебную информацию, которую искал бизнес.
Обратите внимание, что я не отношусь к термину «взрыв» легкомысленно — в недавнем обзоре MAD (машинное обучение, искусственный интеллект и данные) в 2024 году автор Мэтт Терк отмечает, что количество компаний, продающих инструменты и продукты для инфраструктуры данных в 2012 году (год он начал строить свою карту рынка) было 139 скромных компаний. В выпуске этого года их 2011 — в 14,5 раз больше!
Проблема слишком большого количества инструментов
Произошло несколько событий, которые помогли сформировать текущую среду данных. Предприятия начали переносить большую часть своих локальных рабочих нагрузок в облако. Современные поставщики стеков данных предлагали управляемые услуги в виде составных облачных предложений, которые могли предложить клиентам большую надежность, большую гибкость их систем и удобство масштабирования по требованию.
Но по мере того, как компании преодолевали период политики нулевых процентных ставок (ZIRP) и расширяли число поставщиков инструментов обработки данных, на фасаде MDS начали появляться трещины. Проблемы сложности системы (вызванные множеством разрозненных инструментов), проблемы интеграции (множество различных точечных решений, которые должны взаимодействовать друг с другом) и недостаточно используемые облачные сервисы заставили некоторых задуматься о том, будут ли реализованы обещания панацеи MDS.
Многие компании из списка Fortune 500 вложили значительные средства в инфраструктуру данных, не имея четкой стратегии извлечения пользы из этих данных (помните, найти ценную информацию сложно!), что привело к завышенным затратам без пропорциональной ценности. Но было модно собирать разные инструменты — часто можно было услышать сообщения о том, что разные команды в одной компании используют несколько пересекающихся инструментов. Например, в сфере бизнес-аналитики (BI) многие компании установили Tableau, Looker и, возможно, даже третий инструмент, который, по сути, служил той же бизнес-цели, но при этом увеличивал счета в три раза быстрее.
Конечно, такого рода излишества в конечном итоге закончатся тем, что пузырь ZIRP лопнет. Тем не менее, ландшафт MAD не сократился, а продолжает расти. Почему?
Что такое новый «стек ИИ»?
Очевидно, что многие компании, занимающиеся инструментами обработки данных, были настолько хорошо капитализированы во время ZIRP, что смогут продолжать работать в условиях жестких корпоративных бюджетов и снижения рыночного спроса на их услуги. Одна из причин заключается в том, что по количеству логотипов до сих пор не наблюдается большого оттока, вызванного неудачами стартапов или консолидацией.
Но главная причина — появление следующей волны инструментов обработки данных, вызванной бумом интереса к ИИ. Что уникально, так это то, что эта новая волна ИИ набрала обороты еще до того, как завершилась реальная рыночная встряска или консолидация после последней волны (MDS), что привело к появлению еще большего количества новых компаний, занимающихся инструментами обработки данных.
Однако если считать, как я, что «стек ИИ» — это принципиально новая парадигма, то это в некоторой степени понятно. На высоком уровне ИИ управляется огромными объемами неструктурированных данных (представьте себе груды текста, изображений и видео размером с Интернет), в то время как MDS был создан для меньших объемов структурированных данных (представьте себе табличные данные в электронных таблицах или базах данных).
Кроме того, так называемый недетерминированный или «генеративный» характер моделей ИИ полностью отличается от детерминистического подхода, заложенного в более традиционные модели машинного обучения (МО). Эти старые модели часто разрабатывались для прогнозирования результатов на основе ограниченного набора обучающих данных. Но новые генеративные модели ИИ предназначены для синтеза сводных данных или получения аналитической информации — это означает, что их выходные данные могут отличаться при каждом запуске модели, даже если входные данные не изменились. Чтобы доказать это, обратите внимание на разницу, которую вы получите от ChatGPT, если зададите один и тот же вопрос два или более раза.
Поскольку архитектура и выходные данные моделей ИИ принципиально различаются, разработчикам приходится применять новые парадигмы для тестирования и оценки таких ответов в соответствии с первоначальными намерениями пользователя или приложения. Не говоря уже о гарантиях этической безопасности, управления и мониторинга систем ИИ. Некоторые из дополнительных областей нового стека ИИ, которые требуют дальнейшего изучения, — это оркестровка агентов (модели ИИ взаимодействуют с другими моделями); возможности создания более мелких, специально созданных моделей для вертикальных сценариев использования, вносящих изменения в традиционные отрасли, которые слишком дороги и сложны для автоматизации; и инструменты рабочего процесса, которые позволяют собирать и обрабатывать наборы данных для точной настройки, которые предприятия могут использовать для «вставки» своих собственных личных данных для создания индивидуальных моделей.
Все эти и многие другие возможности будут реализованы в рамках нового стека ИИ по мере появления новых платформ для разработчиков. Сотни стартапов уже работают над решением этих задач, создавая, как вы уже догадались, новую партию современных инструментов.
Как на этот раз мы можем строить лучше и умнее?
Когда мы вступаем в новую «эру искусственного интеллекта», я думаю, важно, чтобы мы осознали, откуда мы пришли. на твердом пути обращения со своими данными как с гражданином первого сорта. Но мне остается спросить себя: «Как мы можем избежать излишних инструментов прошлого, продолжая строить будущее ИИ?»
Одно из предложений заключается в том, чтобы предприятия старались внести ясность в отношении конкретной ценности, которую они ожидают от конкретных данных или инструмента искусственного интеллекта для своего бизнеса. Чрезмерное инвестирование в технологические тенденции по неправильным причинам никогда не является хорошей бизнес-стратегией, и хотя ИИ в настоящее время высасывает весь воздух из комнаты — и деньги из корпоративных ИТ-бюджетов и бюджетов программного обеспечения — важно сосредоточиться на развертывании инструментов, которые могут продемонстрировать четкая ценность и фактическая рентабельность инвестиций.
Еще одним призывом было бы к основателям прекратить создавать данные «я тоже» и варианты инструментов искусственного интеллекта. Если на рынке уже есть несколько инструментов, на которые вы планируете выйти, найдите время, чтобы спросить себя: «Являемся ли мы абсолютно лучшей командой основателей с уникальным и дифференцированным опытом, который дает ключевое понимание того, как мы решаем эту проблему? ?» Если ответ не однозначный «да», не пытайтесь создавать этот инструмент — независимо от того, сколько денег готовы вложить в вас венчурные капиталисты.
Наконец, инвесторам рекомендуется тщательно подумать о том, где, скорее всего, будет расти ценность на различных уровнях набора данных и инструментов искусственного интеллекта, прежде чем инвестировать в компании на ранней стадии. Слишком часто я вижу венчурных капиталистов с одним критерием флажка: если основатель инструмента создания инструментов имеет определенную родословную или работает в определенной технологической компании, они немедленно выписывают ему чек. Это лениво, к тому же в результате создается слишком много недифференцированных инструментов обработки данных, заполоняющих рынок. Неудивительно, что нам нужна лупа, чтобы прочитать MAD 2024.
Спикер на недавней конференции предложил предприятиям задаться вопросом: «Какова будет цена для вашего бизнеса, если хотя бы одна строка ваших данных окажется неточной?» Другими словами, можете ли вы установить четкий метод определения структуры количественной оценки ценности данных или инструмента обработки данных в вашем бизнесе?
Если мы не сможем зайти даже так далеко, никакие потраченные бюджетные средства или венчурный капитал, вложенные в данные и инструменты искусственного интеллекта, не решат нашего замешательства.
Пит Содерлинг — основатель и генеральный партнер Zero Prime Ventures.
[ad_2]
Источник