banner

[ad_1]

Во вторник компания Google DeepMind незаметно сообщила о значительном прогрессе в своих исследованиях в области искусственного интеллекта (ИИ), представив новую модель авторегрессии, направленную на улучшение понимания длинных видеовходов.

Новая модель под названием «Mirasol3B» демонстрирует новаторский подход к мультимодальному обучению, более интегрированной и эффективной обработке аудио, видео и текстовых данных.

По словам Исаака Ноубла, инженера-программиста из Google Research, и Анелии Ангеловой, научного сотрудника Google DeepMind, написавших в блоге длинную публикацию об их исследовании, проблема построения мультимодальных моделей заключается в неоднородности модальностей.

«Некоторые из модальностей могут быть хорошо синхронизированы во времени (например, аудио, видео), но не согласованы с текстом», — объясняют они. «Более того, большой объем данных в видео- и аудиосигналах намного больше, чем в тексте, поэтому при объединении их в мультимодальных моделях видео и аудио часто не могут быть использованы полностью и их необходимо непропорционально сжимать. Эта проблема усугубляется при использовании более длинных видеовходов».

Новый подход к мультимодальному обучению

В ответ на эту сложность модель Mirasol3B от Google разделяет мультимодальное моделирование на отдельные целенаправленные авторегрессионные модели, обрабатывающие входные данные в соответствии с характеристиками модальностей.

«Наша модель состоит из авторегрессионного компонента для синхронизированных по времени модальностей (аудио и видео) и отдельного авторегрессионного компонента для модальностей, которые не обязательно выровнены по времени, но все же являются последовательными, например, текстовые вводы, такие как заголовок или описание, Ноубл и Ангелова объясняют.

Это объявление было сделано в то время, когда технологическая индустрия стремится использовать возможности искусственного интеллекта для анализа и понимания огромных объемов данных в различных форматах. Mirasol3B от Google представляет собой значительный шаг вперед в этом начинании, открывая новые возможности для таких приложений, как ответы на вопросы по видео и контроль качества длительного видео.

Кредит: исследование Google

Возможные приложения для YouTube

Одно из возможных применений этой модели, которое может изучить Google, — это использование ее на YouTube, крупнейшей в мире онлайн-видеоплатформе и одном из основных источников дохода компании.

Модель теоретически может быть использована для улучшения пользовательского опыта и вовлеченности путем предоставления большего количества мультимодальных функций и возможностей, таких как создание титров и аннотаций для видео, ответы на вопросы и предоставление обратной связи, создание персонализированных рекомендаций и рекламных объявлений, а также предоставление пользователям возможности создавать и редактировать свои собственные видео, используя мультимодальные входы и выходы.

Например, модель может генерировать подписи и резюме для видео на основе как визуального, так и аудиоконтента, а также позволять пользователям искать и фильтровать видео по ключевым словам, темам или настроениям. Это может улучшить доступность и удобство обнаружения видео, а также помочь пользователям легче и быстрее находить нужный им контент.

Модель также теоретически может использоваться для ответа на вопросы и предоставления обратной связи пользователям на основе видеоконтента, например, для объяснения значения термина, предоставления дополнительной информации или ресурсов или предложения похожих видео или плейлистов.

Неоднозначная реакция сообщества ИИ

Это объявление вызвало большой интерес и волнение в сообществе искусственного интеллекта, а также некоторый скептицизм и критику. Некоторые эксперты похвалили модель за ее универсальность и масштабируемость и выразили надежду на ее потенциальное применение в различных областях.

Например, Лео Троншон, инженер-исследователь МО в Hugging Face, написал в Твиттере: «Очень интересно видеть такие модели, как Mirasol, включающие больше модальностей. Пока еще не так много надежных моделей, использующих одновременно аудио и видео. Было бы очень полезно надеть его на (Обнимающее лицо)».

Гаутам Шарда, студент факультета информатики Университета Айовы, написал в Твиттере: «Похоже, что здесь нет кода, весов модели, обучающих данных или даже API. Почему нет? Мне бы очень хотелось, чтобы они действительно выпустили что-то большее, чем просто исследовательская работа?»

Важная веха в будущем искусственного интеллекта

Это объявление знаменует собой важную веху в области искусственного интеллекта и машинного обучения и демонстрирует амбиции и лидерство Google в разработке передовых технологий, которые могут улучшить и изменить жизнь людей.

Однако это также создает проблемы и возможности для исследователей, разработчиков, регулирующих органов и пользователей ИИ, которым необходимо обеспечить соответствие модели и ее приложений этическим, социальным и экологическим ценностям и стандартам общества.

Поскольку мир становится все более мультимодальным и взаимосвязанным, крайне важно развивать культуру сотрудничества, инноваций и ответственности среди заинтересованных сторон и общественности, а также создавать более инклюзивную и разнообразную экосистему ИИ, которая может принести пользу каждому.



[ad_2]

Источник

banner

Вам может понравиться

Обзор сервисов ИИ

Искусственный интеллект

Daily AI

ИИ в жизни, бизнесе, науке и искусстве.

@2024 All Right Reserved. Designed and Developed by PenciDesign