[ad_1]
Институт AIRI, в сотрудничестве с Sber AI и Sber Devices, достиг важной вехи в развитии искусственного интеллекта, выпустив и предоставив открытый доступ к обновлённой версии LLM (Large Language Models) – мультимодальной AI-модели OmniFusion 1.1.
Возможности OmniFusion 1.1
OmniFusion 1.1 обладает уникальной способностью воспринимать и анализировать изображения вместе с текстом, отвечать на вопросы по картинкам, описывать детали и интерпретировать визуальную информацию. Более того, модель адаптирована к пониманию и обработке русского языка, что делает её одной из первых подобных систем в России.
Исследования и результаты
Разработка архитектуры включала серию экспериментов, направленных на сравнение и оптимизацию визуальных энкодеров. Результатом стало создание унифицированного визуального энкодера, позволяющего модели работать с изображениями на новом уровне. Качество работы модели было протестировано на ряде известных бенчмарков, таких как MMMU, GQA, POPE и TextVQA. В отдельных задачах OmniFusion 1.1 показала лучшие результаты среди аналогичных моделей объемом 7B и 13B, достигнув лидирующих позиций по ряду показателей среди моделей сопоставимого размера.
Планы на будущее
Создатели модели обещают дальнейшее расширение функционала, добавив обработку аудио, 3D и видеоконтента. Это позволит использовать OmniFusion в ещё более широком спектре задач, включая, возможно, создание и анализ сложного мультимедийного контента.
Ресурсы и документация
Для тех, кто желает углубиться в детали работы OmniFusion 1.1, доступны подробные материалы на ресурсе Habr, а также технический отчёт на платформе Hugging Face, который входит в число самых просматриваемых статей. Исходный код и веса модели предоставлены в открытом доступе на GitHub, что даёт исследователям и разработчикам возможность не только изучать, но и вносить свой вклад в развитие проекта.
OmniFusion 1.1 открывает новые перспективы для мультимодального взаимодействия с искусственным интеллектом. Сочетание текстового и визуального понимания с поддержкой русского языка делает эту модель особенно ценной для различных областей, от медиа и образования до разработки инновационных пользовательских интерфейсов и автоматизации рабочих процессов.
Источник: Технический отчёт на Hugging Face, Статья на Habr, Исходный код на GitHub
[ad_2]
Источник