[ad_1]
Статья команды исследователей искусственного интеллекта из Университета Иннополис и МФТИ — Михаила Рудакова, Александра Безносикова, Ярослава Холодова и Александра Гасникова — «Техники сжатия активаций слоев и градиентов для распределенного обучения моделей ИИ» признана лучшей научной работой на конференции AI Journey.
По словам авторов статьи, для обучения современных моделей искусственного интеллекта (ChatGPT, LLaMA, BLOOM) требуется много вычислительных ресурсов, так как модель может не поместиться в память одного устройства. Обучение происходит распределенно на нескольких серверах, между которыми модель делится последовательно с помощью техники параллелизации. Передача информации между этими устройствами может занимать много времени, поэтому для ускорения процессов обучения применяется сжатие информации. Результаты исследования показывают, с какими параметрами сжатия можно эффективно тренировать и применять эти модели.
«Мы экспериментируем с разными техниками сжатия активаций слоев нейронных сетей и их градиентов: квантизация, сжатие TopK или “жадное” сжатие, добавляем техники компенсации ошибки. Наши результаты показывают особенности применения сжатия во время обучения, дообучения и применения моделей машинного обучения. Мы также обозначаем границы применимости сжатия, для которых качество модели соответствует исходному. С помощью наших экспериментов мы выяснили, что можно сжимать передаваемую информацию в 10 раз практически без потери качества модели», — рассказал Михаил Рудаков, студент первого курса магистратуры Университета Иннополис.
Также авторы статьи обнаружили, что градиенты нейронных сетей более чувствительны к сжатию, чем активации, поэтому нужно уменьшать сжатие для градиентов. Для TopK сжатия важно, если модель обучалась со сжатием, использовать сжатие и на валидации. Использование техники компенсации ошибки исправляет этот недостаток.
Исследователи отмечают, что они одними из первых ставят эксперименты над сжатием информации в задаче распределенного машинного обучения с разделением модели по разным устройствам и исследуют применимость разных техник компенсации ошибки.
Cтатья признана лучшей на конкурсе AI Journey Science, который прошел в рамках международной конференции по искусственному интеллекту AI Journey, организованной «Сбером». За нее команда авторов получила один миллион рублей, также работа будет опубликована в журналах «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Работа поддержана Российским научным фондом (проект No 23-11-00229).
Изображения: Freepik; AI Journey
[ad_2]
Источник