🔺Как Yandex Research ускорили генерацию изображений
Новости из мира ИИ за последние дни:
Исследователи из Yandex Research разработали новую модель для генерации изображений под названием Switti. Она работает намного быстрее современных алгоритмов (всего 0,1 секунды на изображение) и при этом не теряет в качестве.
Генерация изображений сейчас активно развивается, и стандартом качества считаются диффузионные модели. Они создают картинки, постепенно добавляя детали, как художник, переходящий от наброска к проработанному рисунку. Однако такие модели довольно медленные.
Исследователи давно искали способы ускорить процесс, и один из вариантов – авторегрессионные модели (AR). Проблема в том, что их подход, когда изображение строится «токен за токеном», раньше давал менее качественные результаты.
Yandex Research предложили новый подход: вместо последовательного добавления токенов AR предсказывает уровни детализации, по сути имитируя процесс диффузии. Благодаря этому подходу модель Switti сочетает скорость AR с качеством диффузионных моделей.
В дополнение к новому алгоритму, разработчики оптимизировали архитектуру. Например, они сократили объём памяти, который используется во время работы модели, без потери качества. В итоге Switti стала быстрой, экономичной и точной.
По оценкам пользователей и метрикам, Switti показывает выдающиеся результаты, обгоняя другие AR-модели и догоняя диффузию по качеству, но в разы быстрее.
Демоверсия на HuggingFace

