Американские исследователи создали нейросетевой алгоритм, способный переносить движения людей между двумя видеороликами, сообщает N+1. Для обучения ему необходимо предоставить записи человека с целевого видео длиной в несколько минут, после чего ему можно дать новое видео, движения из которого алгоритм перенесет на целевой ролик. Статья с описанием разработки опубликована на arXiv.org.

Перенос деталей и стиля между изображениями и видеороликами — одна из областей, в которой наглядно виден прогресс алгоритмов машинного обучения. В частности, широкую известность получил алгоритм пользователя Reddit deepfakes, способный подменять лица на видеороликах. Кроме того, существуют и более совершенные алгоритмы, которые учитывают множество параметров мимики для создания видеозаписей, которые сложно отличить от реальных. Тем не менее, обычно разработчики подобных систем концентрируются на переносе только движений частей лица, а не всего тела.

Группа исследователей из Университета Калифорнии в Беркли под руководством Алексея Эфроса (Alexei Efros) создали алгоритм, который также переносит движения людей между двумя видеороликами, но делает это для всего тела. Разработчики применили не прямой перенос, а перенос через промежуточные модели тела. Они выбрали такой способ по нескольким причинам. Главная из них заключается в том, что достаточно сложно собрать такой набор кадров, чтобы каждое изображение из него в точности отражало движения из исходного видео. Кроме того, даже при полном совпадении расположений частей тела на кадрах могут присутствовать сильные стилистические различия, мешающие переносу, например, разная одежда.