Российские специалисты научили смартфон читать по губам

Понимать русскую речь по движениям губ человека обучили искусственный интеллект сотрудники Санкт-Петербургского федерального исследовательского центра РАН, сообщили в Минобрнауки, пишет газета «Известия».

Программу можно установить на любой смартфон с видеокамерой. Это первая нейросеть в мире, способная понимать таким способом русский язык.

Разработку придумали, чтобы сделать возможным использование электронных голосовых ассистентов в условиях шума. Теперь их помощью смогут воспользоваться водители грузовых автомобилей, пилоты и другие профессионалы, работа которых связана с оборудованием, издающим громкие звуки.

«Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях», — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Материалом для нейросети стали видео со звуком, где человек произносит определенные слова. Так компьютер научился понимать самые обыденные и часто используемые команды.

Качество работы системы уже успешно испытали в условиях реальной работы водители грузовых машин российских транспортных компаний. Для этого приложение установили на их телефоны. Оказалось, что по картинке слова распознаются с точность 60–80 %, а вместе со звуком этот показатель вырос до 90 %.

Подписывайтесь на канал ПАИ в MAХ
Версия для печати







Рейтинг@Mail.ru
Идет загрузка...