25 листопада 2016

Нейронная сеть обогнала нас еще и в чтении по губам

Исследователи из Google и Оксфордского университета научили искусственный интеллект читать речь по губам. И это важно.

 

 

Нейронная сеть, разработанная командой подразделения Google DeepMind в сотрудничестве с учеными Оксфордского университета, опередила человека в умении понимать речь по артикуляции. Созданный ими алгоритм верно распознал 46,8% слов. Цифра не выглядит такой уж впечатляющей, если не учитывать то, что результат профессионального чтеца по губам – 12,4%.

 

Искусственный интеллект обучали распознавать человеческую болтовню на шести телешоу – Newsnight, BBC Breakfast, The World Today, Question Time и других, которые выходили в эфир с 2010 по 2015 годы. Всего сети скормили около 5 тыс. часов видео – 118 тыс. предложений. При этом эффективность алгоритмов проверялась уже на новых выпусках передач, из которых сделали случайную выборку в 200 видеофрагментов.

 

Стоит отметить, что несколько недель назад в том же университете Оксфорда показали похожую разработку. Программа под названием LipNet угадала 93,4% слов по губам, но тестирование проводилось со специально записанными фразами, которые четко артикулировали волонтеры, а общая база состояла всего из 51 слов. Новая технология сражалась против 17,5 тыс. слов.

 

При дальнейшем развитии эта разработка может использоваться в самых разных сферах. Например, для помощи людям с нарушениями слуха или чтобы телефоны могли лучше понять голосовое управление в шумных местах.