Google DeepMind спільно з Оксфордським університетом представили систему, яка майже на 35% обійшла результат професійного зчитувача по губах.
Навчання системи проводилося на телепрограмах каналів Newsnight, BBC Breakfast and Question Time, що виходили в ефір з січня 2010 по грудень 2015 року. Обсяг даних включав в себе 5 тис. годин і 118 тис. пропозицій.
Для підтвердження ефективності розробки її творці провели порівняльний тест, запросивши в якості опонента фахівця з читання по губах.
Для експерименту “читці” отримали випадковий набір в 200 відео з масиву, який використовувався при тестуванні. Людина зумів без помилок розпізнати 12,4% слів, система – 46,8%.
Основною проблемою, з якою зіткнулися дослідники при навчанні системи, стало те, що аудіо і відео на деяких використовуваних кліпах відставали один від одного майже на секунду, що заважало штучній системі правильно вибудувати асоціативні зв’язки.
Завдяки тому що в більшості обраних кліпів не було проблем із синхронізацією, система самостійно визначила затримку в проблемних роликах і успішно впоралася із завданням.
ipress.ua