Технологии распознавания голоса Microsoft впервые справились со своей задачей лучше людей

Специальные нейросети Microsoft для распознавания человеческого голоса справляются с работой ничуть не хуже системы восприятия живых людей. Об этом сообщили партнеры Редмонда из Корнелльского университета.

В заметке на сайте университета рассказывается о сравнительном исследовании, в котором принимали участие профессиональные фонотиписты и компьютерная система распознавания голоса NIST 2000. После подведения итогов стало ясно, что впервые в истории люди при распознавании речи совершили больше ошибок, чем компьютер.

Microsoft посвятила достижению специальный пост в официальном блоге. Компания отмечает, что со временем эффект от этого достижения почувствуют на себе как корпоративные клиенты, так и обычные пользователи. Технологии распознавания голоса Microsoft сделают проще, интереснее и полезнее взаимодействие с Xbox, сервисы мгновенного перевода речи в текста (например, в Skype) и голосового помощника Cortana.

Ранее гендиректор Microsoft Сатья Наделла отмечал, что в будущем общение посредством голоса окажет на компьютерные системы большее влияние, чем графический интерфейс пользователя (GUI).

В 2016 году компания Baidu Research совместно с университетами Вашингтона и Стэнфорда представили программу Deep Speech 2. Она переводит речь в текст в три раза быстрее человека с навыками профессионального наборщика текста.

Большинство самых важных открытий в области распознавания голоса на начальном этапе было сделано благодаря DARPA — научно-исследовательскому подразделению Министерства обороны США. Организация проявляет интерес к этой сфере исследований с 70-х гг прошлого века.