MSDeveloper - январь 2012
MSDeveloper - январь 2012

Друзья, сегодня вышел первый в этом году номер журнала MSDeveloper.ru. На этот раз мы познакомим вас с программой речевых технологий NDEV Mobile (Nuance Communications). Надеемся, это позволит разработчикам порадовать нас новыми приложениями на основе распознавания и синтеза русской речи.


Программа NDEV Mobile от компании Nuance Communications

Nuance Communications
Nuance Communications

Компания Nuance Communications, Inc. (NASDAQ: NUAN) работает в области голосовых и языковых решений как для корпоративного сектора, так и для обычных потребителей по всему миру. Более подробная информация доступна на сайте компании (www.nuance.com).

5 декабря 2011 года компания Nuance Communications объявила о включении России в программу NDEV Mobile, которая позволяет разработчикам интегрировать речевые технологии в свои приложения на базе Dragon Mobile SDK. С добавлением русского языка пакет Dragon Mobile SDK начал поддерживать распознавание речи на 20 языках и синтез более чем на 30.

Майкл Томпсон
Майкл Томпсон

«Разработчики по всему миру стремятся внедрять речевые технологии в свои приложения, но для этого им необходима гибкая и легко адаптируемая платформа, соответствующая их индивидуальным потребностям, — заявил Майкл Томпсон (Michael Thompson) старший вице-президент и генеральный менеджер подразделения Nuance Mobile. – Этим требованиям полностью отвечает программа NDEV Mobile, отличительной особенностью которой является разнообразие языков, сервисов и предложений (включая возможность свободного распределения). Все это позволяет разработчикам выбрать и применить те мобильные голосовые технологии, которые им необходимы».

Программы участия NDEV Mobile

NDEV Mobile
NDEV Mobile

NDEV Mobile предоставляет 3 уровня партнерства: NDEV Silver, NDEV Gold и NDEV Emerald.

1. NDEV Silver

  • Разработчики приложений получают бесплатную интеграцию распознавания речи.
  • В пакет входит бесплатный доступ к технологии «text-to-speech» (TTS) от Nuance на более чем 30 языках. Текст переводится в речь на серверах компании с помощью «облачной» технологии.
  • Участники программы получают доступ к голосовым технологиям при использовании hands-free гарнитур.
  • Участники имеют доступ к технологии распознавания речи, позволяющей диктовать и осуществлять голосовой поиск.

2. NDEV Gold

  • Программа дает доступ к SSL-шифрованию данных.
  • В дополнение к iOS, Android и Windows Phone 7 пользователи уровня Gold могут внедрять речевые технологии в веб-интерфейсы (HTTP).
  • Разработчикам предоставляется большая гибкость во внедрении продукта.
  • Участники программы получают доступ к аналитическим инструментам.
  • Пользователям оказывается расширенная поддержка.

3. NDEV Emerald

  • Участники программы NDEV Emerald получают доступ к множеству дополнительных настроек и вариантов обслуживания.
  • Членство в программе на уровне «Emerald» подразумевает возможность добавления индивидуальных словарей.
  • Разработчики получают расширенные возможности преобразования текста в речь (TTS).
  • Пользователям оказывается индивидуальная поддержка.

Как стать участником программы и выбрать уровень партнерства?

Чтобы интегрировать в свое мобильное приложение сервисы, входящие в состав NDEV Mobile, разработчик должен зайти на сайт программы сотрудничества и зарегистрироваться. Таким образом разработчик становится участником программы NDEV Silver или NDEV Gold.

Программа NDEV Silver полностью бесплатна, если приложением разработчика пользуются менее 500.000 человек, которые в среднем используют сервисы NDEV менее 20 раз в день. Программа сотрудничества Gold требует минимальных вложений в размере 10.000$ за использование сервиса. При этом цена за одну транзакцию (разовое сообщение клиент-сервер-клиент) стоит 0,009$, или 0,24$ с каждого установленного приложения. Если речь идет о достаточно успешном коммерческом проекте, компания рекомендует использовать программу NDEV Emerald. В отличие от программ Silver и Gold, уровень партнерства Emerald платный (обсуждается индивидуально).

Дополнительную информацию можно найти на сайте www.ndevmobile.com.

Dragon Mobile SDK

Dragon Mobile SDK
Dragon Mobile SDK

После регистрации на электронный адрес разработчика присылается инструментарий Dragon Mobile SDK. Этот пакет включает в себя код под требуемые платформы (iOS, Android, Windows Phone 7, WEB-интерфейс), который встраивается в приложение «как есть» и не требует сколько-нибудь значительной настройки. Также в комплекте разработчика идет вся необходимая документация, а также инструкция по внедрению кода в приложение с примерами. Объем пакета составляет всего несколько сотен килобайт.

Диаграмма взаимодействие клиента и сервера на верхнем уровне

Код включает в себя компоненты клиента и сервера. Это автоматически означает, что для успешной работы внедренных сервисов требуется доступ к мобильному интернету. Девайс пользователя выполняет функции записывающего устройства, передатчика и воспроизводителя, в то время как сам аудио файл (или текстовый файл в случае с сервисом text-to-speech) будет обрабатываться на серверах Nuance. Результат отправляется обратно на телефон.

Разработчик может выбрать один из 3 сервисов на выбор:

  • Dictation — диктовка текста, моментально выводящегося в соответствующем окне/диалоге. Этот сервис обычно используется в контексте более длинных фраз, например, для написания электронных писем, текстовых сообщений или обновления персональных страниц социальных сетей;
  • Search — сервис ориентирован на более сжатые словесные конструкции, служащие критерием для поиска в Интернете музыки или нужного слова в электронном словаре;
  • Речевой синтез — Text-to-Speech, сервис позволяет синтезировать речь из введенного текста.

Опционально в SDK могут быть добавлены специальные языковые и акустические модули, оптимизированные под конкретную среду или терминологию. Это требуется при внедрении кода в специализированные приложения (например, для рынка услуг здравоохранения) или при использовании продукта в особых условиях (например, при наличии повышенных шумов).

Архитектура фреймворка Speech Kit
Архитектура фреймворка Speech Kit

Комплект Dragon Mobile SDK, помимо примеров кода, шаблонов проектов и документации, содержит фреймворк Speech Kit, который упрощает интеграцию речевых сервисов. Фреймворк также обеспечивает доступ к компонентам обработки речи, находящимся на сервере, через асинхронные «чистые» сетевые API, сводя к минимуму накладные расходы и потребляемые ресурсы. Speech Kit является полнофункциональным высокоуровневым фреймворком, который автоматически управляет всеми низкоуровневыми сервисами.

На прикладном уровне разработчику доступны два основных сервиса: распознавание и синтез речи из текста.

Фреймворк выполняет несколько согласованных процессов:

  • осуществляет полное управление аудио системой для записи и воспроизведения;
  • сетевой компонент управляет подключениями к серверу и автоматически восстанавливает соединения с истекшим временем ожидания при каждом новом запросе;
  • детектор окончания речи определяет, когда пользователь закончил говорить, и при необходимости автоматически останавливает запись;
  • кодирующий компонент сжимает и распаковывает потоковую аудиозапись, снижая требования к полосе пропускания и уменьшая среднее время задержки.

Система серверов отвечает за большинство операций, входящих в цикл обработки речи. Процесс распознавания или синтеза речи выполняется целиком на сервере, обрабатывая или синтезируя аудио-поток. Кроме того, сервер осуществляет аутентификацию в соответствии с конфигурацией разработчика.

Диаграмма процесса распознавания речи
Диаграмма процесса распознавания речи

Технология распознавания позволяет пользователям диктовать вместо того, чтобы печатать там, где обычно требуется ввод текста. Распознаватель речи выдает список текстовых результатов. Он никак не привязан к какому-либо объекту пользовательского интерфейса (UI), поэтому отбор наиболее подходящего результата и выборка альтернативных результатов остается на усмотрение пользовательского интерфейса каждого приложения.

Диаграмма процесса синтеза речи
Диаграмма процесса синтеза речи

Синтез речи является сетевым сервисом. В состав Speech Kit входит класс, который предоставляет разработчикам интерфейс. Синтезированная речь не будет воспроизведена моментально. Скорее всего будет иметь место небольшая по времени задержка, во время которой на речевой сервис отправляется и перенаправляется обратно запрос.

Заключение

С помощью технологий синтеза и распознавания речи разработчики имеют возможность создавать новые интересные приложения. Сразу же на ум приходят программы для хранения заметок или To-Do списков. Также с помощью распознавания речи можно организовать голосовое управление, например, в играх. На данный момент компания Nuance Communications является единственной, предоставляющей разработчикам доступ к речевым технологиям на русском языке для Windows Phone. Однако в начале декабря 2011 года стало известно о проекте по улучшению функции распознавания голоса для Windows Phone 7, который реализует российское подразделение Microsoft.

Система Orphus