8 (812) 903-68-43

Принцип работы переводчика с голоса.

Голосовой перевод для непосвященного человека сегодня все еще выглядит как некая загадка. Сразу возникает много вопросов - так как эта функция является самой востребованной в наше время. Мы расскажем Вам как устроен абсолютно любой голосовой переводчик изнутри.

На первый взгляд все довольно просто - голосовой переводчик слушает вашу речь, и озвучивает перевод на другом языке. Однако, так же как горение бензина превращается в плавное движение автомобиля посредством двигателя, коробки передач и колес, так и этот процесс состоит из подобных компонет. Необходимо сразу отметить, что с именно с плавным движением связан еще один важный элемент - водитель. Ровно то же самое и в голосовом переводе - то, как вы произносите текст, нажимаете на кнопки и даёте "двигателю перевода" "набрать обороты" такой результат вы и получаете.

Итак, из чего же состоит любой голосовой переводчик? Три основные компоненты, которые еще 5-10 лет назад были совершенно независимыми технологиями и разрабатывались самостоятельно, сведены воедино и являются в наши дни основой любого подобного продукта.

  1. распознавание речи (SR - speech recognition) на языке говорящего,
  2. автоматический перевод (MT - machine translation или automatic machine translation, text translation) с языка говорящего на язык слушателя,
  3. озвучивание результата перевода или синтез речи (TTS - text-to-speech synthesis) на языке слушателя.

Ядром системы голосового перевода, центральной компонентой, является автоматическая система перевода, MT, с одного языка на другой. Она работает с текстом, получает "на входе" текст и выдает "на выходе" тоже текст, но на другом языке, который является переводом. Это самая "древняя" технология. Попытки научить машину переводить начались, скорее всего, задолго до вашего рождения. Ещё в 1949 году американский специалист по дешифровке Уоррен Уивер теоретически обосновал принципиальную возможность создания систем машинного перевода. С тех пор появлиось множество разнообразных систем перевода, основанных на различных принципах. Чтобы не перегружать вас деталями отметим только, что в продуктах Тичер и Traveller используется статистическая система перевода.

Система распознавания речи - SR - необходима только для преобразования сказанного голосом в текст. Несмотря на то, что разработка таких систем началась примерно в то же время, что и МТ, высокая вариативность входных (голосовых) данных, с которыми приходилось работать, и, как следствие, невероятно низкое качество распознавания, проявило эту технологию широкой публике значительно позже.

Последняя компонента - синтез речи. С технологической точки зрения, пожалуй, самая "понятная" для реализации технология, имеет на сегодняшний день вполне приличное качество.

Обратите внимание, два языка должна "знать" только компонента MT (перевод текста). Таким образом, голосовой переводчик может быть или "глухим" или "немым". Т.е. или текст придется вводить руками или перевод не будет звучать. Это происходит в силу отсутствия необходимых языковых данных для работы SR или TTS на выбранном языке. Однако, зачастую, при отсутствии TTS такие переводчики по-прежнему продолжают называть голосовыми. С точки зрения двуязыкости компоненты MT тоже не все просто. Как правило, говоря об англо-русском голосовом переводчике, например, подразумевают перевод как с английского на русский, так и с русского на английский. Но если заглянуть совсем немного глубже, то очевидно, что грамматики языков отличаются и способ перевода с русского не годится для перевода с английского и наоборот. Данная проблема решается "в лоб", с помощью большого количества информации на двух языках. На основе такой информации строится статистическая модель, которая используется в переводе. Данный подход принят в продуктах Traveller.

 Таким образом, полноценный двуязычный голосовой переводчик для пары языков "туда и обратно" должен содержать в себе шесть, практически независимых, компонент: SR для пары языков, TTS для пары языков, MT для пары языков в одном направлении и для пары языков в обратном направлении. Причем, если любая из компонент SR и TTS может быть использована в паре с любым другим языком (они распознают и синтезируют речь для одного единственного языка, независимо от пары языков переводчика), то компоненты MT необходимы каждый раз новые.

Обратная связь
Имя
E-Mail
Текст вашего сообщения
Отзыв
Имя
E-Mail
Текст вашего сообщения
Оценка
Количество запросов к БД:9
Время запросов к БД:0.0730 s
Время работы PHP скриптов:0.0792 s
Общее время генерации страницы:0.1522 s
Источник содержимого:cache