Google Translatotron конвертирует один разговорный язык в другой без текста. Каждый день мы приближаемся к знаменитой и проницательной вавилонской рыбе Дугласа Адамса. Новый исследовательский проект от Google берет устные предложения на одном языке и выводит устные слова на другом, но в отличие от большинства методов перевода, он не использует промежуточный текст, работая исключительно со звуком. Это делает его быстрым, но, что более важно, позволяет ему легче отражать частоту и тон голоса говорящего.
Translatotron, как называется проект, является кульминацией нескольких лет связанной работы, хотя это все еще очень эксперимент. Исследователи Google и другие исследователи в течение многих лет изучали возможность прямого преобразования речи в речь, но лишь недавно эти усилия принесли плоды, которые стоит собрать.
Перевод речи обычно выполняется путем разбивки проблемы на более мелкие последовательные: превращение исходной речи в текст (речь в текст или STT), превращение текста на одном языке в текст на другом (машинный перевод), а затем поворот результирующий текст обратно в речь (text-to-speech или TTS). Это работает довольно хорошо, правда, но не идеально; каждый шаг имеет типы ошибок, которым он подвержен, и они могут составлять друг друга.
Кроме того, это не совсем то, как многоязычные люди переводят в своих собственных головах, как свидетельствует свидетельство об их собственных мыслительных процессах. Как именно это работает, невозможно сказать с уверенностью, но немногие скажут, что они разбивают текст и визуализируют его, переходя на новый язык, а затем читают новый текст. Человеческое познание часто является руководством по продвижению алгоритмов машинного обучения.
С этой целью исследователи начали изучать преобразование спектрограмм, подробных разбивок по частоте звука, речи на одном языке непосредственно в спектрограммы на другом. Этот процесс сильно отличается от трехэтапного и имеет свои слабые стороны, но также имеет свои преимущества.
Одна из них заключается в том, что, несмотря на сложность, это по сути одностадийный процесс, а не многошаговый, что означает, что при условии наличия достаточной вычислительной мощности Translatotron может работать быстрее. Но что более важно для многих, этот процесс позволяет легко сохранить характер исходного голоса, поэтому перевод происходит не роботизированным способом, а с тоном и ритмом исходного предложения.
Естественно, это оказывает огромное влияние на самовыражение, и тот, кто регулярно использует перевод или синтез голоса, поймет, что не только то, что они говорят, но и то, как они это говорят. Трудно переоценить, насколько это важно для обычных пользователей синтетической речи.
Исследователи признают, что точность перевода не так хороша, как у традиционных систем, у которых было больше времени, чтобы отточить свою точность. Но многие из полученных переводов (по крайней мере, частично) довольно хороши, и возможность включать выражения – слишком большое преимущество, чтобы его упустить. В конце команда скромно описывает свою работу как отправную точку, демонстрирующую осуществимость подхода, хотя легко заметить, что это также важный шаг вперед в важной области.
Документ, описывающий новую технику, был опубликован на Arxiv, и вы можете просмотреть образцы речи, от источника до традиционного перевода на Translatotron. Просто имейте в виду, что они не все выбраны по качеству их перевода, но служат скорее примерами того, как система сохраняет выражение при понимании сути.