DeepL запустив переклад голосу в реальному часі

Зміст

Компанія DeepL, що здобула визнання завдяки своїм інноваційним інструментам для перекладу текстів, зробила вагомий крок уперед, представивши новий комплекс рішень для голосового перекладу в реальному часі. Ця розробка, яка охоплює широкий спектр сценаріїв – від ділових зустрічей та індивідуальних розмов у мобільних і веб-додатках до багатосторонніх групових обговорень, відкриває нові горизонти для подолання мовних бар’єрів у цифрову епоху. Окрім цього, DeepL запускає програмний інтерфейс (API), що надасть розробникам і підприємствам потужний інструмент для створення власних рішень на базі передових технологій компанії, наприклад, для оптимізації роботи кол-центрів.

Нова ера голосового перекладу від DeepL

Виклики та досягнення

“Після багатьох років наполегливої роботи з текстом, перехід до голосових технологій був цілком логічним наступним кроком,” – зазначив генеральний директор DeepL Ярек Кутиловський. “Ми досягли значного прогресу в галузі текстового та документообігу, проте досі не існувало по-справжньому якісного продукту для голосового перекладу в режимі реального часу.”

Кутиловський також підкреслив, що ключовою складністю у розробці було досягнення оптимального балансу між мінімальною затримкою, тобто часом, що минає від моменту вимови до отримання перекладу, та високою точністю отриманого результату.

Інтеграція та функціональність

DeepL інтегрує свої нові можливості у популярні платформи, такі як Zoom та Microsoft Teams, надаючи користувачам гнучкість вибору: вони можуть отримувати переклад у реальному часі шляхом прослуховування або ж читати його на екрані. Наразі ця функція перебуває на стадії раннього доступу і доступна не у всіх регіонах, враховуючи список очікування.

Технологічна основа та майбутній розвиток

DeepL наголошує на повному контролі над усім процесом голосового перекладу. Поточна система працює за триетапним принципом: мова перетворюється на текст, текст перекладається, а потім перекладений текст синтезується у мовлення. У майбутньому компанія планує розробити повністю голосову модель, яка функціонуватиме без проміжного етапу перетворення на текст. Важливою особливістю технології є її здатність до навчання та адаптації до специфічної лексики, такої як галузеві терміни, назви компаній та власні імена, що забезпечує високу точність перекладу у вузькоспеціалізованих контекстах.

Конкурентне середовище

У динамічній сфері голосового перекладу DeepL доведеться конкурувати з низкою добре фінансованих стартапів, які вже зайняли свою нішу. Зокрема, компанія Sanas, яка минулого року залучила 65 мільйонів доларів від Quadrille Capital і Teleperformance, використовує штучний інтелект для зміни акценту в реальному часі. Дубайська компанія Camb.AI фокусується на синтезі мовлення та перекладі для медіа та розважальних компаній, обслуговуючи таких клієнтів, як Amazon Web Services. Стартап Palabra, який отримав підтримку від фонду Seven Seven Six, заснованого співзасновником Reddit Алексісом Оганяном, розробляє систему перекладу мовлення, що зберігає не лише зміст, а й оригінальний голос спікера, пропонуючи унікальний досвід для користувачів.

DeepL розширює межі можливого у голосових комунікаціях.

Згідно з даними Tech Crunch, новий сервіс DeepL охоплює різноманітні сценарії використання, від ділових зустрічей до групових обговорень. Компанія активно розвиває API для розробників, відкриваючи нові можливості для бізнесу.

CEO DeepL, Ярек Кутиловський, пояснив логіку розвитку компанії: “Голос був логічним наступним кроком після роботи з текстом”. Він також зазначив, що головним викликом було знайти баланс між затримкою та точністю перекладу.

DeepL пропонує додатки для Zoom та Microsoft Teams, де користувачі можуть слухати або читати переклад. Технологія контролює весь процес voice-to-voice перекладу, що включає етапи мова-текст-переклад-синтез мовлення. У майбутньому планується повністю голосовий метод роботи без проміжного текстового етапу. Технологія також може навчатися специфічній лексиці.

У сфері голосового перекладу DeepL конкуруватиме зі стартапами Sanas, Camb.AI та Palabra. Sanas фокусується на зміні акценту в реальному часі, Camb.AI – на синтезі мовлення для медіа, а Palabra – на збереженні оригінального голосу спікера.