OpenAI навчила ШІ “слухати й розуміти”: представлено нові голосові моделі для живих розмов і перекладу

Зміст

OpenAI, лідер у сфері штучного інтелекту, здійснила черговий прорив, представивши низку інноваційних голосових функцій для свого Realtime API, що кардинально змінюють уявлення про взаємодію з машинами. Ці новітні розробки, зокрема моделі для живого спілкування, перекладу та транскрипції розмов, обіцяють зробити голосові інтерфейси значно більш природними, інтерактивними та функціональними. Особливу увагу привертає GPT-Realtime-2, модель, створена спеціально для голосових інтерфейсів, яка використовує потужний reasoning-рівень GPT-5. Ця інновація дозволяє їй обробляти складніші запити користувачів, підтримувати розмови набагато природніше та адекватно реагувати на контекст у режимі реального часу, що раніше було викликом для багатьох систем.

Голосові можливості нового покоління

Переклад та транскрипція в реальному часі

OpenAI також презентувала GPT-Realtime-Translate – систему, що забезпечує переклад розмов у реальному часі. Ця функція вражає своєю багатомовністю, підтримуючи понад 70 мов для розпізнавання мовлення та 13 мов для озвучення перекладу, що робить її потужним інструментом для глобальної комунікації. Окрім того, GPT-Realtime-Whisper – це нова система транскрипції мовлення в текст, яка працює безпосередньо під час живої розмови, надаючи миттєвий текстовий запис діалогів. Ці вдосконалення свідчать про прагнення OpenAI перейти від простих відповідей голосових асистентів до комплексних систем, здатних активно слухати, аналізувати, перекладати, транскрибувати та навіть виконувати певні дії в процесі діалогу.

“Ми прагнемо зробити взаємодію з технологіями максимально природною та інтуїтивною, і голосові інтерфейси відіграватимуть у цьому ключову роль,” – зазначають представники OpenAI.

Потенційні сфери застосування

Компанія вважає, що ці нові функції будуть надзвичайно корисними для широкого спектра сервісів, включаючи служби підтримки клієнтів, освітні платформи, медіа-ресурси, організацію заходів та платформи для авторів контенту. Можливість миттєвого перекладу та детальної транскрипції відкриває нові горизонти для міжнародної співпраці та створення доступного контенту.

Безпека та монетизація

Боротьба зі зловживаннями та модель оплати

У OpenAI наголосили на вбудованих механізмах безпеки, спрямованих на боротьбу зі спамом, шахрайством та іншими видами зловживань. Система має можливість автоматично зупиняти розмови, якщо вони порушують встановлені компанією правила щодо шкідливого контенту, що забезпечує безпечне середовище для користувачів. Усі представлені моделі вже доступні через Realtime API. GPT-Realtime-Translate та GPT-Realtime-Whisper монетизуються за погодинною оплатою, тоді як GPT-Realtime-2 розраховується на основі кількості використаних токенів.

Нові можливості для користувачів ChatGPT

Ці інновації відбуваються на тлі інших важливих оновлень від OpenAI. Нещодавно компанія запровадила в ChatGPT функцію “Довірений контакт”, призначену для надання допомоги користувачам у випадках можливого самошкодження. Це свідчить про розширення спектру можливостей штучного інтелекту, який тепер не тільки аналізує та генерує контент, але й може надавати підтримку в критичних ситуаціях.

Очікування від майбутнього

Представлені OpenAI голосові функції значно розширюють потенціал штучного інтелекту у сфері комунікації. Можливість створення більш природних, контекстно-залежних та багатомовних діалогів відкриває двері для численних інновацій у різних галузях, від бізнесу до освіти та персонального використання. Гік-спільнота, зокрема, уважно стежить за розвитком подій, адже технології, що дозволяють машині “слухати” та “розуміти” мову людини, є однією з найзахопливіших сфер сучасного технологічного прогресу.