Google запустила перекладач майбутнього: Gemini 3.5 Live Translate підтримує понад 70 мов і 2000 мовних

Google вчора оголосила про Gemini 3.5 Live Translate як про свою новітню модель для перекладу мовлення в реальному часі. Модель може розпізнавати понад 70 мов і генерувати “плавне, природне за звучанням перекладене мовлення”, зберігаючи інтонацію, темп і висоту голосу.

Читайте также: Stellar Blade виходить на Nintendo Switch 2: офіційне оголошення Shift Up


На відміну від систем покрокового перекладу, які “чекають, поки мовець закінчить говорити, перш ніж відповісти”, ця модель безперервно генерує мовлення. Це забезпечує “плавний аудіопотік без незручних пауз” і дозволяє залишатися лише на кілька секунд позаду мовця протягом усієї сесії.

“3.5 Live Translate безперервно генерує мовлення, балансуючи між необхідністю чекати на контекст для покращення якості та потребою перекладати негайно, щоб залишатися синхронізованою з мовцем”, — кажуть у Google.

Gemini 3.5 Live Translate вже починає розгортатися в Google Translate для Android та iOS. Натисніть “Live translate” у нижньому лівому куті під час використання навушників. У застосунку для Android також з’являється новий “режим прослуховування”, який дозволяє чути переклад через телефонний динамік для розмов, коли під рукою немає навушників. Ви можете “просто піднести телефон до вуха так само, як під час звичайного дзвінка”.

“Gemini 3.5 Live Translate також з’явиться в Google Meet. Переклад мовлення у застосунку для відеодзвінків раніше підтримував лише п’ять мов. Підтримка моделлю понад 70 мов відкриває “понад 2000 мовних комбінацій в одній зустрічі, розширюючи попередній стан, коли переклад був можливий лише з англійської та на англійську”. У вебверсії з’явилася нова кнопка в рядку елементів керування, яка дозволяє миттєво запустити переклад мовлення”, — повідомляє 9to5google.

Читайте также: Apple відклала запуск Siri AI в ЄС через “загрози” приватності, але продовжує зберігати дані

Цього місяця функція починає розгортатися в рамках “закритого попереднього перегляду для окремих бізнес-клієнтів Google Workspace”. Ширший запуск запланований на пізніше цього року. Gemini 3.5 Live Translate також доступна в публічному попередньому перегляді для розробників через Gemini Live API та Google AI Studio. Щодо безпеки, увесь згенерований аудіоконтент маркується за допомогою SynthID:


“Цей непомітний водяний знак безпосередньо вплітається в аудіовихід, забезпечуючи можливість виявлення контенту, створеного ШІ, що допомагає запобігати дезінформації”, — додають у Google.

Модель також може стати основою для нових сервісів миттєвого усного перекладу за межами продуктів Google. Завдяки підтримці Gemini Live API розробники вже можуть інтегрувати технологію в багатомовні дзвінки, онлайн-уроки, трансляції та міжнародні конференції. Окремо Google наголошує, що система здатна автоматично визначати мову співрозмовника та зберігати стабільну роботу навіть у шумному середовищі, що робить її придатною для використання в реальних умовах, а не лише в контрольованих сценаріях.

Читайте также: Інсайдери злили перші розмиті фото чипсету Intel Z990 для процесорів Nova Lake-S

Джерело: 9to5google

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *