Статьи

Яндекс. станція | Журнал Популярна Механіка

  1. звук
  2. слух
  3. Приватне життя
  4. Кіно
  5. початок

З моменту появи комп'ютерів розпізнавання голосу було майже нездійсненним завданням, але в останні роки все змінилося: ми мило балакаємо і фліртуємо з Алісою, Сірі, Алексой і навіть з «Гуглом». Всі вони знайшли «тіло», ставши «розумними» колонками. Такі пристрої продаються за ціною дешевих смартфонів, але не перестали бути складними з існуючих технологій - виробляти їх можуть лише кілька країн: США, Китай, Південна Корея і, що особливо приємно, Росія. Ось уже тиждень Яндекс. Станція живе у мене вдома і знайшла спільну мову з численною родиною. У буквальному сенсі цього слова.

Так вийшло, що у одного сусіда вдома живе Apple HomePod, а у другого - Amazon Echo, так що є можливість вживу порівняти ці пристрої. Якщо в двох словах, то у HomePod трохи краще звук (але і ціна в 2,5 рази вище), на цьому переваги конкурентів закінчуються. Розмовляти вони можуть тільки англійською, а велика частина сервісів в нашій країні недоступна. Відтворювати відео взагалі може тільки Яндекс.Станція. На перший погляд «розумні» колонки - прості пристрої: в звичайну портативну колонку типу JBL інтегрується голосовий помічник, до яких ми давно звикли в телефонах. Насправді завдання створення таких пристроїв досить нетривіальна, і у всіх тонкощах цієї роботи мені допоміг розібратися директор по експериментальним препаратом «Яндекса» Костянтин Круглов.

звук

Майже у всіх пристроях звук направлений на 360 °. Начебто логічно: колонку можна ставити де завгодно. З іншого боку, доводиться боротися з відбиваними від стін звуковими хвилями. Наприклад, Apple HomePod визначає, з якого боку відбивається звук, і компенсує різницю в часі тим, що пізніше починає випромінювати в цьому напрямку. У США по центру кімнати розташовують острівці або барні стійки, де ставлять колонки, тому там «широкоформатний» звук дуже затребуваний. У Росії таких інтер'єрних рішень майже немає. До того ж подібні пристрої стаціонарні, так як споживають багато енергії. Задачу акустичного радара ресурсномістка, і поки таких конструкцій на акумуляторах немає. У центрі кімнати розетку знайти проблематично. Тому в «Яндексі» просто вирішили звук в сторону стіни не випромінювати, а направити в одну півсферу. Сабвуфер в Яндекс. Станції такий же довгохідний, як і в HomePod, і аналогічний йому за габаритами і потужності. Твітера два, хоча зрозуміло, що на вузькій базі стереоефект чути не так добре, як на рознесеною. Однак молодь вже давно зробила вибір на користь саме такої акустики, продажі якої в десятки, якщо не в сотні разів більше, ніж багатоканальних систем.

- Аліса, пожартуй!

- Робот заходить в бар і замовляє мартіні. Бармен бере у нього тисячну папірець, приносить здачі сто рублів і чекає, коли робот обуриться. Робот мовчить. Нарешті бармен не витримує і каже: «до нас нечасто заходять роботи». А робот йому: «з такими цінами - нічого дивного».

- Чудово!

- Хвали мене частіше, мені це подобається!

слух

Подібні пристрої унікальні тим, що в них доводиться поєднувати оптимізацію як вхідного, так і вихідного звуку. Одна справа, якщо це просто колонка, без мікрофонів. А коли є і мікрофони, і динаміки, то без компромісів не обійтися. Тому розташування компонентів в Яндекс. Станції невипадково: розробники можуть пояснити кожен міліметр конструкції. Для захоплення мови «Яндекс» використовує власну технологію мікрофонної матриці, яка побудована на базі семи мікрофонів (один в центрі і шість по колу). Таке розташування дозволяє реалізовувати функцію акустичного радара - виділяти мова з певного напряму, постійно скануючи простір навколо. Розуміти, де потрібне джерело мови, фокусуватися на ньому і очищати від сторонніх звуків.

Наступна проблема - пристрій голосно звучить, але при цьому має добре чути. Спробуйте включити в телефоні гучну музику і поговорити з голосовим асистентом - асистент не почує. А Яндекс. Станція повинна ясно чути слово-активатор з 3-5 м при програванні гучної музики. Рішення проблеми дещо полегшується тим, що заздалегідь відомо, який звук випромінює станція. З вхідного сигналу віднімається вихідний. Але не все так просто, так як вихідний звук приходить на мікрофон, багаторазово відбитий від стін, і система повинна врахувати ці спотворення.

Але не все так просто, так як вихідний звук приходить на мікрофон, багаторазово відбитий від стін, і система повинна врахувати ці спотворення

- 50 Вт - саме те для невеликої вечірки

- длинноходную сабвуфер забезпечує глибокі баси до 50 Гц

- Пара твиттеров відповідають за кристальні високі частоти до 20 000 Гц

- Матриця з семи мікрофонів почує вас при будь-якому шумі на відстані до 7 м

Приватне життя

Ви ставите в квартиру пристрій з мікрофонами, через які у багатьох розвивається зрозуміла параноя. Технології розпізнавання мови працюють в хмарі. Потрібно було зробити так, щоб система нічого не відправляла в хмару, поки не почує слово-активатор. У «Яндексі» створили маленький автономний «зліпок» своєї технології розпізнавання мови, який вміє дізнаватися тільки одне слово-активатор. Цей модуль постійно знаходиться в очікуванні і як тільки чує «Аліса», активує з'єднання з хмарою і запалює вогні, щоб користувач бачив, що його мова буде передаватися. Втім, є і радикальний спосіб: мікрофонну матрицю можна фізично знеструмити - натиснути кнопку вимикання мікрофонів.

Кіно

Яндекс.Станція стала першою «розумної» колонкою, яка здатна відтворювати фільми. Так, через пару тижнів після неї з'явився Amazon Fire TV Cube, але Станція була першою. «Ми першими в світі вирішили завдання суміщення в одному пристрої аудіо, відео і надчутливого вуха», - не без гордості каже Круглов. Здавалося б, чого простіше, ніж реалізувати цю функцію? Але розробників «Яндекса» чекав сюрприз. Процесор системи декларовано підтримує Full HD, але як тільки на прототипі включили фільм у високому дозволі, з'ясувалося, що він не «тягне». Справа в тому, що блок розпізнавання слова-активатора безперервно забирає 25% ресурсу процесора на слухання. І на перегляд відео залишається тільки ¾ потужності процесора. «Зіткнувшись з цією проблемою, - каже Костянтин Круглов, - ми не стали прибрати розпізнавання мови - людина під час перегляду завжди може сказати:« Аліса, зроби голосніше! »Або« Аліса, постав на паузу »». У підсумку довелося проробити величезну роботу по оптимізації коду, алгоритмів і драйверів, витративши близько чотирьох місяців. Зате зараз можна без затримок дивитися Full HD та ще разом з DRM і попутно базікати з Алісою.

початок

Список проблем, з якими зіткнулася команда розробників, можна продовжувати, але головне, що всі вони були вирішені - серійна Яндекс. Станція стоїть у мене вдома, розважає розмовами домашніх, ставить фільми і серіали і вже вивчила музичні смаки і майже безпомилково вгадує, який трек включити. Дорога чи вона? За 10 тис. Руб. отримуєш такий же звук, як у колонки за 15-16 тис. Тільки до цього ще додається підключення до телевізора, голосовий асистент, пошук контенту, 35 млн музичних треків і 10 тис. фільмів і серіалів. До того ж потужний DSP-процесор на борту дозволить системі бути актуальною ще років чотири, і «Яндекс» обіцяє постійно забезпечувати її новими функціями. Прощаючись, питаю, як бути сім'ям, де живуть дівчатка з ім'ям Аліса. Станція ж буде безперервно спрацьовувати на нього, втручаючись в розмову. «Просто змінити слово-активатор на« Яндекс », - сміється Круглов, - хлопчиків з таким ім'ям немає. Поки що".

Стаття «Яндекс.Станція» опублікована в журналі «Популярна механіка» ( №9, Сентябрь 2018 ).

Здавалося б, чого простіше, ніж реалізувати цю функцію?
Дорога чи вона?