Розмови з гаджетами: шизофренія або глобальний тренд?
Нещодавно в Лас-Вегасі завершилася виставка електроніки CES 2017, однією з головних тем якої стали голосові помічники. Лайф з'ясував, чому ці асистенти набрали таку популярність і коли мода на спілкування з гаджетами дійде до Росії.
Сім років вся IT-індустрія тільки і говорила, що про Siri. Амбітна команда розробників презентувала найперспективніше додаток того часу - голосового асистента, який умів розмовляти з власником смартфона. За розпізнавання мови відповідала компанія Nuance (найбільша на цьому ринку), а інформація для відповідей часто бралася з WolframAlpha (Сервіс з фантастичним обсягом важливої статистики).
Дизайн Siri був досить примітивним, зате функціональність на той момент вражала. Як і сама ідея - голосове введення інформації в машину це самий "людський" і самий технічно складний спосіб, тобто його реалізація говорить про те, що майбутнє вже тут. Не дивно, що через три місяці після релізу стартап перейшов під крило Apple - за чутками, компанія з Купертіно заплатила за свою частку 200-300 мільйонів доларів. Як з'ясувалося, угода вийшла взаємовигідній. Уже через півтора року Apple анонсувала iPhone 4S (S - Siri) - перший смартфон з голосовим помічником.
У порівнянні з оригінальною версією асистент відчутно подурнішав: на багато питань він відповідав "Я не зрозумів" або "Я не знаю". Причина цього вимушеного даунгрейда - навантаження на сервера. Apple боялася, що надто розумна Siri буде занадто повільною - це відлякало б користувачів навіть сильніше, ніж тупість помічника.
iPhone відразу ж став надпопулярним, і конкуренти зв'язали цей тріумф у тому числі і з Siri. Незабаром Samsung анонсувала асистент під назвою S Voice, а Google навчила смартфони відповідати голосом на репліку "Окей, Google" (аналог - "Привіт, Siri").
У 2014-му для створення власного помічника дозріла і Microsoft. Її Cortana відрізнялася від інших подібних додатків тим, що відразу ж вміла працювати і на комп'ютері. Нарешті, в кінці того ж 2014 го Amazon презентував домашнього асистента по імені Alexa. Цього помічника вбудували в колонку Amazon Echo - спеціальний гаджет, випущений виключно для спілкування з власником і виконання його команд.
Зараз розклад сил в сфері актуальних голосових асистентів виглядає так:
1. Siri - найпопулярніший, але один з найбільш нефункціональних помічників (наприклад, не можна навіть вимкнути LTE). По-перше, його досить довго не покращували (максимум - переклад на інші мови). По-друге, Apple занадто затягла з наданням доступу до Siri для сторонніх додатків. По-третє, Siri - переважно телефонний асистент: програми для Mac все ще не інтегровані. При цьому нерозумно сперечатися з тим, що голосовий секретар від Apple все одно самий практичний. Він може бути дійсно корисним, якщо користувач ретельно підійде до формулювання запитів.
2. Alexa - асистент з самим приємним голосом і самим явним потенціалом. Amazon створила для свого помічника спеціальний магазин додатків, тому функціональність колонки Echo можна постійно розширювати. Наприклад, скачати читалку для соцмережі Twitter (записи будуть вимовлятися вголос), управляти будь-якими елементами розумного будинку або запускати двигун автомобіля. Програм для Alexa вже кілька тисяч, але підтримки російської мови в них немає, тому що Amazon взагалі не працює з нашою країною.
3. Google Voice Search - надбудова над звичайним пошуком, яка вислуховує запити і готує відповіді у вигляді карток. Основна перевага в тому, що відповідь є завжди. Якщо його раптом не виявляється, Voice Search просто показує результати на сторінці пошуковика. Серед конкурентів у цього помічника однозначно краще розпізнавання мови.
4. Cortana - помічник від Microsoft з непоганим розпізнаванням голосу. Головний мінус - асистентом не користуються на смартфонах, тому що смартфонів на Windows фактично не залишилося, а додатки для iOS і Android зі зрозумілих причин залишаються незатребуваними. Російська мова в Cortana теж відсутня.
5. Google Assistant - помічник, який з'явився разом зі смартфонами Pixel. За фактом нічим не відрізняється від стандартного голосового пошуку Google Now, але вміє вести діалоги з власником в стилі Siri. Є невеликий плюс - Assistant вбудований в месенджер Allo у вигляді текстового чату. Втім, цим додатком ніхто не користується, так що користь тут відносна.
6. Google Home Assistant - найбільш просунутий помічник, інтегрований в домашню колонку. Цей сервіс підноситься над усіма іншими за рахунок того, що заснований на технологіях глибинного навчання нейромереж. Відповідно, Home Assistant здатний інтерпретувати пропозиції і правильно реагувати на нестандартні запити. З іншого боку, іноді замість потрібного дії (наприклад, "Включи музику") він раптово активує режим філософа і починає розмовляти з користувачем на високодуховні теми. У Twitch навіть є стрім з двома колонками від Google, які просто спілкуються про все підряд.
7. Viv - нове покоління асистента від розробників Siri, звільнених з Apple. Всю команду вчасно перекупила Samsung, і тепер ці люди працюють над кращим голосовим помічником на ринку. Ймовірно, першу версію ми побачимо вже в Samsung Galaxy S8.
Як можна помітити, всі голосові секретарі відрізняються не тільки по платформах і функціональності, але і за принципом роботи. Більшість (від Siri до Assistant) у відповідь на запит користувача звертаються до величезної бази заготовок. На даний момент це прийнятно, але перспектив у такого рішення мало: нові відповіді додаються вручну, спектр пошуку завжди обмежений. Набагато цікавіше спостерігати за прогресом Google Home Assistant - колонки, яка накопичує досвід і в процесі спілкування вчиться розуміти користувача.
Наприклад, Amazon Echo періодично вплутуватися в безглузді історії з випадково замовленими в Інтернеті речами: людина просто вимовляє назву продукту, а колонка відразу ж оформляє покупку. C помічником від Google таких ситуацій виникати не повинно, тому що він здатний розуміти контекст. Але до того моменту, коли Home Assistant настільки порозумнішає, пройде ще кілька років.
Нинішній же тренд заснований в першу чергу на прогрес технологій розумного будинку і великому виборі додатків для Amazon Alexa. До слова, на CES 2017 повідомили, що тепер цей помічник вбудований в смартфон Huawei Mate 9 . Так китайці підготувалися до впровадження Viv в Galaxy S8. якщо вірити презентації , Новий голосовий асистент стане симбіозом Siri і Home Assistant - у нього в розпорядженні буде і велика база з готовими відповідями, і технологія глибинного навчання.
Незважаючи на популярність мема "Окей, Google" і наявність російської мови в Siri, у нас відверто не прийнято базікати з електронними пристроями. У цій особливості є три пояснення:
1. У Росії в принципі вважається дивним говорити що-небудь в мікрофон телефону, якщо навколо є люди. Щоб позбавити себе від їх настирливих запитань і косих поглядів, простіше зробити потрібну операцію пальцями, а не відкривати рот. До Siri вдаються тільки в крайніх випадках - наприклад, на морозі, коли не хочеться знімати рукавички, але потрібно комусь зателефонувати.
2. Siri ще недостатньо добре розпізнає голос. Зараз рівень точності далекий від 100%. На жаль, одна випадкова помилка геть відбиває бажання користуватися помічником.
3. На російській мові формулювати короткі запити важче, ніж англійською. Відповідно, людині простіше надрукувати запит у вікні пошуку, ніж думати, як поставити запитання Siri, щоб вона зрозуміла і все зробила правильно.
З одного боку, це сумно: поки на Заході освоюють голосове керування, ми понуро тикаємо в екран. Але, з іншого боку, як тільки помічники навчаться повноцінно спілкуватися з користувачем, їх переведуть на всі мови і наша країна не залишиться обділеною.
Процес звикання теж не займе багато часу - вже можна готуватися до того, що протягом 3-5 років розмови зі смартфонами і розумними колонками стануть буденністю.
А поки в Росії більше люблять слухати смартфон, а не говорити з ним. Наприклад, пітерський Центр мовних технологій, який в основному робить продукти для роботи з голосом, призначені для російських і іноземних держструктур, п'ять років тому представив зручне і практичне додаток "Читач". Його основна функція - перетворення будь-якої літератури в аудіокнигу: текстовий файл можна відтворювати з різною швидкістю і різними голосами. При цьому в розробці використовувалися фірмові движки ЦРТ, завдяки яким немає проблем з інтонаційної, смисловий і емоційним забарвленням.