Распознавание речи на устройстве в 2022 году

2022 год стал лучшим годом для распознавания речи на устройствах, учитывая масштабы и частоту объявлений.

Google анонсировала Google Cloud Speech On-Device 20 октября. Open AI — создатель знаменитых DALL-E и ChatGPT представил Whisper в сентябре. Apple добавила живые субтитры на устройстве в рамках своих инициатив по обеспечению доступности и конфиденциальности в мае. В марте Microsoft завершила приобретение Nuance за 20 миллиардов долларов. В Picovoice мы добавили модели преобразования речи в текст объемом 20 МБ, которые работают где угодно в наше портфолио голосовых приложений на устройствах. В январе Amazon поделился тем, как обработка речи на устройстве делает Alexa быстрее.

Почему распознавание речи на устройстве?

Обработка голосовых данных на устройстве (т. е. пограничный голосовой ИИ) имеет преимущества перед облаком. Облачные вычисления являются дорогостоящими в масштабе, сопряжены с рисками для безопасности и конфиденциальности и имеют значительный углеродный след. Перенос обработки на устройство вместо отправки данных в облако дает контроль предприятиям и пользователям. Edge Voice AI обеспечивает конфиденциальность, экономичность и улучшенный пользовательский интерфейс с нулевой задержкой и надежностью.

Конфиденциальность

OpenAI нацелен на исследователей ИИ с помощью Whisper. Однако многие другие, в том числе репортеры, были в восторге от преимущества конфиденциальности распознавания речи на устройстве. Большие технологии известны неэтичным использованием голосовых данных. Теперь независимые поставщики голосовых API, такие как Otter.ai, идут по их стопам.

Экономичность

Высокоточные модели, предлагаемые поставщиками облачных API, дороги как для поставщиков, так и для покупателей. Например, они не предоставляют более пары часов транскрипции бесплатно, потому что обучение и запуск больших моделей речи в облаке обходится дорого. Они должны переложить расходы на облако на клиентов.

Зависимость от подключения

Несмотря на широкое распространение высокоскоростного Интернета, проблемы с подключением, задержкой и отключениями по-прежнему остаются серьезными проблемами. Неотъемлемые риски зависимости от облака влияют на удобство работы пользователей и производительность.

Плюс экологическое сознание и устойчивость. Углеродный след облачных вычислений превзошел выбросы авиационной отрасли. Углеродный след обучения большой модели ИИ эквивалентен тому, что производят пять автомобилей за всю свою жизнь.

Если вы можете получить те же результаты и лучший опыт с меньшими затратами, потребляя меньше энергии, почему бы и нет?

Почему сейчас?

До недавнего времени конечным пользователям, разработчикам и предприятиям приходилось жертвовать конфиденциальностью ради удобства и стоимости и мириться с плохим опытом, потому что рынок голосового ИИ, на котором доминировали большие технологии, не предлагал альтернативы. Во-первых, это конфликт интересов. Во-вторых, сделать это непросто.

Удержание разработчиков в облаке помогает крупным технологиям поддерживать свою облачную олигополию. Стандартный подход к распознаванию речи заключается в обучении больших моделей для достижения высокой точности. Фермы серверов без вопросов могут запускать большие модели, но не на каждом устройстве. Например, Митчел Кларк сообщает, что расшифровка 24-минутного интервью Whisper занимает 52 минуты, а Otter.ai — 8 минут. Для хобби-проектов 52 минуты могут не быть проблемой. Однако для корпоративных приложений это, безусловно, так. Фактор реального времени — один из вопросов, которые мы получаем от потенциальных клиентов, оценивающих движки преобразования речи в текст. непросто оптимизировать модели, которые могут эффективно работать на разных платформах. [Команда Picovoice усвоила это на собственном горьком опыте.] Также непросто конкурировать, будучи в 6,5 раз медленнее. В результате модели ASR работают в облаке.

непросто оптимизировать модели, которые могут эффективно работать на разных платформах. Также непросто конкурировать, будучи в 6,5 раз медленнее. В результате модели ASR работают в облаке. До настоящего времени…

Модели ASR легче оптимизировать, если можно управлять оборудованием. Таким образом, крупные технологические компании выходят на передний план — для своих продуктов и избранных партнеров.

Амазонка

В сентябре Amazon объявила о партнерстве с BMW для создания настраиваемого голосового помощника Alexa (ACA). ACA не доступен для общественности.

Яблоко

В мае Apple анонсировала Живые субтитры для iOS и macOS, а затем ограничила их только некоммерческим личным использованием.

Google

Google анонсировала Google Cloud On-Device несколько дней назад. На данный момент известен только размер модели пара сотен мегабайт, Тойота — первый покупатель, а для уточнения нужно обращаться в отдел продаж.

Майкрософт

В марте Microsoft приобрела Nuance. Компания известна благодаря Dragon Speech Recognition — известному программному обеспечению для автономной диктовки, специализирующемуся на здравоохранении и юриспруденции. Пока Nuance заявляла только об облачных инвестициях.

Использование облакаипограничного режимаилина устройстве в том же предложении может звучать нетрадиционно для многих. Тем не менее, это способ вернуть контроль предприятиям и пользователям и перестать наносить ущерб окружающей среде.

Подпишитесь на DDIntel Здесь.

Посетите наш сайт здесь: https://www.datadriveninvestor.com

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate