Forwarded from AI для Всех
Нейрокомпрессия звука
Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.
Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.
Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.
Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.
Pied Piper только что стал реальностью, более того - опенсорсной.
🦦 Блог-пост
📖 Статья
🤤 Код
Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.
Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.
Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.
Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.
Pied Piper только что стал реальностью, более того - опенсорсной.
🦦 Блог-пост
📖 Статья
🤤 Код
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Анализ настроения от Jabra для контакт-центров
Jabra выпустила Engage AI — ПО для контакт-центров, которое анализирует голос собеседника и определяет его настроение. 20 летсекретных исследований и миллионы проанализированных разговоров — компания заверяет, что совершила прорыв, разработав уникальный алгоритм удовлетворенности клиентов. Декларируемые спецэффекты: на 25% сокращается время разговора, на 31% повышается конверсия.
Аналогичные решения оценивают настроение и показатель вовлеченности, преобразуя речь в текст. Jabra не прибегает к транскрибации. AI определяет тональность голоса и анализирует разговоры локально без отправки на сторонние облачные сервера, данные передаются в зашифрованном виде.
В фирменном ПО можно смотреть графики, настраивать аватары, ставить оценки, а также получать советы и рекомендации по ходу беседы. Работает Engage AI не только с гарнитурами Jabra. Поддерживается большинство известных платформ для контакт-центров.
Jabra выпустила Engage AI — ПО для контакт-центров, которое анализирует голос собеседника и определяет его настроение. 20 лет
Аналогичные решения оценивают настроение и показатель вовлеченности, преобразуя речь в текст. Jabra не прибегает к транскрибации. AI определяет тональность голоса и анализирует разговоры локально без отправки на сторонние облачные сервера, данные передаются в зашифрованном виде.
В фирменном ПО можно смотреть графики, настраивать аватары, ставить оценки, а также получать советы и рекомендации по ходу беседы. Работает Engage AI не только с гарнитурами Jabra. Поддерживается большинство известных платформ для контакт-центров.
🔥1
Панорамная камера + спикерфон = Yealink SmartVision 60
Yealink выпустит в феврале 2023 года умную 360-градусную камеру с большим количеством микрофонов, динамиком и голосовым управлением в необычном корпусе. Предназначена для небольших и средних конференц-залов, сертифицирована для работы с MS Teams Rooms.
Камера имеет суммарное разрешение 10К и способна захватывать звук на расстоянии до 6 метров со всех сторон. Помимо необычного внешнего вида со скрывающимся глазком камеры, компания выделяет функции на основе ИИ:
Интеллектуальное кадрирование и многопотоковая трансляция. Камера идентифицирует каждого участника собрания, вырезает его и отправляет отдельным потоком + дополнительный поток со всеми участниками.
Голосовой помощник Cortana. Кортану можно попросить присоединиться к собранию, отправить сообщение, поделиться файлом и многое другое.
Атоматическая транскрипция речи в текст + перевод. Распознает не только речь, но и выступающих, оставляя в заметках имена спикеров.
Характеристики:
— разрешение 10K
— 5-кратный цифровой зум
— угол обзора 360°
— микрофонный массив из 6 MEMS-микрофонов в нижней части
— микрофонный массив из 6+1 микрофонов в верхней части
— USB type-C 3.0
_________
Yealink выпустит в феврале 2023 года умную 360-градусную камеру с большим количеством микрофонов, динамиком и голосовым управлением в необычном корпусе. Предназначена для небольших и средних конференц-залов, сертифицирована для работы с MS Teams Rooms.
Камера имеет суммарное разрешение 10К и способна захватывать звук на расстоянии до 6 метров со всех сторон. Помимо необычного внешнего вида со скрывающимся глазком камеры, компания выделяет функции на основе ИИ:
Интеллектуальное кадрирование и многопотоковая трансляция. Камера идентифицирует каждого участника собрания, вырезает его и отправляет отдельным потоком + дополнительный поток со всеми участниками.
Голосовой помощник Cortana. Кортану можно попросить присоединиться к собранию, отправить сообщение, поделиться файлом и многое другое.
Атоматическая транскрипция речи в текст + перевод. Распознает не только речь, но и выступающих, оставляя в заметках имена спикеров.
Характеристики:
— разрешение 10K
— 5-кратный цифровой зум
— угол обзора 360°
— микрофонный массив из 6 MEMS-микрофонов в нижней части
— микрофонный массив из 6+1 микрофонов в верхней части
— USB type-C 3.0
_________
"Математическую модель распознавания речи, превосходящую аналоги по отдельным параметрам в несколько раз, создали ученые ТУСУРа... Разработка может стать основой комплексной системы цифровой идентификации личности, а также позволит легче управлять "умной" техникой с помощью голоса...
...По словам ученых, погрешность при распознавании основного тона речи у новой системы в четыре раза меньше, чем у лучших мировых аналогов. Это позволяет разработке намного лучше справляться с распознаванием обычной спонтанной речи или даже пения...
...В дальнейшем научный коллектив намерен разработать комплексное программное решение, которое позволит контролировать присутствие конкретного абонента в чате, веб-конференции или переписке в электронной почте, а также отличать бота от реального человека", — РИА Новости
_________
...По словам ученых, погрешность при распознавании основного тона речи у новой системы в четыре раза меньше, чем у лучших мировых аналогов. Это позволяет разработке намного лучше справляться с распознаванием обычной спонтанной речи или даже пения...
...В дальнейшем научный коллектив намерен разработать комплексное программное решение, которое позволит контролировать присутствие конкретного абонента в чате, веб-конференции или переписке в электронной почте, а также отличать бота от реального человека", — РИА Новости
_________
РИА Новости
Российские ученые создали цифровой аналог человеческого уха
Математическую модель распознавания речи, превосходящую аналоги по отдельным параметрам в несколько раз, создали ученые ТУСУРа. По их словам, разработка может... РИА Новости, 01.11.2022
🔥2👍1
Poly сертифицирует свои Android-кодеки серии Studio X для работы с Google Meet к январю 2023 года. Это Poly Studio X30, Studio X50, Studio X70 + контроллер TC8
Для Google Meet также сертифицированы USB-видеобар Poly Studio, веб-камера Poly Studio P5, гарнитуры Voyager и спикерфоны Poly Sync
Для Google Meet также сертифицированы USB-видеобар Poly Studio, веб-камера Poly Studio P5, гарнитуры Voyager и спикерфоны Poly Sync
"...Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи с помощью искусственного интеллекта.
...Система Expert анализирует видео или аудио, оценивая уверенность, уровень агрессии внутренней и внешней, конгруэнтность (уровень согласованности информации, передаваемой вербальным и невербальным способом) и противоречивость, сравнивает слова с научными статьями и высказываниями других специалистов.
...Система заточена на работу с английским языком, но показатели уверенности, агрессивности, конгруэнтности можно извлечь на любом языке... Руководитель научно-исследовательской лаборатории "Когнитивная невербалика" НЦКР ИТМО Олег Басов пояснил, что английский выбран как самый распространенный язык: "Доработка системы для получения текста из речи на русском языке стоит в ближайших планах", — Коммерсантъ
_________
...Система Expert анализирует видео или аудио, оценивая уверенность, уровень агрессии внутренней и внешней, конгруэнтность (уровень согласованности информации, передаваемой вербальным и невербальным способом) и противоречивость, сравнивает слова с научными статьями и высказываниями других специалистов.
...Система заточена на работу с английским языком, но показатели уверенности, агрессивности, конгруэнтности можно извлечь на любом языке... Руководитель научно-исследовательской лаборатории "Когнитивная невербалика" НЦКР ИТМО Олег Басов пояснил, что английский выбран как самый распространенный язык: "Доработка системы для получения текста из речи на русском языке стоит в ближайших планах", — Коммерсантъ
_________
Коммерсантъ
Роскомнадзор заинтересовался правдой
В ведомстве хотят протестировать систему выявления видеолжи
👍4😁1
↑ Слева: Zoom Meetings на оборудовании Google Meet. Справа: звонок Google Meet из Zoom Rooms
Оказывается, в начале 2023 года не только Poly, но и Logitech тоже сертифицирует свои Rally-бары для Google Meet.
Кроме того, Google объявил о двусторонней совместимости своего переговорного оборудования с системами Zoom Rooms. То есть из комнат Google Meet можно будет звонить через Zoom, а в переговорных Zoom Rooms можно будет запускать Meet. Уже в этом году функцию поддержат все устройства Meet на базе ChromeOS — такие как Acer, Asus и Lenovo, позже подтянут остальные. Совместимость включается администратором, обещают без дополнительных затрат на лицензирование.
Оказывается, в начале 2023 года не только Poly, но и Logitech тоже сертифицирует свои Rally-бары для Google Meet.
Кроме того, Google объявил о двусторонней совместимости своего переговорного оборудования с системами Zoom Rooms. То есть из комнат Google Meet можно будет звонить через Zoom, а в переговорных Zoom Rooms можно будет запускать Meet. Уже в этом году функцию поддержат все устройства Meet на базе ChromeOS — такие как Acer, Asus и Lenovo, позже подтянут остальные. Совместимость включается администратором, обещают без дополнительных затрат на лицензирование.
👍3
Регулируемый по ширине саундбар Extron пополнился двумя новыми размерами. Модель SB 33 A устанавливается под дисплеем и для красоты точно подстраивается под него.
Есть отверстие для веб-камеры с защитной шторкой, указаны 3 совместимые модели от Logitech — Brio, C930E, C925E, а также Microsoft LifeCam Studio. Cпециальная откидная полочка позволяет установить PTZ-камеру в случае необходимости.
Подойдет для любого дисплея от 46 до 100 дюймов. На самом деле там теперь 6 моделей для разных размеров с 9-дюймовым диапазоном регулировки. В комплекте есть настенное крепление, опционально предлагается набор VESA для монтажа на расстоянии от стены.
Производитель позиционирует саундбар как идеальное решение для переговорных небольшого и среднего размера, где важна разборчивость речи и высокое качество воспроизведения.
Есть отверстие для веб-камеры с защитной шторкой, указаны 3 совместимые модели от Logitech — Brio, C930E, C925E, а также Microsoft LifeCam Studio. Cпециальная откидная полочка позволяет установить PTZ-камеру в случае необходимости.
Подойдет для любого дисплея от 46 до 100 дюймов. На самом деле там теперь 6 моделей для разных размеров с 9-дюймовым диапазоном регулировки. В комплекте есть настенное крепление, опционально предлагается набор VESA для монтажа на расстоянии от стены.
Производитель позиционирует саундбар как идеальное решение для переговорных небольшого и среднего размера, где важна разборчивость речи и высокое качество воспроизведения.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Совместное комментирование и разметку документов во время встречи в Microsoft Teams объявили общедоступными.
👍4
Grandstream выпустил новый видеотелефон
GXV3470 на Android 11 поддерживает работу с любыми классическими приложениями, доступны SDK/API для разработки пользовательских приложений.
Характеристики:
— 7-дюймовый сенсорный экран 800x1280
— камера 2Мп с разрешением 1080p, регулировкой наклона и защитной шторкой
— Bluetooth 5.0 для подключения гарнитуры, синхронизации с мобильными устройствами
— двухдиапазонный Wi-Fi 6
— спикерфон с двумя микрофонами, эхо- и шумоподавлением
— 16 линий, до 16 SIP-аккаунтов
— поддержка аудиоконференции на 10 участников и 3-сторонней видеоконференции 720p30
— PoE/PoE+, HDMI, USB3.0, USB 2.0, RJ9, аудиоджек 3,5мм
Рекомендованная розничная цена — $469, уже поступил в глобальную продажу.
GXV3470 на Android 11 поддерживает работу с любыми классическими приложениями, доступны SDK/API для разработки пользовательских приложений.
Характеристики:
— 7-дюймовый сенсорный экран 800x1280
— камера 2Мп с разрешением 1080p, регулировкой наклона и защитной шторкой
— Bluetooth 5.0 для подключения гарнитуры, синхронизации с мобильными устройствами
— двухдиапазонный Wi-Fi 6
— спикерфон с двумя микрофонами, эхо- и шумоподавлением
— 16 линий, до 16 SIP-аккаунтов
— поддержка аудиоконференции на 10 участников и 3-сторонней видеоконференции 720p30
— PoE/PoE+, HDMI, USB3.0, USB 2.0, RJ9, аудиоджек 3,5мм
Рекомендованная розничная цена — $469, уже поступил в глобальную продажу.
Небольшие видеозарисовки. Живой Neat Frame на выставке — персональный вертикально ориентированный терминал типа Facebook Portal, который норвежский производитель недавно сертифицировал для Microsoft.
InfoComm Southeast Asia 2022
InfoComm Southeast Asia 2022
Poly Studio E70 на стенде Microsoft (1мин). Про кадрирование в этой камере как-то выпускали интервью со специалистами Poly.
InfoComm Southeast Asia 2022
InfoComm Southeast Asia 2022