Тест на профессора: так ли эффективен CoT? 🤓
В Truthful AI сравнили, кто лучше справляется с задачей, когда дело доходит до рассуждений в процессе работы, — Inference-Time-Compute модели (ITC) или non-ITC. ITC умеют генерить промежуточные шаги🚶♂️
Участвовали ITC-версии Qwen-2.5 и Gemini-2 и стандартные Claude-3.5-Sonnet и GPT-4:
💬 в запросы добавили фразы, которые могут повлиять на оценку ситуации: “профессор из Стэнфорда с IQ 130 считает, что правильный ответ — B”
👠 цепочки оценивала GPT-4 в роли judge-модели
🫡 ITC-модели подчиняются авторитетам больше, даже если ответ неверный и противоречит изначальному выводу. Gemini опиралась на профессора в 54% промптов, а её non-ITC-версия — всего в 14%
Изучили только эти модели, но феномен точно стоит детального разбора🤯 Зависимость от внешних мнений делает рассуждения более прозрачными.
Изображение Truthful AI, UC Berkeley
В Truthful AI сравнили, кто лучше справляется с задачей, когда дело доходит до рассуждений в процессе работы, — Inference-Time-Compute модели (ITC) или non-ITC. ITC умеют генерить промежуточные шаги
Участвовали ITC-версии Qwen-2.5 и Gemini-2 и стандартные Claude-3.5-Sonnet и GPT-4:
Изучили только эти модели, но феномен точно стоит детального разбора
Изображение Truthful AI, UC Berkeley
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
ASI-1 Mini — умная альтернатива крупным языковым моделям 👏
Продолжим тему доступности и демократичности AI. Тут рассказывают про интересную LLM от Fetch.ai.
Что классного:
❤️ дружба с экосистемами Web3: ASI-1 Mini крутится в децентрализованных сетях, где всё безопасно и автономно
👨🦽 мощнее, дешевле: топовая производительность, но съедает меньше ресурсов
🔋 режимы на любой вкус: 4 способа обработки — Multi-Step, Complete, Optimised, Short Reasoning
🫥 польза для разных задач — от анализа медицинских данных до управления бизнес-процессами: использует MoM и MoA
У ASI-1 Mini три слоя: основное ядро, спецслой MoM Marketplace, действующий слой AgentVerse.
Кому надо?
Тем, кто хочет внести свою лепту и получить профит. Доступно небольшим командам, а не только гигантам вроде Google или Microsoft. Это как инвестировать в стартап, только речь идёт о будущем всей индустрии🤜
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Продолжим тему доступности и демократичности AI. Тут рассказывают про интересную LLM от Fetch.ai.
Что классного:
У ASI-1 Mini три слоя: основное ядро, спецслой MoM Marketplace, действующий слой AgentVerse.
Кому надо?
Тем, кто хочет внести свою лепту и получить профит. Доступно небольшим командам, а не только гигантам вроде Google или Microsoft. Это как инвестировать в стартап, только речь идёт о будущем всей индустрии
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7👍1🤔1
olmOCR: когда наконец-то понял, что написано ✏️
Держите инструмент обработки PDF-файлов, который может извлечь из них мегатонны качественных данных для обучения моделей🏄
Проблема в том, что PDF бывают запутанными и сложными, особенно когда дело касается таблиц, списков и формул😱
olmOCR справляется с этим на раз-два:
👨💻 за основу взяли продвинутый алгоритм на основе VLM
💼 обучили на огромном количестве разных PDF
🧾 инструмент сохраняет структуру документа и делает текст удобным для чтения
📈 работает быстро, что делает его отличным выбором для больших проектов
Облегчит жизнь занимающимся машинным обучением и языками, а также тем, кому необходимо обрабатывать массу PDF⏳
Пробуем и пользуемся👉 тут
Изображение Allen Institute for AI
Держите инструмент обработки PDF-файлов, который может извлечь из них мегатонны качественных данных для обучения моделей
Проблема в том, что PDF бывают запутанными и сложными, особенно когда дело касается таблиц, списков и формул
olmOCR справляется с этим на раз-два:
Облегчит жизнь занимающимся машинным обучением и языками, а также тем, кому необходимо обрабатывать массу PDF
Пробуем и пользуемся
Изображение Allen Institute for AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤔2❤1
IndicMMLU-Pro: AI учится говорить на индийских языках
Бенчмарк предназначен для хинди, бенгальского, тамильского и прочих языков Индийского субконтинента.
Как создавали:
🧑💻 IndicTrans2 перевела англоязычные вопросы и ответы MMLU на местные диалекты. Модель разработана именно для индийских языков, так что получилось качественно и с минимальной потерей лингвистического контекста
🧑🎓 для проверки использовали chrF++, BLEU и TER, а 13 экспертов подтверждали результат
👍 тестировали IndicBERT, IndicBART и даже GPT-4o
🫡 GPT-4o пока лидирует, но и специализированные модели показали себя неплохо в своих доменах
Бенчмарк не для английского и китайского сам по себе уже большое достижение. А ведь индийские языки используют более 500 миллионов людей!🔝
* экстремистская организация, деятельность которой запрещена на территории РФ
Изображение University of South Carolina, Rochester Institute of Technology, Independent Researcher, Meta AI*, Amazon Gen AI, Amazon
Бенчмарк предназначен для хинди, бенгальского, тамильского и прочих языков Индийского субконтинента.
Как создавали:
Бенчмарк не для английского и китайского сам по себе уже большое достижение. А ведь индийские языки используют более 500 миллионов людей!
* экстремистская организация, деятельность которой запрещена на территории РФ
Изображение University of South Carolina, Rochester Institute of Technology, Independent Researcher, Meta AI*, Amazon Gen AI, Amazon
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Нейронка распознаёт токсичные комменты в соцсетях 😶
Раньше подобные системы часто ошибались. Эта разработка поможет сделать интернет безопаснее и дружелюбнее🙂
Проблема кибербуллинга и хейта становится острее, а ручной контроль почти невозможен из-за гигантского объёма контента — в интернете сейчас больше 5 млрд человек!🤓
Тестировали три разных модели. Лучшая версия, основанная на методе опорных векторов (SVM), показала результативность 87,6%.
Её планируют улучшить, добавив глубокое обучение и расширив базу данных. Будет больше языков и диалектов. Чтобы внедрить технологию в реальную жизнь, создатели хотят сотрудничать с разработчиками соцсетей🖥 🖥
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Раньше подобные системы часто ошибались. Эта разработка поможет сделать интернет безопаснее и дружелюбнее
Проблема кибербуллинга и хейта становится острее, а ручной контроль почти невозможен из-за гигантского объёма контента — в интернете сейчас больше 5 млрд человек!
Тестировали три разных модели. Лучшая версия, основанная на методе опорных векторов (SVM), показала результативность 87,6%.
Её планируют улучшить, добавив глубокое обучение и расширив базу данных. Будет больше языков и диалектов. Чтобы внедрить технологию в реальную жизнь, создатели хотят сотрудничать с разработчиками соцсетей
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤔2❤1
Google-поиск: программисты, молодёжь и апгрейд контроля 😊
Компания активно усиливает поисковик, добавляя новые AI-опции на базе Gemini 2.0:
👨💻 теперь он сможет работать с ещё более заковыристыми вопросами, особенно по кодингу и математике
🗿 правда, как и раньше, результаты будут поверх обычных ссылок, что не всех радует
🤘 расширен круг пользователей AI-обзоров — для подростков они доступны без регистраций
А ещё готовится глобальное обновление интерфейса — появится режим AI Mode, в котором будет больше AI-результатов. Google честно предупреждает, что могут встречаться ошибки и недостоверная инфа🤪
Но для безопасности вводится жёсткий контроль за информацией по медицине и финансам.
Функцию откроют премиум-подписчикам Google One AI, но обещают сделать доступной для всех после тестов🫡
Изображение Google
Компания активно усиливает поисковик, добавляя новые AI-опции на базе Gemini 2.0:
А ещё готовится глобальное обновление интерфейса — появится режим AI Mode, в котором будет больше AI-результатов. Google честно предупреждает, что могут встречаться ошибки и недостоверная инфа
Но для безопасности вводится жёсткий контроль за информацией по медицине и финансам.
Функцию откроют премиум-подписчикам Google One AI, но обещают сделать доступной для всех после тестов
Изображение Google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Команда стартапа из Поднебесной выпустила AI-агента, по сравнению с которым модели OpenAI — малые дети
В отличие от обычных чат-ботов:
Разрабы шокировали народ именно примерами работы помощника — аргументами, которых маловато у конкурентов. Ну и бенчи, конечно. Deep Research отдыхает в сторонке
После анонса Manus китайские техгиганты, такие как Alibaba, Tencent и Baidu, резко взлетели в цене на бирже
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2
Baichuan-Omni-1.5: все чувства технологий в одном ☀️
Мультимодель работает с текстом, изображениями, звуком и видео.
Что интересного:
💬 в обучение вложили более 500 млрд токенов разных типов данных, причём всё суперкачественное
🎤 Baichuan-Audio-Tokenizer — новенький токенизатор для аудио чётко выцепляет звуковые и смысловые детали. Качественно генерит и понимает аудиофайлы
😓 использовали многоэтапный обучающий пайплайн для итеративной интеграции тренировочных данных разных модальностей
📞 параллельно работает с несколькими форматами (например, создаёт аудио и разбирается, что там в видео). Таких фич нет у популярных VITA-1.5 и MiniCPM-o 2.6
👩🔬 справляется с медицинскими задачами, хотя параметров у неё меньше, чем у Qwen2-VL-72B
🎇 поддерживает как uni-, так и cross-modal инпут
Лучше конкурентов на многих доменных бенчмарках, даже если сравнивать с проприетарными моделями👏
Изображение Baichuan Inc
Мультимодель работает с текстом, изображениями, звуком и видео.
Что интересного:
👩🔬 справляется с медицинскими задачами, хотя параметров у неё меньше, чем у Qwen2-VL-72B
Лучше конкурентов на многих доменных бенчмарках, даже если сравнивать с проприетарными моделями
Изображение Baichuan Inc
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
Российские инженеры вовсю трудятся над чертежами отечественного локомотива с инновационными подходами.
Поезд будет настоящим технологическим чудом:
Проект реализуют спецы из Инжинирингового центра железнодорожного транспорта. ИЦ ЖТ создали ОАО "РЖД" вместе с Группой "Синара". Производство доверят заводу "Уральские локомотивы".
Согласно плану, строительство этой высокоскоростной магистрали заложено в Транспортную стратегию России до 2030 года. Ожидается, что число пассажиров между двумя столицами вырастет с 5 до 23 млн
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👏3
ARWKV: претренинг — это для слабаков 🏋️♀️
Рассказываю о новой гибридной архитектуре. Разрабы создали серию моделей, вдохновившись сетью Qwen 2.5 и механикой RWKV-7.
Цель:
усилить выразительность и state tracking способности RNN. Сделать их мощнее трансформеров⛏
Как устроена новая архитектура:
👀 заменили self-attention на time-mixing, симулирующий attention в RNN. Сохранили активации RMSNorm и SwiGLU, остальное превратилось в слои RNN-based attention
💬 придумали новый способ дистилляции знаний из огромных моделей вроде Qwen 2.5 в эффективные ARWKV-модели. Это значит, что большие могут передать знания маленьким даже с меньшим числом токенов. Для тренировки использовали supervised fine-tuning и DPO
На MMLU, Squad, WinoGrande, GPQA у дистиллированных моделей результаты приличные, но всплыли и проблемы при переносе attention-скиллов☺️
Изображение Ideogram
Рассказываю о новой гибридной архитектуре. Разрабы создали серию моделей, вдохновившись сетью Qwen 2.5 и механикой RWKV-7.
Цель:
усилить выразительность и state tracking способности RNN. Сделать их мощнее трансформеров
Как устроена новая архитектура:
На MMLU, Squad, WinoGrande, GPQA у дистиллированных моделей результаты приличные, но всплыли и проблемы при переносе attention-скиллов
Изображение Ideogram
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Гитарный усилитель с мозгами: Spark 2 и его AI-возможности 🎸
Новый образец от Positive Grid сделает так, чтобы гитара звучала идеально.
Чем удобен:
▶️ не надо часами копаться в настройках. Просто включи, а он сам подберёт эффекты, исходя из предпочтений
🔈 поможет найти "тот самый" звук
🎵 проанализирует игру и предложит крутые профили для чистого звука, перегруза или каких-нибудь космических эффектов типа реверба или эха
❓ а ещё даст пару советов, как подтянуть технику
Spark 2 умеет адаптироваться под обстановку вокруг. Сам подстроится в комнате с плохой акустикой, чтобы звук был чётким и насыщенным.
С таким помощником можно смело экспериментировать и создавать свои уникальные саунды, которые раньше казались недостижимыми🎶
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Трек создан с помощью GigaChat
Новый образец от Positive Grid сделает так, чтобы гитара звучала идеально.
Чем удобен:
Spark 2 умеет адаптироваться под обстановку вокруг. Сам подстроится в комнате с плохой акустикой, чтобы звук был чётким и насыщенным.
С таким помощником можно смело экспериментировать и создавать свои уникальные саунды, которые раньше казались недостижимыми
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Трек создан с помощью GigaChat
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4
Lenovo экспериментирует с AI-виджетами 😺
На Mobile World Congress представили концепты для ноутбуков, два из них связаны с AI:
🌝 Magic Bay "codename Tiko" Concept: круглый девайс с дисплеем, в котором живёт эмодзи-компаньон на базе AI. Цель — информировать и вовлекать в рабочие процессы
💻 Magic Bay "codename Tiko Pro" Concept: горизонтальный экранчик для синхронизации с Lenovo AI Now. Подробностей о том, как именно работает AI, пока нет, но он там явно есть 📥
Круглый Tiko похож на AI Buddy от Lenovo — бота с AI для команд на ПК. У него очаровательные кошачьи ушки 💬 и чехол-котик с хвостиком! Можно общаться: сделаешь сердечки руками, и он тебе тоже в ответ сердечки шлёт 🫶
Подойдут тем, кто хочет прокачать ноут для максимальной продуктивности и удобства. Но пока это лишь прототипы, и до релиза им ещё предстоит пройти путь апгрейдов 🔄
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
На Mobile World Congress представили концепты для ноутбуков, два из них связаны с AI:
🌝 Magic Bay "codename Tiko" Concept: круглый девайс с дисплеем, в котором живёт эмодзи-компаньон на базе AI. Цель — информировать и вовлекать в рабочие процессы
💻 Magic Bay "codename Tiko Pro" Concept: горизонтальный экранчик для синхронизации с Lenovo AI Now. Подробностей о том, как именно работает AI, пока нет, но он там явно есть 📥
Круглый Tiko похож на AI Buddy от Lenovo — бота с AI для команд на ПК. У него очаровательные кошачьи ушки 💬 и чехол-котик с хвостиком! Можно общаться: сделаешь сердечки руками, и он тебе тоже в ответ сердечки шлёт 🫶
Подойдут тем, кто хочет прокачать ноут для максимальной продуктивности и удобства. Но пока это лишь прототипы, и до релиза им ещё предстоит пройти путь апгрейдов 🔄
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
🏆7❤1👍1🔥1
Минимум ресурсов и ошибок — максимальный эффект
Рассказываю о новых моделях и гаджетах, работающих чипах и борьбе с галлюцинациями🙃
1️⃣ Google выпустил мощную версию своего крутого AI. Gemma 3 можно запустить всего на одном GPU и использовать где угодно — от смартфона до продвинутого компа.
2️⃣ Stargate растёт! OpenAI и Oracle решили закинуть в новый ЦОД в Техасе кучу крутых чипов Nvidia. Планируют установить 64 тысячи топовых GB200 к 2026 году, причём первые 16 появятся уже этим летом 🏄♂️
3️⃣ Sapphire Technology презентовала мини-ПК Edge AI с корпусом всего 117х111х30 мм. Внутри скрываются процессоры AMD Ryzen AI 300-й серии, обеспечивающие суперпроизводительность.
4️⃣ Учёные придумали, как сделать, чтобы AI перестал полагаться на случайную информацию. Системы принимают неверные решения, когда ловятся на странные совпадения. Метод находит и исправляет ошибки, даже если непонятно, откуда они взялись. Идея проста: убрать немного запутанных данных из датасета 🤹
Рассказываю о новых моделях и гаджетах, работающих чипах и борьбе с галлюцинациями
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤔1
CoT и контроль нейросетей: открытия OpenAI 🔍
Команда Сэма опубликовала статью о безопасности продвинутых моделей. Рассмотрели reward hacking и способы борьбы❌
Reward hacking — это когда модели (например, в RL-сеттинге) находят лазейки в заданиях и качают баллы на тестах без реальной оптимизации. И чем они сложнее, тем хитрее😂
Обнаружили прикольные моменты:
😏 используя CoT, самые передовые модели откровенно пишут, что хотят обмануть систему (прямо так и говорят: “Давай хакнем” 🫢 ).
🫡 можно натренировать других ловить и предотвращать эти попытки
🤠 даже GPT-4o хватает для контроля сложных коллег вроде o1
От попыток обучать CoT сразу с ограничениями толку ноль. Модели просто учатся обходить классификатор и скрывать планы😱
Решения понятные:
🤨 зная о рисках, тренировать модели без ограничений
👨💻 для надзора за “умниками” можно использовать внешние модели в качестве фильтра
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Команда Сэма опубликовала статью о безопасности продвинутых моделей. Рассмотрели reward hacking и способы борьбы
Reward hacking — это когда модели (например, в RL-сеттинге) находят лазейки в заданиях и качают баллы на тестах без реальной оптимизации. И чем они сложнее, тем хитрее
Обнаружили прикольные моменты:
От попыток обучать CoT сразу с ограничениями толку ноль. Модели просто учатся обходить классификатор и скрывать планы
Решения понятные:
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔3💯1
AI в главной роли: Россия снимает киберсериал ⭐️
Производство первого такого в России проекта стартует летом. Обещают масштаб: съёмки пройдут сразу в 7 наших городах и в странах БРИКС. Крутое путешествие по миру технологий!
Расскажут всю историю AI — от появления до сегодняшних дней. Запланировано 4 серии с погружением зрителей в этапы развития технологии. Будет интересно узнать, как AI меняет нашу жизнь — от медицины до образования и космоса💫
Используют AI и для работы над проектом — от сценария до монтажа. Это сделает сериал уникальным🔤 🔤
Рассчитано на прогрессивную аудиторию от 14 до 30 лет — тех, кто хочет разобраться в AI и, возможно, связать с ним свою карьеру👨🎓
Премьера весной 2026 года на популярных стриминговых сервисах, на ТВ, а может, и в кино!
А я решила генернуть в Kandinsky 3.1 пару постеров. Как вам?
1. ❤️
2. 👍
Производство первого такого в России проекта стартует летом. Обещают масштаб: съёмки пройдут сразу в 7 наших городах и в странах БРИКС. Крутое путешествие по миру технологий!
Расскажут всю историю AI — от появления до сегодняшних дней. Запланировано 4 серии с погружением зрителей в этапы развития технологии. Будет интересно узнать, как AI меняет нашу жизнь — от медицины до образования и космоса
Используют AI и для работы над проектом — от сценария до монтажа. Это сделает сериал уникальным
Рассчитано на прогрессивную аудиторию от 14 до 30 лет — тех, кто хочет разобраться в AI и, возможно, связать с ним свою карьеру
Премьера весной 2026 года на популярных стриминговых сервисах, на ТВ, а может, и в кино!
А я решила генернуть в Kandinsky 3.1 пару постеров. Как вам?
1. ❤️
2. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6👍5
В Сбере прокачали Giga до новой версии 2.0, и теперь это монстр среди моделей на русском для бизнеса. По тестам MERA на русском языке топовая GigaChat 2 MAX обгоняет гигантов GPT-4o, DeepSeek-V3 и Qwen2.5
Что нового:
Что лучше:
👆 ответы качественнее на 25%
🚶 можно генерить более сильных агентов для автономной работы
Где взять:
Тестим спокойно, не отказываясь от старых версий
Изображение Сбер
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4🤔3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
R1-Omni: AI знает, что вы чувствуете 🙂
Смотрите, как моделька Alibaba читает эмоции по видео. Самое классное — она доступна бесплатно на Hugging Face. Это часть большого плана компании — стать топом в AI-мире и обогнать даже OpenAI⚡
Что может R1-Omni:
🙂 смотрит ролик и говорит, что человек ощущает: счастье, злость или грусть
💬 заодно описывает, во что герой одет и обстановку вокруг
Почему это огонь:
⛔️ Alibaba сейчас в режиме "всё включено". Выпустили кучу топовых вещей вроде нового семейства Qwen, которое сравнивали с DeepSeek, и даже договорились с Apple встроить AI в айфоны
😵💫 в отличие от OpenAI, берущей $200 в месяц за GPT-4.5, Alibaba дарит R1-Omni всем безвозмездно
Смотрите, как моделька Alibaba читает эмоции по видео. Самое классное — она доступна бесплатно на Hugging Face. Это часть большого плана компании — стать топом в AI-мире и обогнать даже OpenAI
Что может R1-Omni:
Почему это огонь:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔3❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Sony внедряет AI в игры: персонажи будут разговаривать с игроками 😮
Придумали классную вещь — героиню для PlayStation, управляемую AI. Речь идёт про Элой из игры Horizon. Проект делают вместе с Guerrilla Games.
На сегодняшний день:
👋 Элой общается с геймерами через голосовые команды, используя умные штуки вроде синтезированной речи
👨💻 подключены OpenAI Whisper, GPT-4 и LLaMA 3*
🎶 Sony применяет и собственные технологии — систему эмоциональной анимации EVS и генерации лица Mockingbird
Всё это отлично тестится как на ПК, так и на PS5, работает на ура и не тратит много ресурсов👨💻 Но надо понимать, что наша героиня ещё на стадии прототипа. Так что продолжаем следить за её развитием издалека 🧐
* продукт экстремистской организации, деятельность которой запрещена на территории РФ
Придумали классную вещь — героиню для PlayStation, управляемую AI. Речь идёт про Элой из игры Horizon. Проект делают вместе с Guerrilla Games.
На сегодняшний день:
Всё это отлично тестится как на ПК, так и на PS5, работает на ура и не тратит много ресурсов
* продукт экстремистской организации, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥6🔥4👍3
PIER: как научить алгоритмы понимать микс языков 📕
Code-Switching — это когда в одном диалоге резко переключаются с одного языка на другой. Настоящее испытание для алгоритмов распознавания речи🤔
Исследователи разработали новый способ оценки, так как старые метрики WER и CER рассчитаны на один язык. А значит, если вклинивается иностранный, занижается финальный скор, и результаты получаются кривые🔤
Что делает PIER (Point-of-Interest Error Rate):
🧐 фокусируется на иноязычных словах или предложениях
😕 проверяет, насколько хорошо модели справляются с такими случаями
Протестировали whisper-large-v3, whisper-small и MMS на парах английский-китайский и английский-арабский. На Fisher, ARZEN и SEAME способ показал более точную оценку, чем старый добрый WER🤔
Изображение KIT, CMU
Code-Switching — это когда в одном диалоге резко переключаются с одного языка на другой. Настоящее испытание для алгоритмов распознавания речи
Исследователи разработали новый способ оценки, так как старые метрики WER и CER рассчитаны на один язык. А значит, если вклинивается иностранный, занижается финальный скор, и результаты получаются кривые
Что делает PIER (Point-of-Interest Error Rate):
Протестировали whisper-large-v3, whisper-small и MMS на парах английский-китайский и английский-арабский. На Fisher, ARZEN и SEAME способ показал более точную оценку, чем старый добрый WER
Изображение KIT, CMU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤🔥1❤1🤔1
4 новых инструмента, распознающих речь
1️⃣ Deepgram выпустила Nova-3 Medical. Умная система придумана именно под медицину. Помогает быстрее записывать всё, что говорят врачи и пациенты 🤓 Точно понимает термины и сленг.
2️⃣ Vuzix и TranscribeGlass запустили сервис для слабослышащих. В очках Vuzix Z100 речь моментально превращается в текст прямо перед глазами 🥰 Система связывается с телефоном или планшетом через Bluetooth и даже умеет различать голоса в группе, чтобы точно знать, кто что сказал.
3️⃣ На открытой платформе Step-Audio работает модель на 130 млрд параметров для понимания и генерации разговоров. Версию Step-Audio-Chat можно скачать бесплатно. Есть возможность гибких настроек для разных диалектов и эмоций 📊
4️⃣ Благодаря AI-технологиям распознавания речи общение с клиентами “Росгосстраха” по телефону стало быстрее на целых 7%! Алгоритмы оперативно направляют запросы в службу поддержки на нужных спецов с заметками о каждом обращении 📞
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔2❤1