🎙️ NVIDIA выпустила PersonaPlex-7B - open-source голосовая диалоговая модель, которая умеет то, что обычно недоступно классическим пайплайнам: **слушать и говорить одновременно**.
Модель:
- 🔓 бесплатная и полностью открытая (MIT)
- 🤗 веса доступны на Hugging Face
- 🧠 full-duplex conversational model (двусторонний “живой” диалог)
Обычно Voice AI устроен так:
ASR → LLM → TTS
Сначала распознаём речь, потом думаем, потом озвучиваем.
Работает эффективно, но диалог получается “роботным”:
говоришь по очереди, без перебиваний, без живой реакции.
PersonaPlex-7B меняет подход.
Она работает на непрерывных аудио-токенах и использует dual-stream transformer, который генерирует текст и аудио параллельно, а не переключает управление между модулями.
Это даёт:
- мгновенные “угу / да / понял” реакции (back-channel)
- естественные перебивания и уточнения
- нормальный ритм разговора, как у человека
Ещё один плюс: управление “персоной” работает zero-shot, без дополнительного дообучения.
Если ты делаешь голосового ассистента или саппорт-агента с низкой задержкой - это очень сильный шаг вперёд.
https://github.com/NVIDIA/personaplex
@pythonl
Модель:
- 🔓 бесплатная и полностью открытая (MIT)
- 🤗 веса доступны на Hugging Face
- 🧠 full-duplex conversational model (двусторонний “живой” диалог)
Обычно Voice AI устроен так:
ASR → LLM → TTS
Сначала распознаём речь, потом думаем, потом озвучиваем.
Работает эффективно, но диалог получается “роботным”:
говоришь по очереди, без перебиваний, без живой реакции.
PersonaPlex-7B меняет подход.
Она работает на непрерывных аудио-токенах и использует dual-stream transformer, который генерирует текст и аудио параллельно, а не переключает управление между модулями.
Это даёт:
- мгновенные “угу / да / понял” реакции (back-channel)
- естественные перебивания и уточнения
- нормальный ритм разговора, как у человека
Ещё один плюс: управление “персоной” работает zero-shot, без дополнительного дообучения.
Если ты делаешь голосового ассистента или саппорт-агента с низкой задержкой - это очень сильный шаг вперёд.
https://github.com/NVIDIA/personaplex
@pythonl
❤13🔥6👍4
🧠 Продвинутые советы по работе с Regex в Python
Всегда компилируй регулярные выражения. Это ускоряет работу при многократном использовании, делает код чище и упрощает тестирование.
Используй raw-строки и re.VERBOSE, чтобы regex был читаемым, а не выглядел как случайный набор символов.
Если группа не нужна в выводе - делай её non-capturing (?:...). Это уменьшает расходы памяти и путаницу с индексами групп.
Используй правильные якоря.
Контролируй код и ставь ограничения.
Бесконтрольный .* — частая причина зависаний и ReDoS.
Lookahead и lookbehind позволяют искать текст без захвата. Это мощный инструмент для точных выборок.
Различай search, match и fullmatch. Для валидации почти всегда нужен fullmatch.
Если замена содержит логику - используй функцию.
Тестируй regex на “враждебных” данных: длинные строки, повторения.
Это помогает избежать ошибок.
Если стандартного re не хватает, используй библиотеку regex - она поддерживает таймауты и более мощные конструкции.
Regex в продакшене - это не магия. Это контроль, ограничения,
читаемость и тестирование.
@pythonl
Всегда компилируй регулярные выражения. Это ускоряет работу при многократном использовании, делает код чище и упрощает тестирование.
import re
RE_EMAIL = re.compile(r"\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,}\b", re.I)
emails = RE_EMAIL.findall(text)
Используй raw-строки и re.VERBOSE, чтобы regex был читаемым, а не выглядел как случайный набор символов.
RE_DATE = re.compile(r"""
\b
(?P<year>\d{4})-(?P<month>0[1-9]|1[0-2])-(?P<day>0[1-9]|[12]\d|3[01])
\b
""", re.VERBOSE)
Если группа не нужна в выводе - делай её non-capturing (?:...). Это уменьшает расходы памяти и путаницу с индексами групп.
re.findall(r"(?:https?://)?(?:www\.)?example\.com/\S+", text)
Используй правильные якоря.
\A и \Z безопаснее для валидации, чем ^ и $, которые зависят от флага MULTILINE.
re.match(r"\A\d+\Z", "123\n")
Контролируй код и ставь ограничения.
Бесконтрольный .* — частая причина зависаний и ReDoS.
re.search(r"<[^>]{0,2000}>", html)
Lookahead и lookbehind позволяют искать текст без захвата. Это мощный инструмент для точных выборок.
m = re.search(r"(?<=token=)[^\s]+", s)
Различай search, match и fullmatch. Для валидации почти всегда нужен fullmatch.
re.fullmatch(r"[a-z0-9_-]{3,32}", username)
Если замена содержит логику - используй функцию.
RE_NUM = re.compile(r"\d+")
masked = RE_NUM.sub(lambda m: "*" * len(m.group(0)), s)
Тестируй regex на “враждебных” данных: длинные строки, повторения.
Это помогает избежать ошибок.
Если стандартного re не хватает, используй библиотеку regex - она поддерживает таймауты и более мощные конструкции.
pip install regex
Regex в продакшене - это не магия. Это контроль, ограничения,
читаемость и тестирование.
@pythonl
👍12❤6🔥5
Forwarded from Machinelearning
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
❤15👍5🔥4
Как все представляют завтрак разработчика в 2026 году 🤩
На самом деле утро начинается с мысли: «Как кодить еще лучше?»
Если вы уже освоили базу по Python и ищете зону роста, пройдите бесплатный мини-курс в Академии Selectel.
В программе:
🔸 набор Python-инструментов и расширений, которые ускоряют кодинг;
🔸 гайд по работе с библиотекой Tkinter, чтобы создавать приложения с графическим интерфейсом;
🔸 инструкция по основам парсинга данных с веб-сайтов и многое другое.
Закрепить полученные знания вы сможете тут же — эксперты собрали базу задач с готовыми ответами.
Все материалы бесплатные. До роскошного IT-завтрака осталось пройти курс в удобное время: https://slc.tl/leedt?2W5zFGhkak8
На самом деле утро начинается с мысли: «Как кодить еще лучше?»
Если вы уже освоили базу по Python и ищете зону роста, пройдите бесплатный мини-курс в Академии Selectel.
В программе:
🔸 набор Python-инструментов и расширений, которые ускоряют кодинг;
🔸 гайд по работе с библиотекой Tkinter, чтобы создавать приложения с графическим интерфейсом;
🔸 инструкция по основам парсинга данных с веб-сайтов и многое другое.
Закрепить полученные знания вы сможете тут же — эксперты собрали базу задач с готовыми ответами.
Все материалы бесплатные. До роскошного IT-завтрака осталось пройти курс в удобное время: https://slc.tl/leedt?2W5zFGhkak8
❤8🔥2😱1🤩1
🎨 Генерация изображений с GLM-Image
GLM-Image — это мощная модель генерации изображений, использующая гибридную архитектуру автогрессивного и диффузионного декодера. Она превосходно справляется с задачами текстового рендеринга и генерации сложной информации, обеспечивая высокое качество изображений и детальную проработку.
🚀 Основные моменты:
- Поддержка генерации изображений из текста и редактирования изображений.
- Высокая точность рендеринга текста и семантического понимания.
- Модуль обратной связи для улучшения эстетики и детализации.
- Подходит для задач с высокой информационной плотностью.
📌 GitHub: https://github.com/zai-org/GLM-Image
GLM-Image — это мощная модель генерации изображений, использующая гибридную архитектуру автогрессивного и диффузионного декодера. Она превосходно справляется с задачами текстового рендеринга и генерации сложной информации, обеспечивая высокое качество изображений и детальную проработку.
🚀 Основные моменты:
- Поддержка генерации изображений из текста и редактирования изображений.
- Высокая точность рендеринга текста и семантического понимания.
- Модуль обратной связи для улучшения эстетики и детализации.
- Подходит для задач с высокой информационной плотностью.
📌 GitHub: https://github.com/zai-org/GLM-Image
❤9👍3🔥3
Ты научишься делать те, которые живут в проде.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.
🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
✔ NVIDIA показала новый разговорный ИИ - PersonaPlex
Суть фичи в том, что модель старается звучать максимально “живым” собеседником, а не просто отвечать по очереди.
Что умеет PersonaPlex:
· Переключать стиль общения (persona) - например строгий учитель, дружелюбный консультант, бармен и т.д.
· Говорить и слушать одновременно - меньше задержек и пауз в диалоге
· Поддакивать на фоне (“угу”, “ок”, “понятно”), пока человек говорит - чтобы разговор был ближе к реальному
· Проект открыт - исходники доступны, можно брать и пробовать самому
▪GitHub
▪Hugging Face
Суть фичи в том, что модель старается звучать максимально “живым” собеседником, а не просто отвечать по очереди.
Что умеет PersonaPlex:
· Переключать стиль общения (persona) - например строгий учитель, дружелюбный консультант, бармен и т.д.
· Говорить и слушать одновременно - меньше задержек и пауз в диалоге
· Поддакивать на фоне (“угу”, “ок”, “понятно”), пока человек говорит - чтобы разговор был ближе к реальному
· Проект открыт - исходники доступны, можно брать и пробовать самому
▪GitHub
▪Hugging Face
👍18❤10🔥6😁3
Знания кода недостаточно: как сохранить и поднять свою ценность в IT
О волне сокращений заговорили ещё в прошлом году: IBM, Microsoft, Amazon и другие гиганты стали постепенно заменять сотрудников нейросетями. Сейчас можем оценить первые результаты - по данным консалтинговой компании Challenger, Gray & Christmas, ИИ стал причиной почти 55 000 увольнений в США в 2025 году.
И это касается не только сотрудников поддержки: компании всё чаще делегируют нейросетям простой код. Сейчас до 30% внутренней разработки в Microsoft и Google лежит на ИИ, а та же Claude уже превосходит программистов в техсобесах.
Пока ИИ берёт на себя рутину, ценность человека смещается в сторону интерпретации, приоритизации и влияния на решения - того, что по-прежнему нельзя автоматизировать полностью.
А это значит, что сейчас самое время дополнять стек не новыми языками программирования, а умением связывать технологии с потребностями бизнеса.
Если хотите выделиться на рынке и не пасть жертвой ИИ-сокращений, усильте свои компетенции на курсе "Аналитик данных" от Академии Eduson.
Что внутри:
- 419 коротких уроков по всему необходимому: от Excel, SQL, BI до презентации результатов.
- Модуль по профильным нейросетям для аналитики.
- 10+ практических кейсов для портфолио.
- Онлайн-формат без дедлайнов и бессрочный доступ к обновлениям.
- Личный куратор на 365 дней.
- Лекции от экспертов-практиков из "Яндекса", Datalatte, Softline, "Работа.ру".
- Диплом о профпереподготовке и гарантия содействия трудоустройству: если не найдёте работу - вернут деньги, это прописано в договоре.
Курс также подойдёт самоучкам, которые хотят систематизировать знания основ Python и войти в IT с востребованной специализацией.
Оставить заявку можно здесь. По промокоду
Реклама. ООО "Эдюсон", ИНН 7729779476, 2W5zFFvJXcc
О волне сокращений заговорили ещё в прошлом году: IBM, Microsoft, Amazon и другие гиганты стали постепенно заменять сотрудников нейросетями. Сейчас можем оценить первые результаты - по данным консалтинговой компании Challenger, Gray & Christmas, ИИ стал причиной почти 55 000 увольнений в США в 2025 году.
И это касается не только сотрудников поддержки: компании всё чаще делегируют нейросетям простой код. Сейчас до 30% внутренней разработки в Microsoft и Google лежит на ИИ, а та же Claude уже превосходит программистов в техсобесах.
Пока ИИ берёт на себя рутину, ценность человека смещается в сторону интерпретации, приоритизации и влияния на решения - того, что по-прежнему нельзя автоматизировать полностью.
А это значит, что сейчас самое время дополнять стек не новыми языками программирования, а умением связывать технологии с потребностями бизнеса.
Если хотите выделиться на рынке и не пасть жертвой ИИ-сокращений, усильте свои компетенции на курсе "Аналитик данных" от Академии Eduson.
Что внутри:
- 419 коротких уроков по всему необходимому: от Excel, SQL, BI до презентации результатов.
- Модуль по профильным нейросетям для аналитики.
- 10+ практических кейсов для портфолио.
- Онлайн-формат без дедлайнов и бессрочный доступ к обновлениям.
- Личный куратор на 365 дней.
- Лекции от экспертов-практиков из "Яндекса", Datalatte, Softline, "Работа.ру".
- Диплом о профпереподготовке и гарантия содействия трудоустройству: если не найдёте работу - вернут деньги, это прописано в договоре.
Курс также подойдёт самоучкам, которые хотят систематизировать знания основ Python и войти в IT с востребованной специализацией.
Оставить заявку можно здесь. По промокоду
PYTHON получите скидку 55% и второй курс на выбор в подарок: сможете прокачать ещё больше навыков или порадовать кого-то из близких.Реклама. ООО "Эдюсон", ИНН 7729779476, 2W5zFFvJXcc
😁13❤6
🔍 PaddleOCR-VL-1.5 внезапно ворвался в топ open-source OCR - и при этом модель всего на 0.9B параметров.
Фактически это сейчас один из самых сильных открытых инструментов для распознавания текста и понимания документов - при очень скромном размере по меркам современных AI-моделей.
Ирония в тайминге:
• Сначала вышел Kimi 2.5
• Потом DeepSeekOCR-2
• И буквально следом - PaddleOCR-VL-1.5
Неделя просто взрывная для направления AI, которое занимается документами: сканы, PDF, таблицы, формы, смешанный текст и структура.
Что особенно интересно - это не просто классический OCR "картинка → текст", а визуально-языковая модель. То есть она лучше понимает структуру документа: блоки, таблицы, взаимосвязи между элементами, а не только символы.
Для разработчиков это означает более точный парсинг документов, автоматизацию работы с формами, счетами, договорами, отчетами и любыми полу-структурированными файлами - и все это на базе полностью открытой модели.
Порог входа в продвинутую document AI снова стал ниже.
huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
@pythonl
Фактически это сейчас один из самых сильных открытых инструментов для распознавания текста и понимания документов - при очень скромном размере по меркам современных AI-моделей.
Ирония в тайминге:
• Сначала вышел Kimi 2.5
• Потом DeepSeekOCR-2
• И буквально следом - PaddleOCR-VL-1.5
Неделя просто взрывная для направления AI, которое занимается документами: сканы, PDF, таблицы, формы, смешанный текст и структура.
Что особенно интересно - это не просто классический OCR "картинка → текст", а визуально-языковая модель. То есть она лучше понимает структуру документа: блоки, таблицы, взаимосвязи между элементами, а не только символы.
Для разработчиков это означает более точный парсинг документов, автоматизацию работы с формами, счетами, договорами, отчетами и любыми полу-структурированными файлами - и все это на базе полностью открытой модели.
Порог входа в продвинутую document AI снова стал ниже.
huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
@pythonl
👍11❤6🔥4