Python/ django – Telegram
Python/ django
62.9K subscribers
2.33K photos
157 videos
48 files
3.07K links
по всем вопросам @haarrp

@itchannels_telegram - 🔥 все ит каналы

@ai_machinelearning_big_data -ML

@ArtificialIntelligencedl -AI

@datascienceiot - 📚

@pythonlbooks

РКН: clck.ru/3FmxmM
Download Telegram
🎙️ NVIDIA выпустила PersonaPlex-7B - open-source голосовая диалоговая модель, которая умеет то, что обычно недоступно классическим пайплайнам: **слушать и говорить одновременно**.

Модель:
- 🔓 бесплатная и полностью открытая (MIT)
- 🤗 веса доступны на Hugging Face
- 🧠 full-duplex conversational model (двусторонний “живой” диалог)

Обычно Voice AI устроен так:
ASR → LLM → TTS
Сначала распознаём речь, потом думаем, потом озвучиваем.
Работает эффективно, но диалог получается “роботным”:
говоришь по очереди, без перебиваний, без живой реакции.

PersonaPlex-7B меняет подход.
Она работает на непрерывных аудио-токенах и использует dual-stream transformer, который генерирует текст и аудио параллельно, а не переключает управление между модулями.

Это даёт:
- мгновенные “угу / да / понял” реакции (back-channel)
- естественные перебивания и уточнения
- нормальный ритм разговора, как у человека

Ещё один плюс: управление “персоной” работает zero-shot, без дополнительного дообучения.

Если ты делаешь голосового ассистента или саппорт-агента с низкой задержкой - это очень сильный шаг вперёд.

https://github.com/NVIDIA/personaplex

@pythonl
13🔥6👍4
🧠 Продвинутые советы по работе с Regex в Python

Всегда компилируй регулярные выражения. Это ускоряет работу при многократном использовании, делает код чище и упрощает тестирование.


import re
RE_EMAIL = re.compile(r"\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,}\b", re.I)
emails = RE_EMAIL.findall(text)


Используй raw-строки и re.VERBOSE, чтобы regex был читаемым, а не выглядел как случайный набор символов.



RE_DATE = re.compile(r"""
\b
(?P<year>\d{4})-(?P<month>0[1-9]|1[0-2])-(?P<day>0[1-9]|[12]\d|3[01])
\b
""", re.VERBOSE)


Если группа не нужна в выводе - делай её non-capturing (?:...). Это уменьшает расходы памяти и путаницу с индексами групп.



re.findall(r"(?:https?://)?(?:www\.)?example\.com/\S+", text)


Используй правильные якоря. \A и \Z безопаснее для валидации, чем ^ и $, которые зависят от флага MULTILINE.



re.match(r"\A\d+\Z", "123\n")


Контролируй код и ставь ограничения.

Бесконтрольный .* — частая причина зависаний и ReDoS.



re.search(r"<[^>]{0,2000}>", html)


Lookahead и lookbehind позволяют искать текст без захвата. Это мощный инструмент для точных выборок.


m = re.search(r"(?<=token=)[^\s]+", s)


Различай search, match и fullmatch. Для валидации почти всегда нужен fullmatch.


re.fullmatch(r"[a-z0-9_-]{3,32}", username)


Если замена содержит логику - используй функцию.


RE_NUM = re.compile(r"\d+")

masked = RE_NUM.sub(lambda m: "*" * len(m.group(0)), s)


Тестируй regex на “враждебных” данных: длинные строки, повторения.

Это помогает избежать ошибок.

Если стандартного re не хватает, используй библиотеку regex - она поддерживает таймауты и более мощные конструкции.


pip install regex


Regex в продакшене - это не магия. Это контроль, ограничения,
читаемость и тестирование.

@pythonl
👍137🔥5
Forwarded from Machinelearning
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством

DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.

Ключевая новинка - DeepEncoder V2.

В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:

- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше

Что это даёт на практике

📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры

По качеству

- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR

И это при размере модели всего 3B параметров.

Можно запускать и дообучать

Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.

🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

@ai_machinelearning_big_data

#DeepSeek #ocr #opensource
15👍6🔥4
Как все представляют завтрак разработчика в 2026 году 🤩
На самом деле утро начинается с мысли: «Как кодить еще лучше?»

Если вы уже освоили базу по Python и ищете зону роста, пройдите бесплатный мини-курс в Академии Selectel.

В программе:

🔸 набор Python-инструментов и расширений, которые ускоряют кодинг;
🔸 гайд по работе с библиотекой Tkinter, чтобы создавать приложения с графическим интерфейсом;
🔸 инструкция по основам парсинга данных с веб-сайтов и многое другое.

Закрепить полученные знания вы сможете тут же — эксперты собрали базу задач с готовыми ответами.

Все материалы бесплатные. До роскошного IT-завтрака осталось пройти курс в удобное время: https://slc.tl/leedt?2W5zFGhkak8
8🔥3😱1🤩1
🎨 Генерация изображений с GLM-Image

GLM-Image — это мощная модель генерации изображений, использующая гибридную архитектуру автогрессивного и диффузионного декодера. Она превосходно справляется с задачами текстового рендеринга и генерации сложной информации, обеспечивая высокое качество изображений и детальную проработку.

🚀 Основные моменты:
- Поддержка генерации изображений из текста и редактирования изображений.
- Высокая точность рендеринга текста и семантического понимания.
- Модуль обратной связи для улучшения эстетики и детализации.
- Подходит для задач с высокой информационной плотностью.

📌 GitHub: https://github.com/zai-org/GLM-Image
9👍4🔥3
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA показала новый разговорный ИИ - PersonaPlex

Суть фичи в том, что модель старается звучать максимально “живым” собеседником, а не просто отвечать по очереди.

Что умеет PersonaPlex:
· Переключать стиль общения (persona) - например строгий учитель, дружелюбный консультант, бармен и т.д.
· Говорить и слушать одновременно - меньше задержек и пауз в диалоге
· Поддакивать на фоне (“угу”, “ок”, “понятно”), пока человек говорит - чтобы разговор был ближе к реальному
· Проект открыт - исходники доступны, можно брать и пробовать самому

GitHub
Hugging Face
👍2011🔥7😁3
Теперь даже HRы на питоне пишут!
😁13714🔥11🤩5😱3👍1
Знания кода недостаточно: как сохранить и поднять свою ценность в IT

О волне сокращений заговорили ещё в прошлом году: IBM, Microsoft, Amazon и другие гиганты стали постепенно заменять сотрудников нейросетями. Сейчас можем оценить первые результаты - по данным консалтинговой компании Challenger, Gray & Christmas, ИИ стал причиной почти 55 000 увольнений в США в 2025 году.

И это касается не только сотрудников поддержки: компании всё чаще делегируют нейросетям простой код. Сейчас до 30% внутренней разработки в Microsoft и Google лежит на ИИ, а та же Claude уже превосходит программистов в техсобесах.

Пока ИИ берёт на себя рутину, ценность человека смещается в сторону интерпретации, приоритизации и влияния на решения - того, что по-прежнему нельзя автоматизировать полностью. 

А это значит, что сейчас самое время дополнять стек не новыми языками программирования, а умением связывать технологии с потребностями бизнеса.

Если хотите выделиться на рынке и не пасть жертвой ИИ-сокращений, усильте свои компетенции на курсе "Аналитик данных" от Академии Eduson.

Что внутри:
- 419 коротких уроков по всему необходимому: от Excel, SQL, BI до презентации результатов.
- Модуль по профильным нейросетям для аналитики.
- 10+ практических кейсов для портфолио.
- Онлайн-формат без дедлайнов и бессрочный доступ к обновлениям.
- Личный куратор на 365 дней.
- Лекции от экспертов-практиков из "Яндекса", Datalatte, Softline, "Работа.ру".
- Диплом о профпереподготовке и гарантия содействия трудоустройству: если не найдёте работу - вернут деньги, это прописано в договоре.

Курс также подойдёт самоучкам, которые хотят систематизировать знания основ Python и войти в IT с востребованной специализацией.

Оставить заявку можно здесь. По промокоду PYTHON получите скидку 55% и второй курс на выбор в подарок: сможете прокачать ещё больше навыков или порадовать кого-то из близких.

Реклама. ООО "Эдюсон", ИНН 7729779476, 2W5zFFvJXcc
😁147
🔍 PaddleOCR-VL-1.5 внезапно ворвался в топ open-source OCR - и при этом модель всего на 0.9B параметров.

Фактически это сейчас один из самых сильных открытых инструментов для распознавания текста и понимания документов - при очень скромном размере по меркам современных AI-моделей.

Ирония в тайминге:

• Сначала вышел Kimi 2.5
• Потом DeepSeekOCR-2
• И буквально следом - PaddleOCR-VL-1.5

Неделя просто взрывная для направления AI, которое занимается документами: сканы, PDF, таблицы, формы, смешанный текст и структура.

Что особенно интересно - это не просто классический OCR "картинка → текст", а визуально-языковая модель. То есть она лучше понимает структуру документа: блоки, таблицы, взаимосвязи между элементами, а не только символы.

Для разработчиков это означает более точный парсинг документов, автоматизацию работы с формами, счетами, договорами, отчетами и любыми полу-структурированными файлами - и все это на базе полностью открытой модели.

Порог входа в продвинутую document AI снова стал ниже.

huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

@pythonl
👍148🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Python ищет дубликаты файлов

Когда папка разрастается, дубликаты начинают тихо съедать место - особенно если ты сохраняешь одно и то же под разными именами.

Быстрый способ на Python - посчитать хеш каждого файла и собрать группы с одинаковым хешем. Так ты сразу увидишь, какие файлы реально одинаковые по содержимому, а не только по названию.


import os, hashlib

m = {}
for n in os.listdir("."):
if os.path.isfile(n):
with open(n, "rb") as f:
h = hashlib.md5(f.read()).hexdigest()
m.setdefault(h, []).append(n)

for v in m.values():
if len(v) > 1:
print("DUP:", v)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥98😱1
🚀 RenderCV: Open-Source AI для создания CV/резюме на лету

RenderCV - это GitHub-проект, который автоматизирует генерацию профессионального резюме с помощью AI. Он берет базовые данные (например, профиль, опыт, навыки) и формирует красиво отформатированный CV с умным распределением разделов, прицелом на ATS-системы (системы автоматического трекинга резюме) и внимание к деталям.

🔍 Основные фишки
- 💡 AI-генерация контента - на основе вводимых данных автоматически создаются описания опыта, навыков и достижений
- 📄 Готовые шаблоны — вывод резюме в структурированном виде, готовом для печати или публикации
- ⚙️ Настраиваемость — легко адаптировать под свой стиль, менять поля и формат
- 🤖 Поддержка AI-логики для переработки сухих фактов в интересные, читабельные формулировки

Простой рабочий цикл:
1) Вводишь базовые данные (имя, опыт, навыки)
2) AI дописывает грамотные описания
3) Получаешь готовое резюме без лишних усилий

💡 Это особенно полезно начинающим специалистам, карьерным переходам или тем, кто не любит вручную вырезать и править резюме перед каждой подачей.

🛠 Пример использования (в духе проектов этого класса):


# Клонируем репозиторий
git clone https://github.com/rendercv/rendercv.git

# Переходим в папку
cd rendercv

# Устанавливаем зависимости и запускаем
# (инструкции могут отличаться в зависимости от реализации)
npm install
npm start



https://github.com/rendercv/rendercv
6👍4🔥1🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 PYTHON МАТЕМАТИКА КАК У ПРОФИ

Ппрофессиональный подход к математике в Python строится не вокруг «посчитать формулу», а вокруг правильного стека инструментов и воспроизводимости. Всегда разделяй символьную математику, численные методы и работу с данными.

Для аналитики и вывода формул используй SymPy, для быстрых численных расчётов - NumPy, для научных алгоритмов - SciPy, для больших таблиц экспериментов - Pandas.

Никогда не смешивай «магические числа» в коде - все параметры выноси в переменные. Работай в Jupyter или VS Code с ноутбуками, фиксируй версии библиотек и обязательно проверяй устойчивость решений через разные методы (например, интеграл численно и аналитически). Так код становится не просто расчётом, а научным инструментом.


import numpy as np
import sympy as sp
from scipy import integrate

# 1. Символьная математика
x = sp.symbols('x')
expr = sp.sin(x) / x
analytic_integral = sp.integrate(expr, (x, 1, 10))

# 2. Численная математика
f = lambda x: np.sin(x) / x
numeric_integral, error = integrate.quad(f, 1, 10)

# 3. Векторизация вместо циклов
arr = np.linspace(1, 10, 1_000_000)
fast_result = np.sin(arr) / arr

print("Analytic:", analytic_integral)
print("Numeric:", numeric_integral, "Error:", error)


@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥6👍3