This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ LavaSR - улучшение речи в 4000× быстрее реального времени
В open-source выложили LavaSR - модель для улучшения качества речи, которая работает с экстремальной скоростью.
Что умеет модель:
- Скорость — до 4000× realtime
(обрабатывает часы аудио за секунды)
- Универсальность — поддержка любого аудио от 8 kHz до 48 kHz
- Размер — всего ~50 МБ, можно запускать практически везде
- Качество — сопоставимо с более крупными моделями
Где это может пригодиться
- очистка шума в записях
- улучшение качества звонков
- подготовка аудио для ASR / speech-to-text
- подкасты, стримы, voice-боты
- обработка аудио на edge-устройствах
Лёгкая модель + высокая скорость = удобно для реальных production-задач.
Репозиторий: https://github.com/ysharma3501/LavaSR
📲 Max
В open-source выложили LavaSR - модель для улучшения качества речи, которая работает с экстремальной скоростью.
Что умеет модель:
- Скорость — до 4000× realtime
(обрабатывает часы аудио за секунды)
- Универсальность — поддержка любого аудио от 8 kHz до 48 kHz
- Размер — всего ~50 МБ, можно запускать практически везде
- Качество — сопоставимо с более крупными моделями
Где это может пригодиться
- очистка шума в записях
- улучшение качества звонков
- подготовка аудио для ASR / speech-to-text
- подкасты, стримы, voice-боты
- обработка аудио на edge-устройствах
Лёгкая модель + высокая скорость = удобно для реальных production-задач.
Репозиторий: https://github.com/ysharma3501/LavaSR
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Создадим бота, , КОТОРЫЙ ОТВЕЧАЕТ ЗА ТЕБЯ 24 на 7.
Давайте сделаем AI, который будет отвечать людям за тебя.
Работает это очень просто. Человек пишет комментарий в Telegram или в чат. Бот получает сообщение, отправляет его в GPT, генерирует ответ в твоём стиле и сразу отвечает. Для пользователя это выглядит так, как будто ты всегда онлайн.
Самое важное — правильно задать промпт. Например: «Отвечай дружелюбно, кратко и в стиле автора». Тогда бот будет поддерживать диалог, благодарить за комментарии и вовлекать людей. Такой автоответчик отлично работает для каналов, прогрева аудитории, поддержки и роста активности.
По сути, это твой AI-менеджер общения, который работает 24/7 и не устаёт.
Давайте сделаем AI, который будет отвечать людям за тебя.
Работает это очень просто. Человек пишет комментарий в Telegram или в чат. Бот получает сообщение, отправляет его в GPT, генерирует ответ в твоём стиле и сразу отвечает. Для пользователя это выглядит так, как будто ты всегда онлайн.
Самое важное — правильно задать промпт. Например: «Отвечай дружелюбно, кратко и в стиле автора». Тогда бот будет поддерживать диалог, благодарить за комментарии и вовлекать людей. Такой автоответчик отлично работает для каналов, прогрева аудитории, поддержки и роста активности.
По сути, это твой AI-менеджер общения, который работает 24/7 и не устаёт.
import openai
from telegram import Update
from telegram.ext import ApplicationBuilder, MessageHandler, filters, ContextTypes
openai.api_key = "OPENAI_API_KEY"
TELEGRAM_TOKEN = "TELEGRAM_BOT_TOKEN"
SYSTEM_PROMPT = "Ты дружелюбный помощник автора. Отвечай кратко и по делу."
async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE):
user_text = update.message.text
response = openai.ChatCompletion.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": user_text}
]
)
reply = response.choices[0].message["content"]
await update.message.reply_text(reply)
app = ApplicationBuilder().token(TELEGRAM_TOKEN).build()
app.add_handler(MessageHandler(filters.TEXT & ~filters.COMMAND, handle_message))
app.run_polling()
❤4👎4
# 🤖 WiFi DensePose: Поза без камер
WiFi DensePose — система оценки позы человека, использующая данные о состоянии канала (CSI) для определения позы в реальном времени без камер. Идеально подходит для приложений в области здравоохранения, фитнеса и безопасности.
🚀 Основные моменты:
- Приватность: работает без камер, используя WiFi-сигналы.
- Реальное время: задержка менее 50 мс, 30 FPS.
- Многопользовательский режим: отслеживание до 10 человек одновременно.
- Оптимизация под конкретные задачи: здравоохранение, умный дом и безопасность.
- Готовность к производству: API с аутентификацией и мониторингом.
📌 GitHub: https://github.com/ruvnet/wifi-densepose
#python
WiFi DensePose — система оценки позы человека, использующая данные о состоянии канала (CSI) для определения позы в реальном времени без камер. Идеально подходит для приложений в области здравоохранения, фитнеса и безопасности.
🚀 Основные моменты:
- Приватность: работает без камер, используя WiFi-сигналы.
- Реальное время: задержка менее 50 мс, 30 FPS.
- Многопользовательский режим: отслеживание до 10 человек одновременно.
- Оптимизация под конкретные задачи: здравоохранение, умный дом и безопасность.
- Готовность к производству: API с аутентификацией и мониторингом.
📌 GitHub: https://github.com/ruvnet/wifi-densepose
#python
GitHub
GitHub - ruvnet/wifi-densepose: WiFi DensePose turns commodity WiFi signals into real-time human pose estimation, vital sign monitoring…
WiFi DensePose turns commodity WiFi signals into real-time human pose estimation, vital sign monitoring, and presence detection — all without a single pixel of video. - GitHub - ruvnet/wifi-densep...
❤3
ByteDance выпустила новую open-source модель для генерации изображений.
По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image.
Главная особенность — модель работает в autoregressive-режиме.
Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях.
Такой подход даёт:
- лучшее понимание сцены и объектов
- более логичную композицию
- стабильность персонажей и деталей
- более «осмысленную» генерацию
Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов.
GitHub: https://github.com/shallowdream204/BitDance
По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image.
Главная особенность — модель работает в autoregressive-режиме.
Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях.
Такой подход даёт:
- лучшее понимание сцены и объектов
- более логичную композицию
- стабильность персонажей и деталей
- более «осмысленную» генерацию
Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов.
GitHub: https://github.com/shallowdream204/BitDance
❤4👍3
Forwarded from Python/ django
💸 AI, который должен зарабатывать… или обанкротится
Исследователи представили ClawWork - систему, где модель работает в условиях реальной экономики.
Стартовые условия:
- баланс: $10
- каждая генерация = реальные расходы на токены
- никакого безлимита
- не заработал - банкрот
Как это работает:
→ AI получает реальные профессиональные задачи
(финансы, медицина, юриспруденция, аналитика)
→ Сам создаёт полноценные результаты с нуля
→ Качество оценивается GPT-5.2 по профессиональным критериям
→ Оплата рассчитывается по формуле:
качество × оценка часов × средняя зарплата (BLS)
→ Каждый API-запрос уменьшает баланс
Результаты:
- $10K заработано за 7 часов
- 0 участия человека
- 220 задач
- 44 профессии
- лучшие модели - $1500+ в час (эквивалент)
Это уже не просто бенчмарк.
Это экономический тест на выживание.
Модель должна принимать решения:
- быстро выполнять задачи ради кэша
- или тратить ресурсы на обучение, чтобы зарабатывать больше позже
Дополнительно:
AI может работать как живой сотрудник в
Telegram, Slack, Discord и WhatsApp —
и каждое сообщение стоит реальных денег.
Проект полностью open-source (MIT).
Следующий этап оценки AI - не тесты и бенчмарки.
А способность приносить деньги в реальной экономике.
https://github.com/HKUDS/ClawWork
📲 Max
@pythonl
Исследователи представили ClawWork - систему, где модель работает в условиях реальной экономики.
Стартовые условия:
- баланс: $10
- каждая генерация = реальные расходы на токены
- никакого безлимита
- не заработал - банкрот
Как это работает:
→ AI получает реальные профессиональные задачи
(финансы, медицина, юриспруденция, аналитика)
→ Сам создаёт полноценные результаты с нуля
→ Качество оценивается GPT-5.2 по профессиональным критериям
→ Оплата рассчитывается по формуле:
качество × оценка часов × средняя зарплата (BLS)
→ Каждый API-запрос уменьшает баланс
Результаты:
- $10K заработано за 7 часов
- 0 участия человека
- 220 задач
- 44 профессии
- лучшие модели - $1500+ в час (эквивалент)
Это уже не просто бенчмарк.
Это экономический тест на выживание.
Модель должна принимать решения:
- быстро выполнять задачи ради кэша
- или тратить ресурсы на обучение, чтобы зарабатывать больше позже
Дополнительно:
AI может работать как живой сотрудник в
Telegram, Slack, Discord и WhatsApp —
и каждое сообщение стоит реальных денег.
Проект полностью open-source (MIT).
Следующий этап оценки AI - не тесты и бенчмарки.
А способность приносить деньги в реальной экономике.
https://github.com/HKUDS/ClawWork
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👎3❤2
🧠 Claude-Mem: Умная система памяти для Claude Code
Claude-Mem обеспечивает сохранение контекста между сессиями, автоматически фиксируя использование инструментов и создавая семантические резюме. Это позволяет Claude поддерживать непрерывность знаний о проектах даже после завершения сессий.
🚀 Основные моменты:
- Автоматическое сохранение контекста между сессиями
- Генерация семантических резюме
- Поддержка Claude Code
- Легкая установка через плагины
📌 GitHub: https://github.com/thedotmack/claude-mem
#javanoscript
Claude-Mem обеспечивает сохранение контекста между сессиями, автоматически фиксируя использование инструментов и создавая семантические резюме. Это позволяет Claude поддерживать непрерывность знаний о проектах даже после завершения сессий.
🚀 Основные моменты:
- Автоматическое сохранение контекста между сессиями
- Генерация семантических резюме
- Поддержка Claude Code
- Легкая установка через плагины
📌 GitHub: https://github.com/thedotmack/claude-mem
#javanoscript
GitHub
GitHub - thedotmack/claude-mem: A Claude Code plugin that automatically captures everything Claude does during your coding sessions…
A Claude Code plugin that automatically captures everything Claude does during your coding sessions, compresses it with AI (using Claude's agent-sdk), and injects relevant context back into...
❤5👍1
Новая модель GPT-5.4 от OpenAI поднялась на 6 пунктов и разделила 1-е место в Intelligence Index вместе с Gemini 3.1 Pro Preview от Google.
Модель показывает очень сильные результаты в задачах уровня научных исследований, особенно в физике и агентном программировании, устанавливая новые рекорды по нескольким бенчмаркам.
Также у неё огромное контекстное окно — 1.05 млн токенов.
Но есть и минус.
Модель очень дорогая:
• запуск бенчмарков обошёлся почти в 3 раза дороже, чем у Gemini
• уровень галлюцинаций вырос до 89%, потому что модель слишком стремится отвечать на вопросы, даже когда не уверена.
•
🐍 Python полезные ресурсы 🚀Max
Модель показывает очень сильные результаты в задачах уровня научных исследований, особенно в физике и агентном программировании, устанавливая новые рекорды по нескольким бенчмаркам.
Также у неё огромное контекстное окно — 1.05 млн токенов.
Но есть и минус.
Модель очень дорогая:
• запуск бенчмарков обошёлся почти в 3 раза дороже, чем у Gemini
• уровень галлюцинаций вырос до 89%, потому что модель слишком стремится отвечать на вопросы, даже когда не уверена.
•
🐍 Python полезные ресурсы 🚀Max
❤2👍1
Forwarded from Machinelearning
Tencent HY опубликовала первую часть серии работ под названием HY-WU (Weight Unleashing). Суть метода в отказе от стандартной парадигмы адаптации, при которой модель получает один фиксированный набор весов для всех задач.
Специальная модель-генератор синтезирует LoRA отдельно под каждый входной пример прямо во время инференса, без дополнительной оптимизации на тест-тайме.
Проблема, которую решает HY-WU, хорошо знакома всем, кто работал с дообучением: когда задачи противоречат друг другу (например, "размыть" против "убрать размытие" или "состарить лицо" против "восстановить"), общий адаптер вынужден идти на компромисс.
Градиенты конфликтуют, и результат оказывается хуже, чем если бы задачи обучались раздельно.
Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.
HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель.
Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров.
Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны.
Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели.
Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.
Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах:
Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора.
Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает.
Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM.
@ai_machinelearning_big_data
#AI #ML #ImageEdit #HYWU #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
🧠 Python-библиотеки для AI-агентов - сложность изучения 🔥
🟢 Легко
• LangChain
• вызов инструментов (tool calling)
• память агента
• простые агенты
• CrewAI
• агенты с ролями
• коллаборация нескольких агентов
• SmolAgents
• лёгкие агенты
• быстрые эксперименты
🟡 Средне
• LangGraph
• stateful-воркфлоу
• оркестрация агентов
• LlamaIndex
• RAG-пайплайны
• индексирование данных
• knowledge-агенты
• OpenAI Agents SDK
• интеграции инструментов
• агентные workflow
• Strands
• оркестрация агентов
• координация задач
• Semantic Kernel
• skills / плагины
• оркестрация AI-процессов
• PydanticAI
• типизированные LLM-приложения
• структурированные workflow агентов
• Langroid
• обмен сообщениями между агентами
• взаимодействие с инструментами
🔴 Сложно
• AutoGen
• мультиагентные диалоги
• автономная кооперация агентов
• DSPy
• программируемый prompting
• оптимизация LLM-пайплайнов
• A2A
• протокол agent-to-agent
• распределённые агентные системы
🟢 Легко
• LangChain
• вызов инструментов (tool calling)
• память агента
• простые агенты
• CrewAI
• агенты с ролями
• коллаборация нескольких агентов
• SmolAgents
• лёгкие агенты
• быстрые эксперименты
🟡 Средне
• LangGraph
• stateful-воркфлоу
• оркестрация агентов
• LlamaIndex
• RAG-пайплайны
• индексирование данных
• knowledge-агенты
• OpenAI Agents SDK
• интеграции инструментов
• агентные workflow
• Strands
• оркестрация агентов
• координация задач
• Semantic Kernel
• skills / плагины
• оркестрация AI-процессов
• PydanticAI
• типизированные LLM-приложения
• структурированные workflow агентов
• Langroid
• обмен сообщениями между агентами
• взаимодействие с инструментами
🔴 Сложно
• AutoGen
• мультиагентные диалоги
• автономная кооперация агентов
• DSPy
• программируемый prompting
• оптимизация LLM-пайплайнов
• A2A
• протокол agent-to-agent
• распределённые агентные системы
❤4👍2