Forwarded from Small Data Science for Russian Adventurers
#визуализация
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Forwarded from LLM под капотом
Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
(2) Анализируем код, проглядываем журнал экспериментов и в файл
(3) реализуем код и запускаем
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
experiments/007-experiment.md(2) Анализируем код, проглядываем журнал экспериментов и в файл
experiments/007-experiment.md дописываем план для улучшения текущего score(3) реализуем код и запускаем
make eval. Если score стал лучше, то отправляем все в коммит с описанием(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"
for ((start_index=0; start_index<=50; start_index+=1)); do
codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Forwarded from Artem Ryblov’s Data Science Weekly
A/B Testing & Experimentation Roadmap
This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).
It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.
Link: GitHub
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab
@data_science_weekly
This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).
It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.
Link: GitHub
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab
@data_science_weekly
Forwarded from Борис опять
#дайджест
Дайджест ML/AI за неделю 5 - 11 Января 2026
Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код
OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост
Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья
ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья
NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
Дайджест ML/AI за неделю 5 - 11 Января 2026
Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код
OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост
Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья
ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья
NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
ltx.io
LTX-2: Production-Grade AI Video Generation Model | LTX Model
LTX-2 is a pro AI video model for production. It offers precise control, native 4K, high frame rates and proven performance for long-form creative tasks.
Forwarded from Борис опять
Очень хороший практический гайд по всем трюкам, велосипедам и костылям для построения RAG систем:
https://habr.com/ru/articles/893356/
В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется
https://habr.com/ru/articles/893356/
В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется
Хабр
Как я победил в RAG Challenge: от нуля до SoTA за один конкурс
Автор - DarkBones Предисловие В этом посте я расскажу про подход, благодаря которому я занял первое место в обеих призовых номинациях и в общем SotA рейтинге. В чём суть RAG Challenge? Нужно создать...
Forwarded from Алексей
claude для кода gpt для проверки qwen для оценки gemini для того чтобы понять что написано
Forwarded from Quant Researcher
Nautilus Trader — индустриальный бэктестинг
https://github.com/nautechsystems/nautilus_trader
Если вы пытались превратить красивую идею в реплицируемый PnL, вы знаете, как это весело и увлекательно: бэктест не сходится, исполнение — по ценам с ффилами, а латенси существует только на словах.
Nautilus Trader — это попытка закрыть именно этот разрыв. Проект от Nautech Systems, open-source, сразу целится в production-grade trading stack.
🧠 Ключевая идея
Бэктест = симуляция реальной торговой системы, а не просто прогон сигналов по историческим ценам.
Библиотека моделирует не только рынок, но и ордера, исполнение, задержки, комиссии, частичную ликвидность, состояние портфеля, event-driven логику.
Фактически, это единый движок для research, backtesting, paper trading, live.
Без переписывания стратегии под каждый этап.
⚙️ Архитектура
- Event-driven ядро (никаких «for price in prices»)
- Строгое разделение:
- Strategy
- Execution
- Portfolio
- Risk
- Детальная модель ордеров (limit / market / stop / OCO и т.д.)
- Поддержка crypto, FX, equities
- Python + Rust (где нужна скорость)
Это не обертка над pandas, а торговый симулятор, ближе по духу к тому, как думают HFT / prop desks.
📊 Почему это важно для квантов
Большинство стратегий умирают не из-за идеи, а из-за недоучтённого исполнения, хвостов распределения PnL, нелинейностей при масштабировании.
Nautilus Trader заставляет как можно раньше подумать про ликвидность, проскальзывание, устойчивость PnL, path-dependence.
А значит — лучше понимать, какие риски вы реально покупаете или продаете.
⸻
А выкаким порошком пользуетесь:
• моделируете исполнение в бэктестах?
• знаете, чувствительность своего PnL от проскальзывания и комиссий?
Quant Researcher
https://github.com/nautechsystems/nautilus_trader
Если вы пытались превратить красивую идею в реплицируемый PnL, вы знаете, как это весело и увлекательно: бэктест не сходится, исполнение — по ценам с ффилами, а латенси существует только на словах.
Nautilus Trader — это попытка закрыть именно этот разрыв. Проект от Nautech Systems, open-source, сразу целится в production-grade trading stack.
🧠 Ключевая идея
Бэктест = симуляция реальной торговой системы, а не просто прогон сигналов по историческим ценам.
Библиотека моделирует не только рынок, но и ордера, исполнение, задержки, комиссии, частичную ликвидность, состояние портфеля, event-driven логику.
Фактически, это единый движок для research, backtesting, paper trading, live.
Без переписывания стратегии под каждый этап.
⚙️ Архитектура
- Event-driven ядро (никаких «for price in prices»)
- Строгое разделение:
- Strategy
- Execution
- Portfolio
- Risk
- Детальная модель ордеров (limit / market / stop / OCO и т.д.)
- Поддержка crypto, FX, equities
- Python + Rust (где нужна скорость)
Это не обертка над pandas, а торговый симулятор, ближе по духу к тому, как думают HFT / prop desks.
📊 Почему это важно для квантов
Большинство стратегий умирают не из-за идеи, а из-за недоучтённого исполнения, хвостов распределения PnL, нелинейностей при масштабировании.
Nautilus Trader заставляет как можно раньше подумать про ликвидность, проскальзывание, устойчивость PnL, path-dependence.
А значит — лучше понимать, какие риски вы реально покупаете или продаете.
⸻
А вы
• моделируете исполнение в бэктестах?
• знаете, чувствительность своего PnL от проскальзывания и комиссий?
Quant Researcher