NEW BOT Телеграм, страница

EasyData

Привет, друзья!
Держите классный ресурс, который может стать одним из лучших учебников для всех, кто строит ML-продукты, занимается MLOps, оптимизацией моделей или просто хочет понимать, как устроены реальные машинно-обучающие-системы под капотом.

Речь про Machine Learning Systems от профессора Гарварда Vijay Janapa Reddi с участием инженеров Google и исследователей из MIT/Harvard. Создатели формулируют идею книги так:

"Сегодня студентов в основном учат тому, как обучать модели машинного обучения — но лишь немногие получают знания о том, как создавать системы, делающие эти модели реально полезными в жизни. По мере того как возможности искусственного интеллекта стремительно растут, дальнейший прогресс будет всё меньше зависеть от появления новых алгоритмов — ведь сам ИИ всё чаще сможет их совершенствовать, — и всё больше от появления инженеров, которые способны разрабатывать масштабируемые, эффективные и ответственные системы, воплощающие эти алгоритмы в реальность."

И это действительно точное попадание в то, что происходит с индустрией сейчас. Книга - полноценный учебник об инженерных аспектах ML-систем: архитектуры моделей, производительность, компиляция, оптимизация, развертывание, edge-вычисления, аппаратные ускорители и всё, что делает ML индустриальным инструментом, а не набором ноутбуков.

Более того, материалы полностью open-source и бесплатны, а также активно поддерживаются и обновляются сообществом. Репозиторий собрал уже более 10k⭐ и более 1k fork-ов!

🔗 ссылка на GitHub-репозиторий: тык
🔗 актуальная онлайн-версия в pdf тут

#mlops@data_easy

2🔥29❤‍🔥9❤2🤩2🙏1

1.15K views17:46

EasyData

Привет, друзья!
Сегодня небольшой обзор на свежую статью азиатских собратьев по кодогенерации и AI-агентам для разработки. Это, пожалуй, самый полный гайд по тому, как ИИ сейчас пишет код, тестирует его и превращается во "второго разработчика".

Работа называется "From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence" и в ней более 70 авторов!

Ключевые мысли:

😵‍💫

LLM превращается из "подсказчиков кода" в полноценных разработчиков.
Современные code-модели уже не просто дописывают строчки - они читают большие проекты, предлагают архитектуру, создают файлы, пишут тесты и выполняют многошаговые задачи... Попробуйте Kiro, если ещё не - она теперь открыта для всех👀

😵‍💫

Но в реальных проектах всё ещё боль.
Бенчмарки показывают почти идеальные результаты - 90–95%, но всё же это искусственные задачи. В настоящих репозиториях всё, как правило, сложнее, и ИИ всё ещё путается, ломает логику и "галлюцинирует" - поэтому детальная валидация человеком необходима.

😵‍💫

Самая большая проблема - проверка качества.
Прохождение тестов != хороший код.
Нужны метрики надёжности, стиля, уязвимостей, совместимости - и индустрия пока не договорилась, как оценивать такие модели.

😵‍💫

Python проигрывает.
Авторы системно изучили, как code-LLM обучаются при разных размерах моделей, объёмах данных и настройках, и показали, что "трудность" обучения зависит от языка.
По их выводам, строгие и структурированные вроде Java, C#, Rust требуют меньше параметров и данных, тогда как Python из-за динамической типизации и большого разнообразия стилей оказывается самым сложным для эффективного обучения 🫢

Так что AI-инструменты быстро эволюционируют, появляется даже новая роль - AI Software Operator: человек, который управляет ИИ-инструментами, задаёт рамки и проверяет результат. Разработчиков не заменяют, просто меняется их набор инструментов.
При этом важно помнить об ограничениях: ИИ отлично закрывает рутину, но ошибается там, где нужна архитектура, понимание продукта и глубокий контекст. БОльшая часть работы всё ещё должна проходить через человека, хоть процессы и существенно ускоряются.

Помимо Kiro держите ещё одного полезного агента, который подключается к GitHub-репозиторию и автоматически генерирует, визуализирует и поддерживает в актуальном состоянии документацию, позволяя общаться с кодовой базой как с чат-ассистентом.

➡️

Ссылка на оригинал статьи

На ИИ (не)надейся, и сам не плошай😎

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥11❤7👍6⚡1😐1

981 viewsedited 17:43

EasyData

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

💃с пятницей и хороших выходных!
#мем@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12🤣9😁4👍2🙏1

972 views15:25

EasyData

Привет, друзья!
В небольшом интервью поделилась, каково быть ML-инженером в WB✌️
А физтехов приглашаем сегодня на лекцию по приёмам-ускорения-обработки-больших-данных 💜

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤‍🔥4❤3

859 views09:17

EasyData

Forwarded from WB Level Up

Как попасть на позицию ML-инженера в Wildberries & Russ: рассказывает Мария Жарова

Кстати, кто из МФТИ? Мария выступает у вас с темой «приемы ускорения обработки больших данных» 15 декабря в 16:00, подключайтесь 🩷

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤‍🔥9🔥5❤3

1.01K views09:17

EasyData

StatQuest_book.pdf

29.4 MB

Привет, дорогие друзья! 🎄

Конец года - хороший момент, чтобы остановиться и оглянуться назад. Вспомнить, сколько всего было сделано, чему удалось научиться и, конечно, загадать желания на грядущий год✨

В Новом Году хочется пожелать вам вдохновения, ясности в целях и уверенности в себе. Чтобы хватало сил на важное, времени - на близких, а энергии - на то, что действительно интересно.

А для желающих погрызть гранит науки в каникулы, как всегда, оставляю пару находок

😏

👉 GitHub А. Дьяконова - преподавателя и популяризатора ML, в его репозиториях можете найти массу полезных материалов. Например, тут огромная подборка конспектов по ML!
👉 Книга от создателя известного YouTube-канала StatQuest - редкий пример материала, где сложные темы по статистике и ML объясняются настолько понятно, что хочется записать каждую фразу.

‼️Если найдётся пара свободных минут, буду рада вашей обратной связи по каналу - можно оставить любые пожелания и предложения в анонимной форме: ➡️ ссылка тут ⬅️

Пусть в Новом Году модели чаще сходятся, данные ведут себя прилично, а результаты экспериментов радуют не только в ноутбуке, но и в реальной жизни.
С Наступающим!✨

#classic_ml@data_easy
#dl@data_easy
#математика@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤14🎄6🎉4🎅3☃2👍2🔥1

969 views12:01

EasyData

Привет, друзья!
Пока все обсуждали LLM ~~и доедали салаты~~, в мире генеративного видео вышла новая модель LTX-2 от Lightricks, которая умеет генерировать видео по тексту, анимировать изображения и управляемо модифицирует сцены, сохраняя их структуру и движение. А главное - эта модель open-source, так что всё можно запустить локально 😏

Классических численных бенчмарков в статье нет, но по человеческим оценкам LTX-2 уже сравнима с Veo 3 и самой свежей Sora 2 по качеству картинки и согласованности аудио-видео.

🤩

Технические детали
LTX-2 построена на Diffusion Transformer (DiT) - это гибрид диффузионной модели и трансформера, специально адаптированный под видео.
Упрощённо, обычные diffusion-модели думают кадр за кадром, а LTX-2 думает сразу про всю временную последовательность.
Поэтому мы получаем:
— меньше “дрожания” и случайных артефактов
— движения выглядят более непрерывными
— объекты реже “ломаются” между кадрами
Плюс модель оптимизирована под реальный инференс.

🤩

Что это значит для нас?
LTX-2 - редкий пример качественной open-source video-модели, которую можно запускать локально, воспроизводить результаты и использовать для реальных экспериментов. При этом их код - это не research-прототип, а полноценный фреймворк: убедитесь сами, заглянув в репозиторий.

🤩

Полезные ссылки:
— статья с arxiv: тык
— GitHub (там же в README вся документация и инструкции по запуску): тык
— веса на HF: тык
— гайд, как писать промпты для модели: тык

Ждём, когда тик-ток окончательно погрязнет в ИИ-контенте 👊

#cv@data_easy
#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

LTX-2: Efficient Joint Audio-Visual Foundation Model

Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce...

1👍11🔥6❤‍🔥5

832 viewsedited 15:07

About

Blog

Apps

Platform