EasyData – Telegram
EasyData
1.18K subscribers
167 photos
12 videos
23 files
97 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
Download Telegram
Привет, друзья!
Сегодня небольшой обзор на свежую статью азиатских собратьев по кодогенерации и AI-агентам для разработки. Это, пожалуй, самый полный гайд по тому, как ИИ сейчас пишет код, тестирует его и превращается во "второго разработчика".

Работа называется "From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence" и в ней более 70 авторов!

Ключевые мысли:

😵‍💫 LLM превращается из "подсказчиков кода" в полноценных разработчиков.
Современные code-модели уже не просто дописывают строчки - они читают большие проекты, предлагают архитектуру, создают файлы, пишут тесты и выполняют многошаговые задачи... Попробуйте Kiro, если ещё не - она теперь открыта для всех👀

😵‍💫 Но в реальных проектах всё ещё боль.
Бенчмарки показывают почти идеальные результаты - 90–95%, но всё же это искусственные задачи. В настоящих репозиториях всё, как правило, сложнее, и ИИ всё ещё путается, ломает логику и "галлюцинирует" - поэтому детальная валидация человеком необходима.

😵‍💫 Самая большая проблема - проверка качества.
Прохождение тестов != хороший код.
Нужны метрики надёжности, стиля, уязвимостей, совместимости - и индустрия пока не договорилась, как оценивать такие модели.

😵‍💫 Python проигрывает.
Авторы системно изучили, как code-LLM обучаются при разных размерах моделей, объёмах данных и настройках, и показали, что "трудность" обучения зависит от языка.
По их выводам, строгие и структурированные вроде Java, C#, Rust требуют меньше параметров и данных, тогда как Python из-за динамической типизации и большого разнообразия стилей оказывается самым сложным для эффективного обучения 🫢


Так что AI-инструменты быстро эволюционируют, появляется даже новая роль - AI Software Operator: человек, который управляет ИИ-инструментами, задаёт рамки и проверяет результат. Разработчиков не заменяют, просто меняется их набор инструментов.
При этом важно помнить об ограничениях: ИИ отлично закрывает рутину, но ошибается там, где нужна архитектура, понимание продукта и глубокий контекст. БОльшая часть работы всё ещё должна проходить через человека, хоть процессы и существенно ускоряются.

Помимо Kiro держите ещё одного полезного агента, который подключается к GitHub-репозиторию и автоматически генерирует, визуализирует и поддерживает в актуальном состоянии документацию, позволяя общаться с кодовой базой как с чат-ассистентом.

➡️ Ссылка на оригинал статьи

На ИИ (не)надейся, и сам не плошай😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥117👍61😐1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🤣9😁4👍2🙏1
Привет, друзья!
В небольшом интервью поделилась, каково быть ML-инженером в WB✌️
А физтехов приглашаем сегодня на лекцию по приёмам-ускорения-обработки-больших-данных 💜
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤‍🔥43
Forwarded from WB Level Up
Как попасть на позицию ML-инженера в Wildberries & Russ: рассказывает Мария Жарова

Кстати, кто из МФТИ? Мария выступает у вас с темой «приемы ускорения обработки больших данных» 15 декабря в 16:00, подключайтесь 🩷
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤‍🔥9🔥53
StatQuest_book.pdf
29.4 MB
Привет, дорогие друзья! 🎄

Конец года - хороший момент, чтобы остановиться и оглянуться назад. Вспомнить, сколько всего было сделано, чему удалось научиться и, конечно, загадать желания на грядущий год

В Новом Году хочется пожелать вам вдохновения, ясности в целях и уверенности в себе. Чтобы хватало сил на важное, времени - на близких, а энергии - на то, что действительно интересно.

А для желающих погрызть гранит науки в каникулы, как всегда, оставляю пару находок 😏
👉 GitHub А. Дьяконова - преподавателя и популяризатора ML, в его репозиториях можете найти массу полезных материалов. Например, тут огромная подборка конспектов по ML!
👉 Книга от создателя известного YouTube-канала StatQuest - редкий пример материала, где сложные темы по статистике и ML объясняются настолько понятно, что хочется записать каждую фразу.

‼️Если найдётся пара свободных минут, буду рада вашей обратной связи по каналу - можно оставить любые пожелания и предложения в анонимной форме: ➡️ ссылка тут ⬅️

Пусть в Новом Году модели чаще сходятся, данные ведут себя прилично, а результаты экспериментов радуют не только в ноутбуке, но и в реальной жизни.
С Наступающим!

#classic_ml@data_easy
#dl@data_easy
#математика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
214🎄6🎉4🎅32👍2🔥1
Привет, друзья!
Пока все обсуждали LLM и доедали салаты, в мире генеративного видео вышла новая модель LTX-2 от Lightricks, которая умеет генерировать видео по тексту, анимировать изображения и управляемо модифицирует сцены, сохраняя их структуру и движение. А главное - эта модель open-source, так что всё можно запустить локально 😏

Классических численных бенчмарков в статье нет, но по человеческим оценкам LTX-2 уже сравнима с Veo 3 и самой свежей Sora 2 по качеству картинки и согласованности аудио-видео.

🤩Технические детали
LTX-2 построена на Diffusion Transformer (DiT) - это гибрид диффузионной модели и трансформера, специально адаптированный под видео.
Упрощённо, обычные diffusion-модели думают кадр за кадром, а LTX-2 думает сразу про всю временную последовательность.
Поэтому мы получаем:
— меньше “дрожания” и случайных артефактов
— движения выглядят более непрерывными
— объекты реже “ломаются” между кадрами
Плюс модель оптимизирована под реальный инференс.

🤩Что это значит для нас?
LTX-2 - редкий пример качественной open-source video-модели, которую можно запускать локально, воспроизводить результаты и использовать для реальных экспериментов. При этом их код - это не research-прототип, а полноценный фреймворк: убедитесь сами, заглянув в репозиторий.

🤩Полезные ссылки:
— статья с arxiv: тык
— GitHub (там же в README вся документация и инструкции по запуску): тык
— веса на HF: тык
— гайд, как писать промпты для модели: тык

Ждём, когда тик-ток окончательно погрязнет в ИИ-контенте 👊

#cv@data_easy
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍11🔥6❤‍🔥5
Привет, друзья! 👋
Некоторые из вас знают, что рекомендательные системы - моя отдельная профессиональная любовь: занимаюсь ими и на работе, и в научной деятельности.
И как-то так вышло, что до сих пор мне ни разу не довелось провести отдельный вебинар, целиком посвящённый рекомендациям.

И вот наконец это свершится😁
В этот вторник подключусь к эфиру от Simulative, где разберу теорию и практику по рекомендательным системам.

Поговорим:
📱 какие бывают типы рексистем и почему не существует «одной универсальной»;
📱 в каких сценариях можно применять рекомендательные системы;
📱 где лучше работают простые методы, а где без ML уже не обойтись;
📱 и как всё это выглядит на конкретных прикладных примерах.

А в практической части попробуем вместе собрать простенькую рексистему и посмотреть на результат. По ходу дела заодно освежим в памяти тренды-профессии-2026 с ноября✌️

Стартуем 20 января, в 19:00 по мск
📱 Ссылка на регистрацию: тык 📱
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍6🎉6❤‍🔥41