Forwarded from Кодим на Коленке | Уроки по программированию
Forwarded from ИЦ "ГЕВИССТА"
Часть_3_17_3_Комбинирование_нескольких_методов_для_отбора_признаков.ipynb
1.2 MB
Из предстоящей книги по предварительной подготовке данных
Часть 3_17.3._Комбинирование нескольких методов для отбора признаков (задача Porto Seguro’s Safe Driver Prediction с Kaggle)
Часть 3_17.3._Комбинирование нескольких методов для отбора признаков (задача Porto Seguro’s Safe Driver Prediction с Kaggle)
Forwarded from See All
Крч, кто не в теме - это американский хакер, ставший известным благодаря снятию блокировки со смартфона iPhone, что позволило использовать его с другими операторами сотовой связи кроме AT&T. Кроме того известен взломом Sony PlayStation 3 и последовавшим после этого судебным иском со стороны компании Sony.
Сейчас последние 2-3 мес он пишет свой бэкэнд для нейронок на питоне (все на гите в опенсорсе). В этом есть две ценности, на мой взгляд, которые будут полезны людям, у которых <5 лет опыта в индустрии:
1) он крепкий SWE, а не MLE, поэтому он сначала продумывает до мелочей дизайн, интерфейсы, все до идеала просчитывает, и свои мысли описывает. Есть чему поучиться
2) он крепкий SWE, и стоит поучитсья у него дебагу, написаню тестов и тому, как он решает проблемы. Этот человек в топ-1% по навыкам кодинга стопроц, скорее даже 0.01%, и при этом он делает то, что я часто не вижу у людей в слаках/тг/у стажеров. Он видит ошибку И СРАЗУ ЕЕ ГУГЛИТ, НЕ СТЕСНЯЯСЬ. И, внезапно, находит решение. Я хз, почему люди это не делают, мб думают что умные и сами разберутся, но видя то, как другие решают проблемы, мб это уйдет.
Всем очень рекомендую посомтреть хотя бы 2-3 часа, и потом понять для себя, будет ли полезно;
Видосы можно найти тут https://www.youtube.com/c/georgehotzarchive/videos
Сейчас последние 2-3 мес он пишет свой бэкэнд для нейронок на питоне (все на гите в опенсорсе). В этом есть две ценности, на мой взгляд, которые будут полезны людям, у которых <5 лет опыта в индустрии:
1) он крепкий SWE, а не MLE, поэтому он сначала продумывает до мелочей дизайн, интерфейсы, все до идеала просчитывает, и свои мысли описывает. Есть чему поучиться
2) он крепкий SWE, и стоит поучитсья у него дебагу, написаню тестов и тому, как он решает проблемы. Этот человек в топ-1% по навыкам кодинга стопроц, скорее даже 0.01%, и при этом он делает то, что я часто не вижу у людей в слаках/тг/у стажеров. Он видит ошибку И СРАЗУ ЕЕ ГУГЛИТ, НЕ СТЕСНЯЯСЬ. И, внезапно, находит решение. Я хз, почему люди это не делают, мб думают что умные и сами разберутся, но видя то, как другие решают проблемы, мб это уйдет.
Всем очень рекомендую посомтреть хотя бы 2-3 часа, и потом понять для себя, будет ли полезно;
Видосы можно найти тут https://www.youtube.com/c/georgehotzarchive/videos
Forwarded from Вячеслав Колосков
#report2710 #MPC
Проект: Моделирование подписей к постерам фильмов
1. DVC
Подключили DVC для хранения датасета с картинками (~4Gb.). В качестве хранилища использовали Yandex Storage S3.
Подробная инструкция по подключению Yandex S3 к DVC: https://youtu.be/tC3IdAN_hX4?t=1782
З.Ы. Яндекс дает грант на изучение возможностей своего хранилища на 4000₽ сроком на 60 дней. Хотя судя по прайсу на весь срок проекта на 5Гб можно обойтись 50₽ :)
З.Ы.2 Свежий доклад по DVC от создателей: https://www.youtube.com/watch?v=cxQCIPspMkA
Хозяйке на заметку: появилось расширение DVC для VS Code - https://marketplace.visualstudio.com/items?itemName=Iterative.dvc
по функционалу похоже на расширение для Git’а, плюс еще некоторые плюшки.
2. DAG
Переписали DAG формирования датасета с makefile на pipline от DVC. Не стали городить огород из разных инструментов. Раз уже поставили DVC, то пусть выполняет все возможные функции.
3. Начали рисовать схему проекта (см. картинку).
4. Модели
Попытки запустить архитектуру encoder-decoder с attention зашли в тупик. Очень долго крутили вертели модель, но увы результата не было. Обучение вроде шло неплохо, loss снижался, но в предикшене мы получали последовательность <unk>. Мы делали различные предположения о том что не так: снижали размерность словаря, пытались нормировать картинки, включали fine_tunning для эмбедингов, загружали предубученные эмбединги … но ничего не помогало.
В итоге мы переключились на архитектуру VisionEncoderDecoderModel (hugging face) в качестве енкодера прикрутили предварительно обученный google/vit-base-patch16-224-in21k, в качестве декодера предварительно обученный DeepPavlov/rubert-base-cased. Запустили обучение на нашем датасете урезанном до 500 картинок - и наконец увидели результат! - появились первые описания фоток в стиле блокбастера, конечно пока корявенько, теперь будем улучшать)
5. Бот
Подготовили заглушку: https://news.1rj.ru/str/MPC_project_bot
Работаем над бэкендом бота.
6. Прочее:
- Почистили данные
- Загадка: -ignore=W293
Проект: Моделирование подписей к постерам фильмов
1. DVC
Подключили DVC для хранения датасета с картинками (~4Gb.). В качестве хранилища использовали Yandex Storage S3.
Подробная инструкция по подключению Yandex S3 к DVC: https://youtu.be/tC3IdAN_hX4?t=1782
З.Ы. Яндекс дает грант на изучение возможностей своего хранилища на 4000₽ сроком на 60 дней. Хотя судя по прайсу на весь срок проекта на 5Гб можно обойтись 50₽ :)
З.Ы.2 Свежий доклад по DVC от создателей: https://www.youtube.com/watch?v=cxQCIPspMkA
Хозяйке на заметку: появилось расширение DVC для VS Code - https://marketplace.visualstudio.com/items?itemName=Iterative.dvc
по функционалу похоже на расширение для Git’а, плюс еще некоторые плюшки.
2. DAG
Переписали DAG формирования датасета с makefile на pipline от DVC. Не стали городить огород из разных инструментов. Раз уже поставили DVC, то пусть выполняет все возможные функции.
3. Начали рисовать схему проекта (см. картинку).
4. Модели
Попытки запустить архитектуру encoder-decoder с attention зашли в тупик. Очень долго крутили вертели модель, но увы результата не было. Обучение вроде шло неплохо, loss снижался, но в предикшене мы получали последовательность <unk>. Мы делали различные предположения о том что не так: снижали размерность словаря, пытались нормировать картинки, включали fine_tunning для эмбедингов, загружали предубученные эмбединги … но ничего не помогало.
В итоге мы переключились на архитектуру VisionEncoderDecoderModel (hugging face) в качестве енкодера прикрутили предварительно обученный google/vit-base-patch16-224-in21k, в качестве декодера предварительно обученный DeepPavlov/rubert-base-cased. Запустили обучение на нашем датасете урезанном до 500 картинок - и наконец увидели результат! - появились первые описания фоток в стиле блокбастера, конечно пока корявенько, теперь будем улучшать)
5. Бот
Подготовили заглушку: https://news.1rj.ru/str/MPC_project_bot
Работаем над бэкендом бота.
6. Прочее:
- Почистили данные
- Загадка: -ignore=W293
Forwarded from ODS Events
Сап чат!
В это тёмное слякотное время года - самое то, чтобы провести Data Halloween 🎃
В эту субботу 29 октября, с 11 до 19 по Москве и полностью в online, вас ждёт связка из youtube и spatial.chat
В эфире: доклады Ужасов Медицинских Данных, ML & Security, MLOps, и сиквел карьерной панельки Сибирского Феста
В spatial.chat - изба читальня DS Talks, традиционные Собесы в никуда, и еще больше докладов
Уже сейчас можно поучаствовать в еще 3 активностях:
🎃 Собираем набор 100 стыдных вопросов на собеседованиях - кидайте ваши вопросы
🎃 Собесы at scale - кидайте резюме на Junior DS, а команда их проанализирует
🎃 Конкурс Scary Code - отравляйте ваш код, а самые страшные выиграют ODS мерч (толстовки и футболки)
Регистрация тут
В это тёмное слякотное время года - самое то, чтобы провести Data Halloween 🎃
В эту субботу 29 октября, с 11 до 19 по Москве и полностью в online, вас ждёт связка из youtube и spatial.chat
В эфире: доклады Ужасов Медицинских Данных, ML & Security, MLOps, и сиквел карьерной панельки Сибирского Феста
В spatial.chat - изба читальня DS Talks, традиционные Собесы в никуда, и еще больше докладов
Уже сейчас можно поучаствовать в еще 3 активностях:
🎃 Собираем набор 100 стыдных вопросов на собеседованиях - кидайте ваши вопросы
🎃 Собесы at scale - кидайте резюме на Junior DS, а команда их проанализирует
🎃 Конкурс Scary Code - отравляйте ваш код, а самые страшные выиграют ODS мерч (толстовки и футболки)
Регистрация тут
Forwarded from Александр
По поводу CAPM. Мне кажется, что есть некий консенсус, что эта модель старовата(поскольку ковариационные матрицы устроены сложнее в финансах, чем предполагается к модели), а также там используется только 1 фактор.
На эту тему советую прочитать статьи Fama–French three-factor model. За неё дали нобелевку между прочим.
https://en.wikipedia.org/wiki/Fama–French_three-factor_model
Ещё у них есть 5-ти факторная модель похожая.
Вот сайт Кеннета Френча с результатами и моделями.
https://mba.tuck.dartmouth.edu/pages/faculty/ken.french/index.html
На эту тему советую прочитать статьи Fama–French three-factor model. За неё дали нобелевку между прочим.
https://en.wikipedia.org/wiki/Fama–French_three-factor_model
Ещё у них есть 5-ти факторная модель похожая.
Вот сайт Кеннета Френча с результатами и моделями.
https://mba.tuck.dartmouth.edu/pages/faculty/ken.french/index.html
#recommender
Возможно уже постил, но такие крутые курсы пропускать нельзя:
https://ods.ai/tracks/mts-recsys-df2020
https://ods.ai/tracks/recsys-course2021
Возможно уже постил, но такие крутые курсы пропускать нельзя:
https://ods.ai/tracks/mts-recsys-df2020
https://ods.ai/tracks/recsys-course2021