NEW BOT Телеграм, страница - 725804376

Интересное что-то

517 subscribers

2.71K photos

252 videos

138 files

4.51K links

Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

517 subscribers

Интересное что-то

#dl
Лекции от zfturbo

14 views20:46

Интересное что-то

Forwarded from Small Data Science for Russian Adventurers

#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj

13 views20:46

Интересное что-то

Forwarded from Dmitry Kosarevsky

Лабораторные работы к лекциям после 3, 5, 6, 7 лекции
https://www.kaggle.com/c/m-lab-1/
https://www.kaggle.com/c/m-lab-2/
https://www.kaggle.com/c/m-lab-3/
https://www.kaggle.com/c/m-lab-4/

Лабораторная работа 1: Табличные данные

Предсказание оттока абонентов

16 views20:46

Интересное что-то

#ml #book
Артём Груздев наконец поделился хоть небольшой частью своего материала

https://drive.google.com/file/d/1VLv__MVjl1Mt9tn2dnubs1A1DiMtZnhs/view

14 views21:19

Интересное что-то

#ml #interview
Список ссылок с вопросами для подготовки к собеседованиям
Вот небольшая подборочка
Мне больше нравится последняя ссылка
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/ml874/Cracking-the-Data-Science-Interview
https://github.com/cl2333/Grokking-the-Coding-Interview-Patterns-for-Coding-Questions
https://huyenchip.com/ml-interviews-book/contents/8.1.1-overview:-basic-algorithm.html
https://docs.google.com/document/d/1D2P4Fg4_Pdkkfvq09-SmC_3948D4FNomRM33CKDkBNg

data-science-interviews/theory.md at master · alexeygrigorev/data-science-interviews

Data science interview questions and answers. Contribute to alexeygrigorev/data-science-interviews development by creating an account on GitHub.

20 views12:41

Интересное что-то

#ml
Интересная библиотека для преобразования категориальных переменных https://contrib.scikit-learn.org/category_encoders/index.html

14 views14:10

Интересное что-то

#ml
Обзор интересной статьи во Время Валеры

14 views13:20

Интересное что-то

Forwarded from Время Валеры

На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey

Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных

Сначала обсуждают причины

Плохое качество данных -> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту
Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают
Зависимость от препроцессинга, особенно для категориальных фичей
Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)

После этого ребята делят модели на следующие типы
Encoding/Data Transformations Methods - когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)
Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM
Transformer based - используем механизм attention, например TabNet
Regularisation based - со строгой регуляризацией, например RLN

Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации

Последняя часть посвящена explainable machine learning
В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше

В целом рекомендую

18 views13:20

Интересное что-то

#math #optimization
Если вы вдруг прочитали Бойда, и хотите узнать новое в области выпуклой оптимизации, то можно почитать Гасникова

16 views23:01

Интересное что-то

Forwarded from Maxim Kurkin

Гасникова почитать обязательно для свежайших результатов https://arxiv.org/pdf/2106.01946

16 views23:01

Интересное что-то

#ml
Статьи по применению графов в банковских моделях

19 views00:03

Интересное что-то

Forwarded from Maxim Panov

1. https://arxiv.org/pdf/2009.14588.pdf
2. https://arxiv.org/pdf/2001.08427.pdf

19 views00:03

Интересное что-то

#algo #interview
Как заботать алгоритмы

20 viewsedited 08:26

Интересное что-то

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

#How_to_заботать

How to заботать алгоритмы? (((Первая Научная)))

Уже делали подобный гайд, но там как-то вышло совсем для гоев, да и участников становится все больше и больше. На этот же раз представляю (((Первую Научную Подборку))). Подборка, на мой взгляд, наиболее удачных материалов. Она поможет вам успешно сдать экзамены в магистратуру, поступить в ШАД, проявить себя на собеседовании. При этом предполагается школьное владение синтаксисом Си++, в противном смотрим How to заботать прогу перед ВУЗом (или пойдет обычный курс на том же степик). Также предполагаются познания в школьной математике на уровне элементарных функций и мат индукции, комбинаторике, графах, что возможно посмотреть в "Ленинградских кружках".
Как всегда, все книжки в комментариях, там же делимся своими любимыми материалами и сексуальным опытом с алгосами.

Шаг 0.
Для тех, кто ни разу не слышал про алгосы.
1) Для нуля подойдет известный курс на степике от СS и его продолжение. Объем небольшой, что дает надежду не умереть на половине курса, но знакомит со всем основным, дает скромное представление о чем эта (((наука))) все вообще.
2) "Грокаем Алгоритмы" Адитья Бхаргава и "Фундаментальные алгоритмы на C++" Роберт Седжвик. Два брата акробата: один попроще, другой посложнее. Своеобразные Тик-Токи того времени: все в картинках и не особо строго. Самое то, если школьная математика успешно забыта. В эти же ворота всякие книжики для школьников по олимпиадному программированию в духе той же "Олимпиадное программирование" Анти Лаксонен или все, где есть в заглавии "Для начинающих" в духе "Алгоритмы для начинающих" Панос Луридас. Сюда же А. Шень "Программирование теоремы и задачи".
3) Если же мама курила, употребляла алкоголь во время беременности и понимание всего написанного не пришло, то возможно попробовать учить алгосы по Тик Токам. Смотреть их визуализацию на графах, квадратиках, табли4е4ках: Сосайт_1, Сосайт_2, Сосайт_3, Сосайт_4.
Упражняемся в построении структур, глядим на них в работе, создаем свои анимации, становимся ТикТокером— пробуем себя в профессии будущего😲😲.

Шаг 1.
Дальше хорошо было бы структурировать всю эту теорию и привести ее к чему-то строгому и осмысленному, не оставаться кривозубым самоучкой. Здесь подойдут академические курсы с ИТМО, ФКН, ФПМИ, которые, конечно же, в большинстве просто копипаст "Алгоритмы: Построение и Анализ" Томаса Кормена. Но его из-за большого объема освоить будет тяжеловато и это больше справочник, чем учебное пособие. Поэтому могу посоветовать взять за основу какой-либо из следующих курсов, а к Кормену обращаться лишь для расшара и повторения. В дополнение непонятым главам/ темам может идти "Алгоритмы" Дасгупта С., Пападимитриу Х., Вазирани У., где немало полезных заданий для понимания материала.
1) Лекции ИТМО и конпекст, листочки
2) Сосайт ФКН
3) Конспект и лекции основного потока ФПМИ
Если что-то непонятно в одном курсе, бежим смотреть в другой, не зацикливаемся на одном лекторе. Для этого в комментах оставлю кучу ссылок на другие лекции.

Шаг 2.
На предыдущем шаге, как только пробел по теме был устранен, ее срочно нужно зарешать на задачах. Помимо листков из Шаг-2, конечно же, топаем на
1) Leetcode
2) Codeforces
3) hackerrank
И не такие известные
4) eolymp
5) CSES
6) Timus Online Judge
Также есть замечательный сосайт со всеми возможными темами и алгоритмами MAXimal.

18 views08:26

Интересное что-то

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

Шаг 3.
Конечно же, алгоритмы на хлеб не намажешь: пора конкретизировать знания.
Для ШАД достаточно просто почитать их методичку "Введение в теорию алгоритмов и структуру данных" М. А. Бабенок, М. В. Левин, где много задач предлагаемых на собесе в ШАД или даже посмотреть старые лекции. Или же практикум по алгосам. Скорее всего, для вас там не будет ничего нового. Да и порешать их алгосы прошлых лет с экзамена или собеса (смотрите Шаг 5 в How_to_заботать ШАД).
Для магистратуры программа как правило аналогично ШАД. Но здесь просто решаем задания прошлых лет с магистратур и их олимпиад.
Для РАБоты на (((дядю))) за копейки, чтобы было больше дяняг, е-баных денег🤑🤑 Достаточно полистать "Cracking the Coding Interview" и может заплатить шекели за задачи с "рЕаЛьНыХ_иНтЕрВьЮ", которые админы просто выдумали))
1) Interview Query
2) Stratascratch
3) Такое же есть и у сосайтов с Шага 2.
Или потрениться на фейковых собесах (mock interview) с "рЕаЛьНыМи РАБотниками" из рЕаЛьНыХ топ it-компаний (((FAANG))). Нужен английский
1) Сосайт_1 для гоев
2) Сосайт_2 для гоев
Для патриотов, собирающихся в Яндекс смотрим первый пункт Для ШАД. Остальные дяди особо не страдают алгосами головного мозга, но для VK можно посмотреть лекци и книжку на их базе моего тестя С. Л. Бабичева.

16 views08:26

Интересное что-то

#ml
Доступ к text2img модели

13 views12:50

Интересное что-то

Forwarded from Мишин Лернинг

✨ Нейросеть "Стебель Диффузии" доступна каждому

tl;dr Это первая опенсорснутая (и пока что лучшая) Text2Image нейросеть текщего поколения.

🌬 Что такое StableDiffusion? StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen.

Stable Diffusion производит диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше. Информация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из Diffusion Models Beat GANs)
3. Decoder из 64х64х4 в 512х512х3

👉 Веса и модель (в том числе новый чекпоинт!)

🔮 Оптимизированный нотбук / колаб со всеми плюшками (зарегайся на HuggingFace и получи токен, ссылка выше)

🤗 Diffusers от HuggingFace (библиотека самого графа Диффузора)

📇 Блог пост Stability.AI про релиз весов

Мишин Лернинг

15 views12:50

Интересное что-то

#finance
Если вы вдруг решили инвестировать

14 views11:32

Интересное что-то

Forwarded from Антонов такой Антонов

Интегральная система создания консервативного инвестиционного портфеля

Каждый второй день мне пишут что-то вроде “как научиться инвестировать, что читать, как делать, объясните, сил моих больше нет”. Итак, вот вам скелет, про который я рассказываю каждый божий раз, как меня об этом просят.

0. Мета-уровень. Мы понимаем, что мы думаем про монетарную политику ФРС США (будут ли печатать бабки?), про политику ЦБ РФ и ЕЦБ, про классы активов в целом (что будет с коммодитиз, например с нефтью? что будет с зерном? что будет с углем? и так далее).
Это самое сложное, но обязательное, если мы собираем портфель на всю жизнь. Потому что на длинной дистанции рынки всё равно будут расти. Даже если вы не сильно понимаете, что глобально сейчас происходит (кризис и медвежий рынок? бычий рынок?), на достаточно длинной дистанции все покупки окажутся выгодными, если не дергаться и не пытаться играть с рынком в угадайку.

1. Далее мы выбираем мастер-теги (глобальные темы) на основе того, что мы думаем про мир и что считаем хорошим и нужным. Нефтянка? Еда? Банки? Инфраструктурные компании? С процентовкой, сколько аллокации в каких темах мы хотим иметь. Например, мы можем захотеть 15% капитала иметь в нефтяных компаниях.

2. Потом в рамках каждой темы подбираются хорошие компании, по возможности несколько разных и по возможности из разных регионов мира (диверсификация). Оцениваем экономику этих регионов и соответствующие политические риски для этих компаний. Хорошие компании для нас это компании с устойчивой бизнес-моделью, правильным менеджментом и мажоритариями, желательно монополисты или около того, и обязательно с желанием и возможностью платить дивиденды.

3. Когда у нас есть список хороших, годных компаний, мы находим из них те, что сейчас на наш взгляд стоят недорого. Для этого мы изучаем их финансовое состояние (gurufocus в помощь) с той глубиной, на которую мы сами способны, вплоть до чтения отчетности и расшифровок собраний совета директоров. Нам нужны компании, которые зарабатывают деньги и не имеют огромных долгов. Слишком дорогие добавляем в вочлист и ждем сколько нужно, пока они не будут стоить приемлемых денег. Хоть год.

4. (Опционально) Получившийся компот стараемся захеджировать опционами на соответствующие индексы, которые помогут на просадках широкого рынка заработать кэша и не потерять в общей стоимости портфеля. Это отдельное искусство, его надо изучать, но материалов по теме тонны (Макмиллан “об опционах”).

Это всё консервативная часть портфеля, которая будет нас кормить дивидендами, и которую мы покупаем навсегда. Навсегда конечно же до тех пор, пока базовые тезисы по конкретной компании, сектору или региону не поменялась, время от времени надо перетряхивать портфель и держать руку на пульсе. Базовые тезисы меняются редко, бывает, что раз в десять лет. Бывает, что не меняются вообще.

Еще можно процентов 10-30 оставить на спекулятивные позиции, это отдельная тема. И уже там хоть колами, хоть фьючами, хоть мышиными грибами отыгрывать разные понятные лично вам истории.

Вот это всё та работа, которую надо проделать, чтобы структурно управлять собственными накоплениями. Будете наголову выше среднего управляющего средним фондом, не говоря уже про российское банковское доверительное управление. Чтение “финансовых” каналов, банковской “аналитики” и всяких там тиньков-пульсов никак вас к решению этих задач не приблизит. Только самостоятельная работа.

13 views11:32

Интересное что-то

#ml
LTV prediction

12 views10:22

Интересное что-то

Forwarded from Artificial stupidity

#ltv

A Deep Probabilistic Model for Customer Lifetime Value Prediction

https://telegra.ph/A-Deep-Probabilistic-Model-for-Customer-Lifetime-Value-Prediction-07-24

A Deep Probabilistic Model for Customer Lifetime Value Prediction

Хорошая статья 2019 года + разбор (я бы даже сказал, что одна из лучших статей, которые прочитал про LTV). Авторы представляют новую функцию потерь, чтобы учитывать минусы типичного процесса решения задачи предсказания LTV. Что ж, давайте разбираться, что…

12 views10:22