NEW BOT Телеграм, страница - 230859846

Интересное что-то

517 subscribers

2.71K photos

252 videos

138 files

4.51K links

Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

517 subscribers

Интересное что-то

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

Шаг 3.
Конечно же, алгоритмы на хлеб не намажешь: пора конкретизировать знания.
Для ШАД достаточно просто почитать их методичку "Введение в теорию алгоритмов и структуру данных" М. А. Бабенок, М. В. Левин, где много задач предлагаемых на собесе в ШАД или даже посмотреть старые лекции. Или же практикум по алгосам. Скорее всего, для вас там не будет ничего нового. Да и порешать их алгосы прошлых лет с экзамена или собеса (смотрите Шаг 5 в How_to_заботать ШАД).
Для магистратуры программа как правило аналогично ШАД. Но здесь просто решаем задания прошлых лет с магистратур и их олимпиад.
Для РАБоты на (((дядю))) за копейки, чтобы было больше дяняг, е-баных денег🤑🤑 Достаточно полистать "Cracking the Coding Interview" и может заплатить шекели за задачи с "рЕаЛьНыХ_иНтЕрВьЮ", которые админы просто выдумали))
1) Interview Query
2) Stratascratch
3) Такое же есть и у сосайтов с Шага 2.
Или потрениться на фейковых собесах (mock interview) с "рЕаЛьНыМи РАБотниками" из рЕаЛьНыХ топ it-компаний (((FAANG))). Нужен английский
1) Сосайт_1 для гоев
2) Сосайт_2 для гоев
Для патриотов, собирающихся в Яндекс смотрим первый пункт Для ШАД. Остальные дяди особо не страдают алгосами головного мозга, но для VK можно посмотреть лекци и книжку на их базе моего тестя С. Л. Бабичева.

16 views08:26

Интересное что-то

#ml
Доступ к text2img модели

13 views12:50

Интересное что-то

Forwarded from Мишин Лернинг

✨ Нейросеть "Стебель Диффузии" доступна каждому

tl;dr Это первая опенсорснутая (и пока что лучшая) Text2Image нейросеть текщего поколения.

🌬 Что такое StableDiffusion? StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen.

Stable Diffusion производит диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше. Информация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из Diffusion Models Beat GANs)
3. Decoder из 64х64х4 в 512х512х3

👉 Веса и модель (в том числе новый чекпоинт!)

🔮 Оптимизированный нотбук / колаб со всеми плюшками (зарегайся на HuggingFace и получи токен, ссылка выше)

🤗 Diffusers от HuggingFace (библиотека самого графа Диффузора)

📇 Блог пост Stability.AI про релиз весов

Мишин Лернинг

15 views12:50

Интересное что-то

#finance
Если вы вдруг решили инвестировать

14 views11:32

Интересное что-то

Forwarded from Антонов такой Антонов

Интегральная система создания консервативного инвестиционного портфеля

Каждый второй день мне пишут что-то вроде “как научиться инвестировать, что читать, как делать, объясните, сил моих больше нет”. Итак, вот вам скелет, про который я рассказываю каждый божий раз, как меня об этом просят.

0. Мета-уровень. Мы понимаем, что мы думаем про монетарную политику ФРС США (будут ли печатать бабки?), про политику ЦБ РФ и ЕЦБ, про классы активов в целом (что будет с коммодитиз, например с нефтью? что будет с зерном? что будет с углем? и так далее).
Это самое сложное, но обязательное, если мы собираем портфель на всю жизнь. Потому что на длинной дистанции рынки всё равно будут расти. Даже если вы не сильно понимаете, что глобально сейчас происходит (кризис и медвежий рынок? бычий рынок?), на достаточно длинной дистанции все покупки окажутся выгодными, если не дергаться и не пытаться играть с рынком в угадайку.

1. Далее мы выбираем мастер-теги (глобальные темы) на основе того, что мы думаем про мир и что считаем хорошим и нужным. Нефтянка? Еда? Банки? Инфраструктурные компании? С процентовкой, сколько аллокации в каких темах мы хотим иметь. Например, мы можем захотеть 15% капитала иметь в нефтяных компаниях.

2. Потом в рамках каждой темы подбираются хорошие компании, по возможности несколько разных и по возможности из разных регионов мира (диверсификация). Оцениваем экономику этих регионов и соответствующие политические риски для этих компаний. Хорошие компании для нас это компании с устойчивой бизнес-моделью, правильным менеджментом и мажоритариями, желательно монополисты или около того, и обязательно с желанием и возможностью платить дивиденды.

3. Когда у нас есть список хороших, годных компаний, мы находим из них те, что сейчас на наш взгляд стоят недорого. Для этого мы изучаем их финансовое состояние (gurufocus в помощь) с той глубиной, на которую мы сами способны, вплоть до чтения отчетности и расшифровок собраний совета директоров. Нам нужны компании, которые зарабатывают деньги и не имеют огромных долгов. Слишком дорогие добавляем в вочлист и ждем сколько нужно, пока они не будут стоить приемлемых денег. Хоть год.

4. (Опционально) Получившийся компот стараемся захеджировать опционами на соответствующие индексы, которые помогут на просадках широкого рынка заработать кэша и не потерять в общей стоимости портфеля. Это отдельное искусство, его надо изучать, но материалов по теме тонны (Макмиллан “об опционах”).

Это всё консервативная часть портфеля, которая будет нас кормить дивидендами, и которую мы покупаем навсегда. Навсегда конечно же до тех пор, пока базовые тезисы по конкретной компании, сектору или региону не поменялась, время от времени надо перетряхивать портфель и держать руку на пульсе. Базовые тезисы меняются редко, бывает, что раз в десять лет. Бывает, что не меняются вообще.

Еще можно процентов 10-30 оставить на спекулятивные позиции, это отдельная тема. И уже там хоть колами, хоть фьючами, хоть мышиными грибами отыгрывать разные понятные лично вам истории.

Вот это всё та работа, которую надо проделать, чтобы структурно управлять собственными накоплениями. Будете наголову выше среднего управляющего средним фондом, не говоря уже про российское банковское доверительное управление. Чтение “финансовых” каналов, банковской “аналитики” и всяких там тиньков-пульсов никак вас к решению этих задач не приблизит. Только самостоятельная работа.

13 views11:32

Интересное что-то

#ml
LTV prediction

12 views10:22

Интересное что-то

Forwarded from Artificial stupidity

#ltv

A Deep Probabilistic Model for Customer Lifetime Value Prediction

https://telegra.ph/A-Deep-Probabilistic-Model-for-Customer-Lifetime-Value-Prediction-07-24

A Deep Probabilistic Model for Customer Lifetime Value Prediction

Хорошая статья 2019 года + разбор (я бы даже сказал, что одна из лучших статей, которые прочитал про LTV). Авторы представляют новую функцию потерь, чтобы учитывать минусы типичного процесса решения задачи предсказания LTV. Что ж, давайте разбираться, что…

12 views10:22

Интересное что-то

#petproject
Как проводить литературный обзор перед тем, как вы написали первую строчку кода

12 views10:26

Интересное что-то

Forwarded from DevFM

Любая работа по программированию начинается с анализа предметной области. Рекомендуется пара этих ресурсов - для русского и английского поиска.

https://cyberleninka.ru

https://www.researchgate.net

https://scholar.google.com/

В начале ищутся самые популярные статьи, потом следует подкрутить фильтры и взять самые свежие (не старше 5 лет, не старше 3 лет). Большую часть усилий стоит сосредоточить на англоязычных источниках. Очень важно изучить существующие открытые проекты на гитхабе.

Видео можно искать так
https://research.google.com/youtube8m/explore.html

Интересные рассмотренные статьи необходимо заносить в список с небольшой аннотацией.Такой список позволит в большей степени понимать и ориентироваться в предметной области. Например,

1. <ссылка>. Работа на "хорошо". В работе есть данные по нейросети, которая с 80% точностью распознаёт человека в маске. Ссылка на программу есть, на датасет нет. Напрямую применить нельзя, но можно взять часть про нормализацию кадра

2. <ссылка>. Выглядела на "отлично", по факту бред. Литературы нет, написано на коленке

Пример:
1. https://cyberleninka.ru/article/n/mnogokriterialnaya-otsenka-kachestva-fotografiy/viewer В статье рассматриваются различные критерии качества изображений, а также их количественная оценка. Из полезного: оценка резкости изображения, что может быть полезно для выделения одного наиболее информативного кадра в потоке на заданном промежутке времени. Есть математические операции по подсчету, а также примеры использования OpenCV для получения количественных оценок

2. https://cyberleninka.ru/article/n/algoritmy-predobrabotki-izobrazheniy-v-sisteme-identifikatsii-lits-v-videopotoke/viewer В статье описывается алгоритмы предобработки изображений для их последующей обработки. Сюда входит
- Обесцвечивание
- Выравнивание гистограммы яркости изображения
- Выравнивание изображения относительно вертикальной оси симметрии лица (по возможности)
- Масштабирование

3. https://www.researchgate.net/publication/341892534_VIDEO_DATA_QUALITY_IMPROVEMENT_METHODS_AND_TOOLS_DEVELOPMENT_FOR_MOBILE_VISION_SYSTEMS В статье производится сравнение подходов однопоточной и многопоточной мобильной обработки видео, зависимость скорости обработки видео от его разрешения, а также приводятся примеры перехода из пространства RGB в YUV на OpenCV с целью оценки освещенности изображения

4. https://github.com/shubham0204/Age-Gender_Estimation_TF-Android Приложение под Android, определяющее пол и возраст человека на изображении. Прилагаются скриншоты результатов распознавания. Если с точностью определения пола все хорошо, то c определением возраста как-то не очень (числовые оценки не приводятся). Есть ссылки на датасет и блокноты в Colab, которые экспортируют модели TFLite (используется в приложении для Android). Из полезного можно вынести на мобилку модель для определения пола.

#sudo

КиберЛенинка

КиберЛенинка предоставляет возможность читать тексты научных статей бесплатно. Приглашаем к сотрудничеству научные журналы и издательства…

Научная электронная библиотека КиберЛенинка предоставляет возможность читать тексты научных статей бесплатно. Приглашаем к сотрудничеству научные журналы и издательства для публикации научных работ в открытом доступе (Open Access) и популяризации науки в…

16 views10:26

Интересное что-то

#interesting
Как подбирать себе ThinkPad:

https://github.com/ThinkPadThink/Thinkpadthinkpad

GitHub - ThinkPadThink/Thinkpadthinkpad: Гайд по покупке Б/У ноутов ThinkPad.

Гайд по покупке Б/У ноутов ThinkPad. Contribute to ThinkPadThink/Thinkpadthinkpad development by creating an account on GitHub.

13 views10:32

Интересное что-то

#ml
Валидация данных

13 views13:10

Интересное что-то

Forwarded from Инжиниринг Данных (Dmitry)

Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.

Files · master · binderhub / testing-data-pipelines-with-data-validation · GitLab

Instructors: Han Wang and Kevin Kho

17 views13:10

Интересное что-то

#ml
Плейлист с выступлениями по визуализации: https://www.youtube.com/playlist?list=PL_yqdE3j5wTCJxy6J5bqSkCs0KxCWVAVL

30 Cool DataViz Talks

Подборка классных выступлений на тему визуализации данных

18 views13:15

Интересное что-то

#sql #interview

17 views13:49

Интересное что-то

Forwarded from Базы данных & SQL

50 популярных вопросов и ответов на собеседовании по SQL Server

Читать статью

20 views13:49

Интересное что-то

#career
Описание грейдов Авито

18 views13:56

Интересное что-то

Forwarded from data будни (Саша Михайлов)

↑ год назад кидал ссылку на описание урвоней аналитиков в Яндексе

сейчас наткнулся на похожий материал про разработчиков в Авито, аккуратно оформленный в Гитхабе
https://github.com/avito-tech/playbook/blob/master/developer-profile.md

интересно почитать про разные уровни. Особенно интересно, что хард скиллы — это один из 8 блоков навыков, на которые смотрят при оценке инженера.

вот все:
- Экспертность.
- Инженерная культура.
- Ответственность за результат.
- Ориентация на бизнес.
- Agile Mindset.
- Коммуникация.
- Развитие себя и обучение других.

17 views13:56

Интересное что-то

15 views13:58

Интересное что-то

Forwarded from Reveal the Data

Lords of the Boards
Саша Бараков подготовил отличный гайдлайн для BI-проектов: визуальная версия в Miro | последовательный чек-лист | лонгрид. Контент один, просто разный формат. Похвалю и покритикую его, у нас с Сашей часто дружеские BI-дебаты. )

🏄‍♂️ Гайдлайн крутой, он полностью описывает жизненный цикл BI-проекта, есть все необходимые шаги и его можно использовать как стандарт для сбора требований. Круто, что он начинается с минус седьмого шага и только в шаге номер 0 мы решаем делать дашборд или нет. Это очень показательно и стоит относиться к этому именно так, а не делать дашборд на любой чих.

💪 Понравились ролевые стратегии BI-аналитика в проекте: like a god; a boss; a partner; an executor; a friend; a slave. Это понятное деление помогает понять в какой роли вы находитесь в проекте и не расстраиваться, когда вас воспринимают «как руки», это тоже рабочая схема, но просто не такая эффективная или для других схем есть блокеры. В зависимости от ситуации может работать любая стратегия, но целевая, я считаю, должна быть like a partner.

🤔 Не согласен с установкой «заказчик чаще не прав», сформулировал бы как «заказчик не знает какое решение, решает его задачу лучшим образом» или «не делай дашборд по макету заказчика». Это важно, так как можно подумать, что стоит считать, что заказчик не знает как делать его работу. И это проблема аналитиков — иногда они думают, что если заказчик не отличает тримап от скаттерплота, то с ним вообще не о чем говорить. Такая установка будет мешать — заказчик и исполнитель равноценные партнеры со своими правами и обязанностями. Недавно приводил похожие примеры в Q&A. И вообще используйте тактику Коломбо.

🤯 «68 пунктов чек-листа, Карл!» — это крутой учебный материал, но для ежедневного применения многовато. Я вот планирую упрощать свой Dashboard Canvas из 9 пунктов.

PS: У Саши в сентябре стартует курс «Разработка BI Стратегии» для BI менеджеров и тим-лидов, курс для узкой аудитории, но очень для неё полезный, крайне рекомендую. Проходил первый поток, мой отзыв.
#ссылка

16 views13:58

Интересное что-то

15 views14:31

Интересное что-то

Forwarded from Борис опять

Статья про BEiT-3 (https://arxiv.org/abs/2208.10442), новую SOTA Foundational модель для CV и Image-text задач, оказалась очень бедна на тему того, как именно авторы токенизируют изображения и тексты. Это ведь самое главное, так как основа прорыва модели в способности представить обе модальности в виде последовательности токенов.

Нашел отличный, очень глубокий разбор. Изображение делится на патчи, которые потом энкодятся в дискретные токены с помощью VQ-VAE. Дискретные токены означают, что составляется алфавит для изображений. По сути сжатие с потерями: все возможные изображения-входы сопоставляются одному из 8192 изображений-токенов. Закапываясь глубже в то, что же это за токены, оказывается, что происходит маппинг из 2^24 возможных комбинаций RGB в 2^13 новых "цветов".

https://towardsdatascience.com/almost-any-image-is-only-8k-vectors-c68c1b1aa6d2

Almost Any Image Is Only 8k Vectors

An image representation that’s a close analog for words in generative tasks

23 views14:32