Forwarded from DevFM
Тернистый путь к ClickHouse
Статья ClickHouse: Путь джедая, искавшего дом для своих данных не о самой технологии, а о неоднозначном, сложном пути выбора технологии. И в этом её особенная ценность.
Внедрение новой технологии не возникает на пустом месте. Нужно критически подходить к этому вопросу.
1. Сначала обнаруживается проблема. Если проблемы нет, то и чинить не нужно. В статье обозначена проблема сбора и анализа большого количества данных о действиях пользователей из разных систем и их вечном хранении.
2. Решение следует начинать с анализа предметной области и формирования важных критериев. Автор выделил сложность внедрения и сопровождения, порог входа для аналитиков данных, цену использования.
3. Предлагаемые решения сравниваются по сформированным критериям.
Помимо описания процесса выбора и возникающих сложностей интересно узнать в ретроспективе об архитектуре хранения и работы с данными: MariaDB -> Elasticsearch -> ClickHouse.
Для желающих погрузиться в технические особенности рекомендуем статью от тех же авторов: Репликация ClickHouse без костылей: ожидание и реальность
#skills #softskills
Статья ClickHouse: Путь джедая, искавшего дом для своих данных не о самой технологии, а о неоднозначном, сложном пути выбора технологии. И в этом её особенная ценность.
Внедрение новой технологии не возникает на пустом месте. Нужно критически подходить к этому вопросу.
1. Сначала обнаруживается проблема. Если проблемы нет, то и чинить не нужно. В статье обозначена проблема сбора и анализа большого количества данных о действиях пользователей из разных систем и их вечном хранении.
2. Решение следует начинать с анализа предметной области и формирования важных критериев. Автор выделил сложность внедрения и сопровождения, порог входа для аналитиков данных, цену использования.
3. Предлагаемые решения сравниваются по сформированным критериям.
Помимо описания процесса выбора и возникающих сложностей интересно узнать в ретроспективе об архитектуре хранения и работы с данными: MariaDB -> Elasticsearch -> ClickHouse.
Для желающих погрузиться в технические особенности рекомендуем статью от тех же авторов: Репликация ClickHouse без костылей: ожидание и реальность
#skills #softskills
Хабр
ClickHouse: Путь джедая, искавшего дом для своих данных
* Юристы попросили нас написать, что картинка шуточная, и мы уважаем всех гордых любителей разных систем хранения данных. В разные эпохи развития нашего проекта в качестве основного хранилища, которое...
Forwarded from Борис опять
#лабораторный_журнал
Время закатать рукава и сделать что-то полезное: написать API для базы данных с изображениями.
Больше года не писал API, но я съел на этом столько собак, что код сам вылетает из под пальцев.
Мой любимый сетап:
* DB - PostgreSQL
* ORM - SqlAlchemy
* Миграции - Alembic
* API - Flask
* Сериализация/валидация - Marshmallow
* Тесты - Pytest
* Форматирование кода - Black
* Деплой - Nginx + UWSGI, которые общаются по файлу-сокету как описано здесь. Такой сетап работает даже быстрее, чем uvicorn, потому что быстрее NGINX с настроенным кешированием просто некуда.
Разработка ведется через Docker.
Этот надежный как швейцарские часы сетап покрывает все нужды типичной API. При необходимости к нему без труда прикручиваются другие приблуды типа RabbitMQ + Celery для асинхронных тасок.
Есть только одна загадка: зачем нужен Django?
Время закатать рукава и сделать что-то полезное: написать API для базы данных с изображениями.
Больше года не писал API, но я съел на этом столько собак, что код сам вылетает из под пальцев.
Мой любимый сетап:
* DB - PostgreSQL
* ORM - SqlAlchemy
* Миграции - Alembic
* API - Flask
* Сериализация/валидация - Marshmallow
* Тесты - Pytest
* Форматирование кода - Black
* Деплой - Nginx + UWSGI, которые общаются по файлу-сокету как описано здесь. Такой сетап работает даже быстрее, чем uvicorn, потому что быстрее NGINX с настроенным кешированием просто некуда.
Разработка ведется через Docker.
docker-compose run —rm —service-ports app bash поднимает локальный postgres, контейнер с приложением, контейнер с NGINX. Код передается в контейнер через volume. Разрабатываешь внутри контейнера, даже никаких venv/poetry/conda не надо - докер обеспечивает environment. Если надо можно подключиться к постгресу любым DB клиентом. Все это целиком повторяет то, как система выглядит в продакшне, поэтому нет проблемы “но на моем компьютере-то работает!”. Более того, деплой можно организовать через запуск такого же docker-compose.yml, только с другими параметрами.Этот надежный как швейцарские часы сетап покрывает все нужды типичной API. При необходимости к нему без труда прикручиваются другие приблуды типа RabbitMQ + Celery для асинхронных тасок.
Есть только одна загадка: зачем нужен Django?
Forwarded from Борис опять
Кстати на весь этот сетап можно посмотреть здесь: https://github.com/btseytlin/cowork-19
Это сайт с резюме и вакансиями, который я сделал в Первый Ковид, чтобы помочь сокращенным друзьям найти работу.
Это сайт с резюме и вакансиями, который я сделал в Первый Ковид, чтобы помочь сокращенным друзьям найти работу.
GitHub
GitHub - btseytlin/cowork-19
Contribute to btseytlin/cowork-19 development by creating an account on GitHub.
#mlops
Ещё про ClearML
https://yandex.ru/q/machine-learning/11449503234/
https://yandex.ru/q/machine-learning/11450406146/?w_s=messenger_announce&w_a=messenger_announcement_action&w=messenger_announcement
Ещё про ClearML
https://yandex.ru/q/machine-learning/11449503234/
https://yandex.ru/q/machine-learning/11450406146/?w_s=messenger_announce&w_a=messenger_announcement_action&w=messenger_announcement
Яндекс Кью
«Weights & Biases - 3 простых шага для оптимизации гиперпараметров» — Яндекс Кью
Поиск наиболее производительной модели в многомерном пространстве гиперпараметров может очень быстро стать громоздким. Анализ гиперпараметров с использованием инструмента Hyperparameter Sweeps от п...
Forwarded from BOGDAN
кто дошёл до выбора метрик для своего сервиса, вот чеклист от микромягкого
https://www.microsoft.com/en-us/research/group/experimentation-platform-exp/articles/stedii-properties-of-a-good-metric/
https://www.microsoft.com/en-us/research/group/experimentation-platform-exp/articles/stedii-properties-of-a-good-metric/
#mlops
https://www.researchgate.net/publication/354805553_Demystifying_MLOps_and_Presenting_a_Recipe_for_the_Selection_of_Open-Source_Tools
https://www.researchgate.net/publication/354805553_Demystifying_MLOps_and_Presenting_a_Recipe_for_the_Selection_of_Open-Source_Tools
ResearchGate
(PDF) Demystifying MLOps and Presenting a Recipe for the Selection of Open-Source Tools
PDF | Nowadays, machine learning projects have become more and more relevant to various real-world use cases. The success of complex Neural Network... | Find, read and cite all the research you need on ResearchGate
Forwarded from Илона Ковалёва
Мне очень нравится блог на neptune.ai . Вот несколько статей оттуда: Best ML Model Registry Tools (обновл 30 сентября 2022), The Best MLOps Tools and How to Evaluate Them (обновл 19 августа 2022), Best End-to-End MLOps Platforms: Leading Machine Learning Platforms That Every Data Scientist Need to Know (обновл 21 июля 2022) . Кстати, с этой платформой я тоже знакомилась в рамках курса MLOps ( https://yandex.ru/q/tech/11450986242/ ) По моему опыту (познакомилась с 5-ю платформами), статьи и обзоры не очень сильно проясняют ситуацию, но там есть критерии и чекбоксы, которые дают некоторый ориентир. При выборе инструмента для себя имеет смысл потратить время и познакомиться с несколькими вариантами. По моим личным впечатлениям - WandB - отличный вариант с самым низким порогом вхождения и плавной кривой обучения если нужно запускать поиск гиперпараметров и сравнивать очень много моделей между собой, очень удобно для совместной работы и быстрого формирования ярких и наглядных отчетов, ClearML - отличный инструмент, если главным является налаживание пайплайнов и трекинга моделей, при более подробном знакомстве - это мощный инструмент (вся система локально - это 6 докер-контейнеров для трекинга моделей и ещё 7 контейнеров для деплоя и мониторинга на стадии продукта), MLFlow - легковесный инструмент для трекинга и деплоя, https://abacus.ai/ - очень эффективный инструмент, позволяющий деплоить прямо из ноутбука, при этом налажены и встроены мониторинг model drift и data drift, neptune.ai - мощная и обширная платформа, постоянно развивается, шикарный блог.
neptune.ai
Blog - neptune.ai
Blog for ML/AI practicioners with articles about LLMOps. You'll find here guides, tutorials, case studies, tools reviews, and more.
Forwarded from Dan Okhlopkov - канал
📚 Анализ данных в крипте
У меня в канале много ML-щиков, которые хотят погружаться в мир блокчейнов. Нейронки вам вряд ли пригодятся, но вот вам полезные источники данных. Научитесь с ними работать, укажите в резюме и сможете устроиться в крипто стартапы аналитиком.
- dune.com - люди загружают датасеты про блокчейн, ты пишешь к ним SQL! Отдельно интересно смотреть горячие дешборды, чтобы понимать, что сейчас происходит в мире крипты. Например, сейчас все опять обсуждают бан кошельков USDT и остановку BNB Chain. Парсится питоном сложно, с selenium должно быть ок.
- tenderly.co - если интересно понять что-то про транзакцию (какой контракт и как был вызван, почему упала транзакция). API платный, но сайт парсится на ура.
- nansen.ai - если нужно узнать больше про адрес. Показывает не только балансы токенов, NFT и стейкинг в разных сетях, но и похожие аккаунты, с какими контрактами/кошельками взаимодействует, выставляет labels, полезен для антифрода и “пробива”. Сложно парсится питоном.
Блок эксплореры типа etherscan выдают минимум инфы, только для 1 чейна, а их API максимально скуден и отличается от чейна к чейну. Если дергать напрямую ноды через RPC, то там еще меньше базового функционала (из-за этого и появились сканнеры). Нужно знать, какой минимум можно получить от них, так как они парсятся на ура.
Также периодически можно найти крутые сайты с ценными данными, которые так и хочется спарсить. Один из таких скину завтра, подписывайтесь :)
У меня в канале много ML-щиков, которые хотят погружаться в мир блокчейнов. Нейронки вам вряд ли пригодятся, но вот вам полезные источники данных. Научитесь с ними работать, укажите в резюме и сможете устроиться в крипто стартапы аналитиком.
- dune.com - люди загружают датасеты про блокчейн, ты пишешь к ним SQL! Отдельно интересно смотреть горячие дешборды, чтобы понимать, что сейчас происходит в мире крипты. Например, сейчас все опять обсуждают бан кошельков USDT и остановку BNB Chain. Парсится питоном сложно, с selenium должно быть ок.
- tenderly.co - если интересно понять что-то про транзакцию (какой контракт и как был вызван, почему упала транзакция). API платный, но сайт парсится на ура.
- nansen.ai - если нужно узнать больше про адрес. Показывает не только балансы токенов, NFT и стейкинг в разных сетях, но и похожие аккаунты, с какими контрактами/кошельками взаимодействует, выставляет labels, полезен для антифрода и “пробива”. Сложно парсится питоном.
Блок эксплореры типа etherscan выдают минимум инфы, только для 1 чейна, а их API максимально скуден и отличается от чейна к чейну. Если дергать напрямую ноды через RPC, то там еще меньше базового функционала (из-за этого и появились сканнеры). Нужно знать, какой минимум можно получить от них, так как они парсятся на ура.
Также периодически можно найти крутые сайты с ценными данными, которые так и хочется спарсить. Один из таких скину завтра, подписывайтесь :)
Forwarded from Поступашки - ШАД, Стажировки и Магистратура
#How_to_заботать
How to заботать Deep Learning?
Как и обещали за (((много огоньков и шэров)) наш преподаватель по ML/DL делится своим видением How to заботать Deep Learning.
Овладев ML (Смотрите How to заботать Machine Learning), самое время присмотреться к глубокому обучению. Ведь куча современных прорывных и революционных технологий в области искусственного интеллекта основываются именно на нейронных сетях. Благодаря им машины способны отличать котиков от собачек, анализировать тексты, сжимать данные и пробовать себя в рэпе.
Как всегда, для начала отлично подойдет какой-нибудь курсик:
1) Deep Learning School
Курс по глубокому обучению от МФТИ, ориентирован в том числе на школьников.
Математическая часть освещается, но более на интуитивном уровне. Основной упор сделан на практику.
Практических заданий много, они позволяют deep погрузиться в материал и научиться с умом
применять нейронные сети под разные задачи. Есть базовый и продвинутый поток. Советую брать продвинутый,
особенно если вы уже освоились в питоне и классическом машинном обучении, ибо на нем больше заданий. После
окончания выдается сертификат и делается итоговый проект. Первый семестр посвящен работе с изображениями,
второй - работе с текстами и аудио. Очень хороший курс, и многие ныне успешные handmade persons😎😎 в индустрии начинали
именно с него (потому что больше ничего особо и не было).
2) Курсы cs от Стэнфорда
Посвященные разным аспектам глубокого обучения. Есть курс, посвященный NLP,
и даже отдельный курс, посвященный машинному обучению на графах. Практические задания есть, но они не
самые обширные, и немалый упор делается на теорию и внутреннюю работу всего происходящего. По графам,
по личному мнению автора, нет курса лучше, чем стэнфордский cs224w.
3) Natural Language Processing от ods.ai.
Тоже достаточно большой и полный курс, освещающий большую часть современной
обработки текстов. Несомненным плюсом является то, что курс, в отличие от стэнфордских, полностью на
русском языке.
4) Нейронные сети и компьютерное зрение от Samsung Research Center
Рассчитан в том числе на школьников, в нем достаточно сильно разжевываются основные понятия нейронных сетей, и от них
идет переход уже к обработке изображений.
5) An Introduction to Deep Reinforcement Learning
Если хочется чего-то экзотического, например, заботать обучение с подкреплением, то есть отлчиный курс от
Huggingface. Он на английском, но это не делает его менее бомбическим.
После прохождения каких-то курсов и преисполнения в своём познании, можно переходить сами знаете к чему— практике, как действовать уже писали тут.
Книг же по глубокому обучению столь же много, сколько и курсов, но, что является недостатком для начинающего, к книгам не прилагаются качественные практические задания. То, что безусловно можно посоветовать - "Глубокое обучение" от Яна Гудфеллоу (лежит в комментариях). Книга является очень классической, и в то же время содержит множество полезных приёмов и объяснений, почему работает именно так, а не иначе. Более того, в ней очень много материала, про который не расскажут практически ни на каком дополнительном курсе. Поэтому она однозначно получает огонек от (((админа)))🔥🔥.
How to заботать Deep Learning?
Как и обещали за (((много огоньков и шэров)) наш преподаватель по ML/DL делится своим видением How to заботать Deep Learning.
Овладев ML (Смотрите How to заботать Machine Learning), самое время присмотреться к глубокому обучению. Ведь куча современных прорывных и революционных технологий в области искусственного интеллекта основываются именно на нейронных сетях. Благодаря им машины способны отличать котиков от собачек, анализировать тексты, сжимать данные и пробовать себя в рэпе.
Как всегда, для начала отлично подойдет какой-нибудь курсик:
1) Deep Learning School
Курс по глубокому обучению от МФТИ, ориентирован в том числе на школьников.
Математическая часть освещается, но более на интуитивном уровне. Основной упор сделан на практику.
Практических заданий много, они позволяют deep погрузиться в материал и научиться с умом
применять нейронные сети под разные задачи. Есть базовый и продвинутый поток. Советую брать продвинутый,
особенно если вы уже освоились в питоне и классическом машинном обучении, ибо на нем больше заданий. После
окончания выдается сертификат и делается итоговый проект. Первый семестр посвящен работе с изображениями,
второй - работе с текстами и аудио. Очень хороший курс, и многие ныне успешные handmade persons😎😎 в индустрии начинали
именно с него (потому что больше ничего особо и не было).
2) Курсы cs от Стэнфорда
Посвященные разным аспектам глубокого обучения. Есть курс, посвященный NLP,
и даже отдельный курс, посвященный машинному обучению на графах. Практические задания есть, но они не
самые обширные, и немалый упор делается на теорию и внутреннюю работу всего происходящего. По графам,
по личному мнению автора, нет курса лучше, чем стэнфордский cs224w.
3) Natural Language Processing от ods.ai.
Тоже достаточно большой и полный курс, освещающий большую часть современной
обработки текстов. Несомненным плюсом является то, что курс, в отличие от стэнфордских, полностью на
русском языке.
4) Нейронные сети и компьютерное зрение от Samsung Research Center
Рассчитан в том числе на школьников, в нем достаточно сильно разжевываются основные понятия нейронных сетей, и от них
идет переход уже к обработке изображений.
5) An Introduction to Deep Reinforcement Learning
Если хочется чего-то экзотического, например, заботать обучение с подкреплением, то есть отлчиный курс от
Huggingface. Он на английском, но это не делает его менее бомбическим.
После прохождения каких-то курсов и преисполнения в своём познании, можно переходить сами знаете к чему— практике, как действовать уже писали тут.
Книг же по глубокому обучению столь же много, сколько и курсов, но, что является недостатком для начинающего, к книгам не прилагаются качественные практические задания. То, что безусловно можно посоветовать - "Глубокое обучение" от Яна Гудфеллоу (лежит в комментариях). Книга является очень классической, и в то же время содержит множество полезных приёмов и объяснений, почему работает именно так, а не иначе. Более того, в ней очень много материала, про который не расскажут практически ни на каком дополнительном курсе. Поэтому она однозначно получает огонек от (((админа)))🔥🔥.
Forwarded from Erjan G
ок раскажу про свой челендж:
литкод ( 2400 задач)
binarysearch com (1067)
codingchef ~2k problems
hacker earth com - 1500
quant questions - 200
strata scratch - 500
я хочу все сделать подобные сайты. на кодфорс не могу смотреть - там слишком сложно.
я не могу полдня сидеть на 1 задаче!
литкод ( 2400 задач)
binarysearch com (1067)
codingchef ~2k problems
hacker earth com - 1500
quant questions - 200
strata scratch - 500
я хочу все сделать подобные сайты. на кодфорс не могу смотреть - там слишком сложно.
я не могу полдня сидеть на 1 задаче!