DevBrain – Telegram
DevBrain
3.03K subscribers
28 photos
2 videos
9 files
712 links
Автор @adilkhash

Веду блог https://khashtamov.com/
Download Telegram
​​Как научить нейросеть узнавать объекты с первого раза?

Зарегистрируйтесь среди первых на бесплатный вечерний вебинар 17 марта «Triplet loss: учим нейросеть узнавать объекты с первого раза»: https://otus.pw/TKcs/

На вебинаре:
− научитесь работать с tensorflow datasets
− рассмотрите проблему one-shot learning, metric learning
− разберете, что такое siamese networks и triplet loss
− обучите нейросеть, способную с первого раза узнавать объекты.

Проведет онлайн-практику Михаил Степанов, программист в отделе машинного обучения компании Jet Infosystems и преподаватель онлайн-курса по компьютерному зрению в Отус Онлайн-образование.
Асинхронный фреймворк FastAPI сейчас на хайпе, и, к слову, к нему стоит присмотреться. Я не так давно запилил небольшой сервис на основе него, в основном всё там IO-bound, поэтому получилось быстро и минималистично. Предыдущую версию сервиса я делал на Django + Celery, и это решение отжирало памяти как не в себя. С fastapi получилось уложиться в 60 мегабайт против 400+ на Django/Celery.

Если вы ещё не слышали про FastAPI, то я нашел подходящую статейку про построение микросервиса на FastAPI: https://dev.to/paurakhsharma/microservice-in-python-using-fastapi-24cc
Для того чтобы пользователи увидели видео в Интернете, его нужно не только загрузить на сервер, но и обработать (сконвертировать в необходимый формат, создать превью). Разработчики Яндекса ускорили этот процесс в 8 раз. Теперь записи будут быстрее предобрабатываться во всех сервисах, где есть видеоконтент (Эфир, КиноПоиск, Дзен, Новости).

Обычно видео кодируется последовательно одним сервером. Чтобы ускорить этот процесс, используют параллельное кодирование. Теперь видео разбивается на множество мелких фрагментов длиной около 10 секунд и обрабатывает их не поэтапно одним сервером, а одновременно сразу несколькими.

Параллельная обработка видео позволила Яндексу сократить задержку между загрузкой видео и его доступностью для пользователей. Раньше на создание нескольких версий разного качества для FullHD-фильма длиной в полтора часа уходило два часа, то теперь это занимает 15 минут.

Если при старом подходе серверы простаивали без задач или их, наоборот, не хватало, то теперь железо задействовано в работе более равномерно.
Ребята из JetBrains провели очередной крутой вебинар. На этот раз он был посвящен PyCharm и Django.
На вебинаре рассмотрели такие штуки как:
- Django specific автокомплит
- Dependency диаграммы
- Отладка Django шаблонов
- Генерирование type hints
И многое другое. Если вы создаёте веб-приложения на Django, а также используете PyCharm, то этот вебинар — must-watch: https://bit.ly/39rrUNh
​​На просторах сети нашел бесплатный курс от Стэнфордского Университета про веб-безопасность — CS 253 Web Security.
Ведёт его небезызвестный Feross Aboukhadijeh. Он в своё время прославился сервисом YouTube Instant, который в реальном времени выводил подсказки при поисковых запросах. После чего получил приглашение на работу в YouTube 😎
Курс определенно стоит вашего внимания!
И снова поговорим про ETL

На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:

- Luigi
- Apache Airflow

И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.

Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.


Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
Кстати, возможно не все знают, но у меня есть старый проект по удаленным вакансиям remotelist.

Я давно его не развивал, сейчас планирую возобновить над ним работу.

Если вы ввиду последних событий задумались о поиске работы, велком 🤗

Телеграм канал: @remotelist
Сайт: remotelist.ru
Бот: @RemoteListBot
Бесплатная книга по системному программированию на Си: http://cs241.cs.illinois.edu/coursebook/index.html
Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны

Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?

Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS,ECR, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.

Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/34Ezq6J

Стоимость курса не изменилась, всего $10

Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
За время отсутствия новых постов появилась тонна нового и интересного материала в сети (огонь)

Во-первых, PyCon US впервые проходит дома. Дабы не пропадать добру, докладчики записали все свои доклады сидя дома, а организаторы любезно стали их выкладывать. Следите за новыми докладами на канале PyCon 2020. Из интересного:

- Static Typing in Python
- The Hidden Power of the Python Runtime
- Hands-On Web App Test Automation

Во-вторых, появились все доклады с HighLoad 2019, прошедшей в ноябре 2019. Из интересного:

- Переезжаем на ClickHouse: 3 года спустя
- Десятки ветвистых ETL-пайплайнов из сотен источников, Luigi рулит!)
- Клиентоориентированный Data Lake в игровой компании

Остальное можно посмотреть на канале HighLoad Channel

В-третьих, ребята из EdgeDB запустили серию уроков по asyncio, пока вышло 2:

- import asyncio: Learn Python's AsyncIO #1 - The Async Ecosystem
- import asyncio: Learn Python's AsyncIO #2 - The Event Loop
Forwarded from DataEng
Нашел в сети курс от MIT про распределённые системы: MIT 6.824: Distributed Systems, ведёт курс легендарный Роберт Морис: https://www.youtube.com/channel/UC_7WrbZTCODu1o_kfUMq88g/videos
Все знают Postman, а я недавно наткнулся на новую тулзу Insomnia для работы с API: https://insomnia.rest/
К вопросу про целесообразность построение проекта на основе микросервисной архитектуры. Почитайте полезный пост от Twitter о том как они у себя удаляют данные в своём распределённом улье: https://blog.twitter.com/engineering/en_us/topics/infrastructure/2020/deleting-data-distributed-throughout-your-microservices-architecture.html

Весьма актуально в эпоху GDPR