An Overview of the End-to-End Machine Learning Workflow
In this section, we provide a high-level overview of a typical workflow for machine learning-based software development. Generally, the goal of a machine learning project is to build a statistical model by using collected data and applying machine learning algorithms to them. Therefore, every ML-based software includes three main artifacts: Data, ML Model, and Code. Corresponding to these artifacts, the typical machine learning workflow consists of three main phases:
🔹Data Engineering: data acquisition & data preparation,
🔹ML Model Engineering: ML model training & serving, and
🔹Code Engineering: integrating ML model into the final product.
In this section, we provide a high-level overview of a typical workflow for machine learning-based software development. Generally, the goal of a machine learning project is to build a statistical model by using collected data and applying machine learning algorithms to them. Therefore, every ML-based software includes three main artifacts: Data, ML Model, and Code. Corresponding to these artifacts, the typical machine learning workflow consists of three main phases:
🔹Data Engineering: data acquisition & data preparation,
🔹ML Model Engineering: ML model training & serving, and
🔹Code Engineering: integrating ML model into the final product.
Обработка данных на Apache Airflow в Yandex Cloud
https://www.youtube.com/live/jF3YemOVofQ?si=zLFx_416vByV3za9
https://www.youtube.com/live/jF3YemOVofQ?si=zLFx_416vByV3za9
YouTube
Обработка данных на Apache Airflow в Yandex Cloud
Для анализа данных в облаке не достаточно СУБД и средств визуализации — нужен ещё и понятный инструмент, который автоматизирует сбор, подготовку и обработку данных. На вебинаре мы расскали о таком сервисе — Apache Airflow.
Эксперты Yandex Cloud обсудили:…
Эксперты Yandex Cloud обсудили:…
GitHub - ripienaar/free-for-dev: A list of SaaS, PaaS and IaaS offerings that have free tiers of interest to devops and infradev
https://github.com/ripienaar/free-for-dev
Free for Developers
https://free-for.dev/
https://github.com/ripienaar/free-for-dev
Free for Developers
https://free-for.dev/
GitHub
GitHub - ripienaar/free-for-dev: A list of SaaS, PaaS and IaaS offerings that have free tiers of interest to devops and infradev
A list of SaaS, PaaS and IaaS offerings that have free tiers of interest to devops and infradev - ripienaar/free-for-dev
❤1
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов / Хабр
https://habr.com/ru/companies/cedrusdata/articles/744934/
https://habr.com/ru/companies/cedrusdata/articles/744934/
Хабр
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом...
👍2
Forwarded from DataEng
Курс про Apache Airflow бесплатно
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
🔥7🥴2👍1
Неплохой гайд по DBT "The GitLab Handbook"
https://handbook.gitlab.com/handbook/business-technology/data-team/platform/dbt-guide/
https://handbook.gitlab.com/handbook/business-technology/data-team/platform/dbt-guide/
👍1
Курс по dbt с нуля. Занятие 1. Преимущества dbt. Запускаем dbt из docker в связке с ClickHouse
https://www.youtube.com/watch?v=fXt-VmqsVPA
https://www.youtube.com/watch?v=fXt-VmqsVPA
YouTube
Курс по dbt с нуля. Занятие 1. Преимущества dbt. Запускаем dbt из docker в связке с ClickHouse.
План занятия:
- Что такое dbt
- Преимущества dbt
- Разворачиваем ClickHouse с помощью Docker-compose
- Наполняем ClickHouse тестовыми данными
- Упаковываем dbt-clickhouse в docker контейнер
- Инициализируем проект dbt (dbt init)
- Настраиваем проект (dbt_project.yml…
- Что такое dbt
- Преимущества dbt
- Разворачиваем ClickHouse с помощью Docker-compose
- Наполняем ClickHouse тестовыми данными
- Упаковываем dbt-clickhouse в docker контейнер
- Инициализируем проект dbt (dbt init)
- Настраиваем проект (dbt_project.yml…
👍2
Курс по dbt с нуля. Занятие 2
Особенности установки на Windows.
Запуск ClickHouse в wsl 2.
https://youtu.be/wSUbJ5lUahw?si=_Q60ad9AQYk3lpQD
Особенности установки на Windows.
Запуск ClickHouse в wsl 2.
https://youtu.be/wSUbJ5lUahw?si=_Q60ad9AQYk3lpQD
YouTube
Курс по dbt с нуля. Занятие 2.2. Особенности установки на Windows. Запуск Clickhouse в wsl 2.
Домашние задания можно сдавать на странице курса по dbt: https://itempuniversity.com/course/view.php?id=684
Презентация: https://docs.google.com/presentation/d/1jLiNQOogMfUDCh0HuGmTgTq7AOEuTWBn7aAJPfSREqo/edit?usp=sharing
Если вы используете Windows, то…
Презентация: https://docs.google.com/presentation/d/1jLiNQOogMfUDCh0HuGmTgTq7AOEuTWBn7aAJPfSREqo/edit?usp=sharing
Если вы используете Windows, то…
GitHub - QuantumFluxx/karpov_courses: 🐳 Проектная деятельность. Здесь хранятся лекции, практические задания и проекты с karpov_courses.
https://github.com/QuantumFluxx/karpov_courses
https://github.com/QuantumFluxx/karpov_courses
❤3
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора / Хабр
https://habr.com/ru/companies/lamoda/articles/810705/
https://habr.com/ru/companies/lamoda/articles/810705/
Хабр
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...
Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker / Хабр
https://habr.com/ru/articles/813813/
https://habr.com/ru/articles/813813/
Хабр
Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker
Привет! Меня зовут Владимир Ходак, я работаю инженером данных в компании "ДЮК Технологии". В статье расскажу о практических аспектах использования Apache NiFi, опишу преимущества и проблемы, с...
Forwarded from Курсы NovaData.
Всем привет!
Ровно через 3 недели будет открыт наш курс.
Расскажем, что ждет Вас на курсе:
📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
✅ Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор
Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
Ровно через 3 недели будет открыт наш курс.
Расскажем, что ждет Вас на курсе:
📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
✅ Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор
Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
🔥11👍2
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data
Lakehouse Functionality, Performance, and Scalability on the Data Lake
The Definitive Guide Data
Lakehouse Functionality, Performance, and Scalability on the Data Lake
🔥4❤2