ОБРАБОТКА_БОЛЬШИХ_ДАННЫХ_С_APACHE_SPARK_Университет_ИТМО.pdf
2.8 MB
Обработка больших данных с
Apache Spark– СПб: Университет ИТМО, 2019г.
Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETLконвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.
В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
Apache Spark– СПб: Университет ИТМО, 2019г.
Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETLконвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.
В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
How to Design and Build a Data Platform
https://productcoalition.com/how-to-design-and-build-a-data-platform-as-a-product-d22329ff5a3f
https://productcoalition.com/how-to-design-and-build-a-data-platform-as-a-product-d22329ff5a3f
Medium
How to Design and Build a Data Platform
A breakdown of the challenges, teachable moments, frameworks and recommendations to deliver a data platform successfully.
Перевод книги Problem Solving with Algorithms and Data Structures
https://aliev.me/runestone/index.html
https://aliev.me/runestone/index.html
aliev.me
Оглавление — Problem Solving with Algorithms and Data Structures
An interactive version of Problem Solving with Algorithms and Data Structures using Python.
Data_Analysis_with_Python_and_PySpark_Final_Release_Jonathan_Rioux.pdf
14.6 MB
Data Analysis with Python and PySpark (Final Release) (Jonathan Rioux)
👉 @devops_dataops
In Data Analysis with Python and PySpark you will learn how to:
• Manage your data as it scales across multiple machines
• Scale up your data programs with full confidence
• Read and write data to and from a variety of sources and formats
• Deal with messy data with PySpark’s data manipulation functionality
• Discover new data sets and perform exploratory data analysis
• Build automated data pipelines that transform, summarize, and get insights from data
• Troubleshoot common PySpark errors
• Creating reliable long-running jobs
👉 @devops_dataops
In Data Analysis with Python and PySpark you will learn how to:
• Manage your data as it scales across multiple machines
• Scale up your data programs with full confidence
• Read and write data to and from a variety of sources and formats
• Deal with messy data with PySpark’s data manipulation functionality
• Discover new data sets and perform exploratory data analysis
• Build automated data pipelines that transform, summarize, and get insights from data
• Troubleshoot common PySpark errors
• Creating reliable long-running jobs
Про Kafka (основы)
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
https://www.youtube.com/watch?v=-AZOi3kP9Js
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
https://www.youtube.com/watch?v=-AZOi3kP9Js
YouTube
Про Kafka (основы)
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
На видео мой рассказ про основы Kafka: что, зачем, как и где.
На видео мой рассказ про основы Kafka: что, зачем, как и где.
Ansible_Up_and_Running_Automating_Configuration_Management_and_Deployment.epub
12.9 MB
Ansible: Up and Running - Automating Configuration Management and Deployment the Easy Way, 3rd Edition
🔹 Explore Ansible configuration management and deployment
🔹 Manage Linux, Windows, and network devices
🔹 Learn how to apply Ansible best practices
🔹 Understand how to use the new collections format
🔹 Create custom modules and plug-ins
🔹 Generate reusable Ansible content for open source middleware
🔹 Build container images, images for cloud instances, and cloud infrastructure
🔹 Automate CI/CD development environments
🔹 Explore Ansible configuration management and deployment
🔹 Manage Linux, Windows, and network devices
🔹 Learn how to apply Ansible best practices
🔹 Understand how to use the new collections format
🔹 Create custom modules and plug-ins
🔹 Generate reusable Ansible content for open source middleware
🔹 Build container images, images for cloud instances, and cloud infrastructure
🔹 Automate CI/CD development environments
Как_вытащить_из_данных_максимум_Навыки_аналитики_для_неспециалистов.pdf
2 MB
Как вытащить из данных максимум Навыки аналитики для неспециалистов (Джордан Морроу)
Полный_бред_Скептицизм_в_мире_больших_данных_Карл_Бергстром,_Джевин.epub
6.6 MB
Полный бред Скептицизм в мире больших данных (Карл Бергстром, Джевин Уэст)
🔥1
gRPC_Запуск_и_эксплуатация_облачных_приложений_Go_и_Java_для_Docker.pdf
3.7 MB
gRPC: Запуск и эксплуатация облачных приложений - Go и Java для Docker и Kubernetes
Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.
В книге разбирается, как технология gRPC устроена «под капотом».
Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.
В книге разбирается, как технология gRPC устроена «под капотом».
GitHub - charlax/professional-programming
A collection of full-stack resources for programmers.
https://github.com/charlax/professional-programming
A collection of full-stack resources for programmers.
https://github.com/charlax/professional-programming
GitHub
GitHub - charlax/professional-programming: A collection of learning resources for curious software engineers
A collection of learning resources for curious software engineers - charlax/professional-programming
Tarantool is an in-memory computing platform consisting of a database and an application server.
Key features of the database:
- MessagePack data format and MessagePack based client-server protocol.
- Two data engines: 100% in-memory with complete WAL-based persistence and an own implementation of LSM-tree, to use with large data sets.
- Multiple index types: HASH, TREE, RTREE, BITSET.
- Document oriented JSON path indexes.
- Asynchronous master-master replication.
- Synchronous quorum-based replication.
- RAFT-based automatic leader election for the single-leader configuration.
- Authentication and access control.
- ANSI SQL, including views, joins, referential and check constraints.
- Connectors for many programming languages.
- The database is a C extension of the application server and can be turned off.
Key features of the database:
- MessagePack data format and MessagePack based client-server protocol.
- Two data engines: 100% in-memory with complete WAL-based persistence and an own implementation of LSM-tree, to use with large data sets.
- Multiple index types: HASH, TREE, RTREE, BITSET.
- Document oriented JSON path indexes.
- Asynchronous master-master replication.
- Synchronous quorum-based replication.
- RAFT-based automatic leader election for the single-leader configuration.
- Authentication and access control.
- ANSI SQL, including views, joins, referential and check constraints.
- Connectors for many programming languages.
- The database is a C extension of the application server and can be turned off.
GitHub
GitHub - tarantool/tarantool: Get your data in RAM. Get compute close to data. Enjoy the performance.
Get your data in RAM. Get compute close to data. Enjoy the performance. - tarantool/tarantool
Modern_Data_Engineering_with_Apache_Spark_A_Hands_On_Guide_for_Building.pdf
6.4 MB
Data Engineering with Apache Spark. A Hands-On Guide for Building Mission-Critical Streaming Applications.pdf
🔥1
Docker и Docker-Compose Tutorial (Контейнеры, install, run, image, daemon, etc.)
Внутри статьи по разделам довольно много полезных видео прикреплено с YouTube.
https://ivan-shamaev.ru/docker-compose-tutorial-container-image-install/
Внутри статьи по разделам довольно много полезных видео прикреплено с YouTube.
https://ivan-shamaev.ru/docker-compose-tutorial-container-image-install/
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Docker и Docker-Compose Tutorial (Контейнеры, install, run, image, daemon, etc.)
Docker и Docker-Compose Tutorial. Установка Docker. Архитектура Docker. Образы и контейнеры Docker. DockerFile. Основные команды. Bind Mount.
👍1
DevOps Roadmap
Step by step guide for DevOps, SRE or any other Operations Role in 2022
👉 @devops_dataops
https://roadmap.sh/devops
Step by step guide for DevOps, SRE or any other Operations Role in 2022
👉 @devops_dataops
https://roadmap.sh/devops
👍1
GitHub - DataTalksClub/data-engineering-zoomcamp: Free Data Engineering course!
https://github.com/DataTalksClub/data-engineering-zoomcamp
https://github.com/DataTalksClub/data-engineering-zoomcamp
GitHub
GitHub - DataTalksClub/data-engineering-zoomcamp: Data Engineering Zoomcamp is a free 9-week course on building production-ready…
Data Engineering Zoomcamp is a free 9-week course on building production-ready data pipelines. The next cohort starts in January 2026. Join the course here 👇🏼 - DataTalksClub/data-engineering-zoomcamp
👍3