NEW BOT Телеграм, страница

Сегодня поговорим о технологии, которая изменила мир обработки данных, а именно о MapReduce

🖥

Как мы начали приручать терабайты:
В условиях стремительного роста объёмов информации традиционные методы обработки данных перестали справляться с поставленными задачами. Компании столкнулись с необходимостью обрабатывать терабайты и даже петабайты данных ежедневно. Именно в ответ на этот вызов и появился MapReduce — революционный подход, ставший фундаментом для распределённых вычислений в рамках экосистемы Hadoop.

❓

Что такое MapReduce?
Это способ обработки больших объёмов данных за счёт разбиения задачи на мелкие подзадачи, которые параллельно обрабатываются на разных машинах в кластере.

Как это работает:
Input — на вход подаётся большой массив данных: текст, логи, последовательности ДНК и т.д.
Splitting — данные делятся на фрагменты, которые обрабатываются независимо.
Mapping — каждый фрагмент проходит через функцию map, которая превращает данные в пары «ключ — значение». Например, слово → 1.
Shuffling — все одинаковые ключи группируются: все «Car» — вместе, все «Bear» — вместе и т.д.
Reducing — к каждой группе применяется функция reduce, которая агрегирует значения. Например, считает, сколько раз встретилось каждое слово.
Result — получается финальный список, например:

Car — 3  
Deer — 2  
Bear — 2

⛏

Где применяется?
MapReduce активно применялся (и до сих пор используется) в индустриях, где нужно перерабатывать огромные объёмы данных, например:

Поисковые системы — Google применял MapReduce для индексации веб-страниц и подсчёта ссылок (PageRank).

Также один из мощных примеров — анализ геномных данных
Исследования в биоинформатике генерируют терабайты сырых данных: последовательности ДНК, карты мутаций, транскриптомные данные и пр.

✅ Кейс: компания Broad Institute использует MapReduce-подобную архитектуру в своём GATK (Genome Analysis Toolkit) для обработки данных секвенирования человека.

Понимание Map-reduce один из типичных тем на собеседованиях на Дата-инженера.

❓

Частые вопросы на собесах:
⏺Как работает MapReduce — опишите все этапы?
⏺Зачем нужен shuffle и почему он дорогой по ресурсам?
⏺Чем Spark отличается от MapReduce?
⏺Где работает MapReduce? (в памяти или на диске)

#bigdata #mapreduce #hadoop #собеседование

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍8⚡3😁1

1.44K viewsedited 11:34