Big Data Science – Telegram
Big Data Science
3.74K subscribers
65 photos
9 videos
12 files
637 links
Big Data Science channel gathers together all interesting facts about Data Science.
For cooperation: a.chernobrovov@gmail.com
💼https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
💻https://news.1rj.ru/str/bdscience_ru — Big Data Science [RU]
Download Telegram
5-6 декабря состоится DevFest Siberia 2020 — пятая ежегодная конференция для разработчиков.
В этом году на 4 потоках поговорят про Frontend, Backend, DevOps, Data Science, безопасность и веб-разработку.

На площадке будет:
4 потока трансляций, переключаться между которыми можно в любое время;
общий чат в каждом потоке, где можно задать вопросы спикеру;
личные сообщения с любым гостем площадки.

Вас ждут спикеры из Atlassian, Twitter, IBM, Revolut, Cloudflare, R3, Airbus, IceRock, Hazelcast.

Чтобы попасть на конференцию, необходимо купить билет на сайте конференции - https://gdg-siberia.com
👍🏻4 отличные NN-модели трансферного обучения для компьютерного зрения👀
👍🏻4 отличные NN-модели трансферного обучения для компьютерного зрения👀
Трансферное обучение (Transfer Learning)
, когда ML-модель предварительно обучена на других задачах, хорошо работает в условиях недостатка вычислительных ресурсов для тренировки и/или количества данных. В области Computer Vision неплохих результатов позволяют добиться следующие нейросетевые модели трансферного обучения:
VGG-19 – сверточная нейронная сеть из 19 главных слоев (16 сверточных, 3 полносвязных), 5 слоев MaxPool и 1 слой SoftMax. Она была разработана и обучена в Оксфордском университете в 2014 году. Для обучения VGG-19 использовалось более 1 миллиона цветных изображениях 224×224px из базы данных ImageNet.
Inceptionv3 – сверточная нейронная сеть глубиной 50 основных слоев, созданная и обученная в Google также на примерах базы ImageNet, но размер входного изображения чуть больше, чем у VGG-19 – 299×299px. На соревнованиях ImageNet 2014 года, где решались задачи детектирования, классификации и локализации объектов на изображении, именно Inceptionv3 заняла 1-е место, а ее основной конкурент, VGG19 – второе.
ResNet50 - сверточная нейросеть из 50 основных слоев, разработанная в 2015 году Microsoft для распознавания изображений. Эта ML-модель также обучена на миллионе цветных изображений 224×224px из базы ImageNet и может классифицировать до 1000 объектов. Сеть была создана, чтобы избавиться от затухающих и взрывных градиентов. При том, что ResNet50 имеет меньше параметров, чем VGG-19, она показывает более точные результаты.
EfficientNet – сверточная нейросеть 2019 года от Google, которая сегодня считается одной из самых эффективных и точных ML-моделей. Точность сверточных нейросетей растет с увеличением ширины (количества фильтров в каждом слое), глубины (количества слоев в модели) и разрешения (размер входного изображения). Но возрастание этих параметров приводит к существенному росту вычислительных затрат. Поэтому было создано 8 реализаций архитектуры EfficientNet, даже самая простая из которых (B0) показывает отличные результаты распознавания изображений при 5,3 миллионах параметров.
🤜🏻От слов к делу: 3 NLP-метода векторизации слов в PySpark
Обработка естественного языка (NLP, Natural Language Processing) предполагает перевод обрабатываемых слов в числовую форму с последующей векторизацией полученных данных для передачи алгоритмам машинного обучения. Для этого в Apache Spark можно использовать следующие методы:
CountVectorizer, который считает, сколько раз слово встретилось в документе (предложении, абзаце, посте, комментарии). CountVectorizer возвращает разреженные вектора (sparse vectors), значения в которых отсортированы по частоте встречаемости слова.
TF-IDF – метод векторизации признаков, часто используемый при анализе текстов. Он помогает отразить важность слова в отдельном документе и в целом наборе (корпусе). TF-IDF состоит из Term Frequency (TF, частота слова) и Inverse Document Frequency (IDF, обратная частота документа). TF – это отношение встречаемости слов к общему числу слов в документе. IDF считается для каждого слова в словаре, а не в документе. Интересно, что в PySpark, в отличие от Python-библиотеки Scikit-learn, части TF и IDF считаются отдельно друг от друга. TF можно также посчитать через CountVectorizer или его более быстрый аналог HashingTF, в котором индексы значений хранятся в хэш-кодах, вычисляемых через алгоритм MurmurHash3. В PySpark за вычисление IDF отвечает одноименный класс, метод fit() которого возвращает объект IDFModel, куда следует передать результат TF (HashingTF или CountVectorizer).
Word2Vec – нейросеть, вычисляющая распределенное векторное представление слов, которое считается одним из самых эффективных методов векторизации в NLP, и используется для распознавания именованных сущностей, устранения неоднозначностей, синтаксического анализа и машинного перевода. Векторизация Word2Vec в PySpark выполняется с помощью одноименного метода. В аргументах метода, кроме входного датасета и результата, можно также указать длину векторного представления vectorSize (по умолчанию 100) и minCount – минимальное число встречаемости слова, чтобы включить его в словарь модели и избавиться от редких слов.
👍🏻4 полезные Python-библиотек для NLP!
Часто Data Scientist’у нужно решать маленькие NLP-задачи, которые не реализованы в популярных и крупных фреймворках. Поэтому будет полезно знать о небольших библиотеках с отличной документацией и удобным интерфейсом, которые помогут справиться со специальными видами обработками текстов:
EMOT – библиотека для обнаружения эмотиконов и эмодзи. Она пригодится, если нужно предварительно обработать текстовые данные, чтобы удалить эмотиконы с эмодзи или изучить их влияние на семантику текста. На практике это подходит для анализа данные из соцсетей, например, Twitter. https://github.com/NeelShah18/emot
Flastext – библиотека для извлечения и замены ключевых слов в предложениях. Благодаря использованию собственных алгоритмов, она работает гораздо быстрее регулярных выражений. https://github.com/vi3k6i5/flashtext
Numerizer – библиотека, которая переводит числа, записанные словами на английском языке, в набор арабских цифр. Это пригодится в NLP-задачах, где требуется извлечь данные из текста. https://github.com/jaidevd/numerizer
Word-to-Number-Russian – аналог Numerizer для перевода числительных на русском языке. https://github.com/SergeyShk/Word-to-Number-Russian
💥Evidently помогает анализировать модели машинного обучения во время разработки, проверки или мониторинга производства. Инструмент генерирует интерактивные отчеты из pandas DataFrame.

Evidently — это полноценный MVP, который сегодня умеет оценивать только Data Drift, а совсем скоро научится делать ещё массу всего полезного, например, ассеcсмент ML модели — а дальше полноценный мониторинг!

🌏Подробнее: https://github.com/evidentlyai/evidently
🌎 5 Python-библиотек для работы с картами
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
🏂4 причины строить ML-конвейеры, а не просто модели с Apache Spark MLLib
Конвейеры - это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning:
чистый код за счет автоматизации процедур подготовки данных (выборка, очистка, генерация фичей и пр.)
сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или неправильно выполнить какой-то этап
простота развертывания в production – обычно преобразовать ML-модель от прототипа к масштабируемому и надежному решению для промышленной эксплуатации достаточно сложно, однако конвейеры помогут и здесь, облегчая тестирование и прочие MLOps-процедуры
дополнительная проверка ML-модели: можно применить перекрестную проверку (кросс-валидацию) и другие методы к этапам конвейера, пробуя различные параметры. Это ускоряет оптимизацию алгоритма и выбор наилучших конфигурационных настроек.
В конвейер могут входить следующие операции:
• устранение пропусков
• преобразование категориальных значений в номинальные и числовые
• нормализация диапазона значений для каждого измерения
• непосредственно ML-моделирование, где обучается алгоритм машинного обучения.
Таким образом, можно объединить весь поток обработки данных в один конвейер, и использовать его в дальнейшем.
Apache Spark 3.0 воплощает идею конвейеров машинного обучения, предоставляя единый набор высокоуровневых API-интерфейсов на основе DataFrame, которые помогают пользователям создавать и настраивать ML-pipeline’ы. Инструмент машинного обучения Apache Spark, библиотека MLlib стандартизирует API-интерфейсы для ML-алгоритмов, чтобы упростить объединение нескольких алгоритмов в один конвейер или рабочий процесс. Это реализовано с помощью специальных методов, упакованных в преобразователи (Transformer) и оценщики (Estimator). Как они работают на практике с примерами кода, смотрите здесь https://medium.com/towards-artificial-intelligence/big-data-pipelines-with-sparkml-8207c86fc995
👀7 Python-библиотек для визуализации данных
Быстро построить наглядный статический график или реализовать интерактивную диаграмму вам помогут следующие Python-библиотеки:
Matplotlib – простая библиотека с широким набором инструментов для построения статических диаграмм всего за пару строчек кода. Также Matplotlib используется другими библиотеками, например, Pandas и Seaborn. Интерфейс Matplotlib очень прост и похож на MATLAB. Библиотека пригодится, если нужно быстро проверить гипотезу. Но строить в ней трехмерные графики не очень удобно, а двухмерные диаграммы более презентабельно получаются с помощью Plotly. https://matplotlib.org/
Seaborn – высокоуровневая библиотека на основе Matplotlib с дополнительными инструментами, такими как, heatmap и violin plots, а также встроенными темами оформления. Seaborn отлично интегрируется с Pandas, и пригодится для визуализации статистических графиков, например, линейной регрессии. https://seaborn.pydata.org/index.html
Missingno, которая хорошо подходит для разведочного анализа данных, когда нужно понять исходный датасет и провести его первичную оценку. Например, Missingno быстро отфильтрует и визуализирует пропуски (отсутствующие значения) в виде баров, матрицы, тепловой матрицы (heatmap) или дендограммы (dendrogram), а также поможет выявить корреляцию между различными атрибутами. https://github.com/ResidentMario/missingno
Altair – простая и удобная библиотека для статистической визуализации и интерактивных графиков на базе Vega-Lite. Altair можно считать промежуточным звеном между Seaborn и Plotly: она более кастомизуруемая, чем Seaborn, но не настолько интерактивна как Plotly. Altair пригодится, если нужно быстро получить красивые результаты, в т.ч. интерактивные диаграмы, которые возвращают данные в формате JSON, чтобы потом их отрисовать с помощью Vega-Lite. Как и Seaborn, Altair отлично интегрируется с Pandas. https://altair-viz.github.io/
Plotly - библиотека, написанная на JavaScript, с множеством алгоритмов для машинного обучения и анализа данных, в т.ч. их визуализации. Она позволяет строить интерактивные диаграммы с анимациями, создавать сложные красивые карты, презентовать научные и финансовые результаты, а также показывать наглядные трехмерные графики. https://plotly.com/
Bokeh – это библиотека на основе Javanoscript для интерактивной визуализации с тремя типами уровня управления для разных пользователей. Самый высокий уровень позволяет создавать стандартные диаграммы (столбчатые, точечные и пр.). Средний уровень дает возможность контролировать основные строительные блоки каждой диаграммы. Наконец, полный контроль над каждым элементом диаграммы доступен на самом низком уровне. Bokeh пригодится, если нужны анимации и красивые интерактивные диаграммы, а также полный контроль над построением графиков. Однако, для 3D-диаграмм эта библиотека не очень удобна. https://bokeh.org/
Pygal – библиотека с разнообразными видами графиков, которые возвращают XML, чтобы отобразить его в браузере или сохранить в формате SVG. Для экспорта в PNG понадобятся дополнительные зависимости. Также Pygal позволяет работать с простыми картами. http://www.pygal.org/en/stable/
🔥27 декабря, с 10:00, состоится Ladies in tech митап о карьере в ИТ и AI!
Событие пройдет оффлайн, но будет доступна онлайн-трансляция и запись.

📌Цель митапа — рассказать о различных карьерах в ИТ (AI, ML, Software Engineering, Product Management etc.), показать, какими многими удивительными проектами можно заниматься в ИТ и AI сфере в EPFL, Yandex, Samsung, Intel, Google и др, как не только построить карьеру в России и Европе, но и как действовать в соответствии с своими ценностями и принципами, как оставаясь собой, добиться успехов и сделать вклад в полезные, высокотехнологичные проекты.

📍Митап пройдёт в здании SOK, малый зал.
Точный адрес: м. Динамо/Петровский парк (от метро 7-10 мин) Ленинградский пр-т., 36 строение 11.

Регистрацию на митап можно пройти по следующей ссылке — https://anna-perova.timepad.ru/event/1512474/?fbclid=IwAR2gq7Py8jSV723tPTFp46He0UGLd0JB-1a6hqQx1tRBJUOzbldgP_2gI7g
Про RecSys 2020
🌼В сентябре 2020 года прошла очередная международная ACM-конференция по рекомендательным системам – в этот раз полностью онлайн. 5 дней подряд ученые и ведущие специалисты из Google, Amazon, Microsoft и других крупных компаний делились опытом использования существующих алгоритмов и создания новых для повышения качества рекомендаций. ML-команда Одноклассников внимательно посмотрела все выступления и подготовила собственный обзор наиболее интересных статей и коротких докладов. Подробнее про достоинства и недостатки новых рекомендательных алгоритмов, а также подходы к уточнению оценки «старых добрых решений» читайте здесь: https://habr.com/ru/company/odnoklassniki/blog/532388/
🎄С Новым Годом! ML-итоги 2020: ТОП-5 новинок в науке о данных
Вот и подошел к концу непростой 2020. Давайте же вспомним наиболее интересные и крупные события в области Big Data Science, которые случились в этом сложном для всех году:
• в мае профессиональное сообщество OpenAI выпустило 3-ю версию языковой нейросети GPT, которая пишет текст, стихи, музыку и код, связывая уже созданные людьми данные. Иногда результаты очень близки к человеческим трудам https://openai.com/blog/openai-licenses-gpt-3-technology-to-microsoft/
• в июне вышел мажорный релиз популярного фреймворка для аналитик больших данных – Apache Spark 3.0 с новой структурой адаптивного выполнения SQL-запросов, улучшениями в API-интерфейсах библиотеки Pandas, включая подсказки типов Python и дополнительные UDF-функции, оптимизацией обработки ошибок Python и упрощение исключений PySpark, а также ускорением вызова UDF-функций языка R в десятки раз https://spark.apache.org/docs/latest/index.html
• в ноябре состоялся полноценный релиз открытой модели AlphaFold, которая используется для анализа структуры белковых и других химических соединений, позволяя биологам и химикам быстро анализировать вещества без реальных экспериментов https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
• под конец года вышла новая нейросеть для обнаружения объектов Scaled YOLO v4, которая показала наилучшие результаты на датасете Microsoft COCO с оптимальным соотношением скорости к точности. Она успешно обошла своих конкурентов Google EfficientDet D7x / DetectoRS or SpineNet-190 (self-trained on extra-data), Amazon Cascade-RCNN ResNest200, Microsoft RepPoints v2, Facebook RetinaNet SpineNet-190. https://habr.com/ru/post/531786/
тренд на объяснимый ИИ. В 2020 году очень много компаний и исследователей занимались задачей автоматической интерпретации ML-моделей. Были получены отличные результаты для нейронных сетей и распознавания образов, а также для разных видов бустингов и сложных многомерных задач. Существенно доработаны SHAP, LIME, MLxtend и д.р. А Google и Amazon планируют в ближайшее время представить свои решения, которые станут частью их облачных платформ. https://chernobrovov.ru/articles/interpretiruj-eto-metod-shap-v-data-science.html

Кроме того, появилось много новых DS-стартапов (Evidently, DABL) и ML-библиотек, значительно продвинулась концепция MLOps, начиная от AutoKeras до инструментов Google Cloud AI Platform. Прошло более 100 профессиональных конференций, митапов и хакатонов, в каждом из которых можно было принять участие благодаря онлайн-формату. В общем, несмотря на все вирусы, кризисы, карантины и прочие «прелести» 2020 года, этот период в целом был удачным для развития DS-сферы. Пусть все хорошее, что все же было в уходящем году, продолжится в следующие 12 месяцев, а число негативных новостей сократится. Всем здоровья, интересных задач, высокой точности алгоритмов и сходимости ML-моделей! С Новым Годом и до встречи в 2021! (надеюсь, не только онлайн))).💥
💥Год уже начался! Чтобы вы смогли активнее включиться в рабочий режим после длинных каникул, мы отобрали для вас ТОП-10 конференций по Big Data Science, Machine Learning и Artificial Intelligence. На многие из них еще открыт прием заявок и тезисов. Выбирайте подходящее мероприятие и участвуйте!
ODSC-2021 – 2 онлайн и 2 офлайн-конференции по DS и AI: 30 марта – 1 апреля, 8-10 июня, 15-18 ноября и 8-9 декабря. Узнайте про самые современные тренды в науке и инженерии Big Data Science: от решения классических NLP-задач новыми методами до автоматизации MLOps.
The Data Science Conference – независимая конференция DS-специалистов (без спонсоров, вендоров и рекрутеров), 22-23 апреля, Чикаго. Профессиональное пространство для аналитиков данных и ML-инженеров, где они смогут обсудить друг с другом специфические вопросы по современным методам и средствам интеллектуального анализа больших данных.
SDM21 от Society for Industrial and Applied Mathematics (SIAM) – онлайн-конференция по Data Mining, 29 апреля – 1 мая. Профильная конференция в области интеллектуального анализа данных позволяет DM-исследователям представить свою работу экспертам из ведущих мировых университетов и коммерческих компаний с упором на принципиальные методы с прочной математической основой.
Word Data Summit – 19-21 мая, Амстердам. Узнайте, как разработать аналитическую модель своего бизнеса и поведения клиентов, обсудив с экспертами все аспекты анализа данных, от обработки неструктурированной информации до улучшения визуализации и интерпретируемости результатов ML-моделирования и статистических исследований.
• Серия конференций от Predictive Analytics World. Целый набор конференций, саммитов и других интересных событий по DS, Big Data, AI и ML. Первым мероприятием будет Machine Learning Week, 24-28 мая, онлайн. Оно будет посвящено преимущественно применению Deep Learning.
ML Innovations – 21-23 июня, Мюнхен или онлайн. 3 полных дня новинок в Machine Learning от экспертов-практиков и научных исследователей, структурированных в 4 трека: продвинутая разработка, ML-принципы, бизнес-стратегия и инструментальные средства.
DATA 2021 – 10-ая глобальная конференция для разных аналитиков, от бизнес-аналитики до информационной безопасности, 6-8 июля, онлайн. Совместное мероприятие для исследователей, инженеров и практиков в базах данных, Big Data, Data Mining, управлении данными и безопасности информационных систем позволит вам прокачаться в разных направлениях прикладного анализа.
KDD-2021 – 27-ая ACM-конференция по Knowledge Discovery and Data Mining – 14-18 августа, Сингапур. Эксперты из ведущих университетов и мировых научно-исследовательских центров помогут разобраться во всех аспектах жизненного цикла науки о данных, от очистки и подготовки данных до интерпретируемости и распространения результатов.
RecSys-2021 – 15-ая конференция по рекомендательным системам от ACM, 27 сентября – 1 октября, Амстердам. Пожалуй, это главный международный форум для презентации новых исследований и методов в области рекомендательных систем, объединяющий международные исследовательские группы и ведущие мировые компании.
ReWork, как обычно, предлагают множество интересных конференций по AI и Deep Learning. Рекомендую обратить внимание на Reinforcement Learning Summit и Deep Learning Summit, 19-20 октября, Торонто. Ожидается звездный состав спикеров от всех ведущих технологических компаний.
В 2021 году нас ждёт очень много DS-событий, не все из них ещё анонсировали дату и формат. Здесь есть перечень интересных конференций, которые не вошли в топ. Примечательно, что очень много мероприятий заявлены оффлайн и ожидаются в азиатском регионе: Южная Корея, Япония, и, конечно же, Китай! Также в таблице есть дата до которой можно подать доклад, если вы хотите участвовать.
🏂 Недавно мы рассказывали про международные конференции, которые состоятся за рубежом. А сейчас поговорим о российских мероприятиях, ожидающих нас в ближайшие пару недель. Хотя половина января уже прошла в режиме каникул, до конца месяца еще есть время посетить несколько онлайн или офлайн DS-событий: митапы, конференции, хакатоны. Выбирай событие на свой вкус и участвуй!
NeurIPS New Year AfterParty от Яндекса – рассмотрим итоги NeurIPS (NIPS), одной из самых престижных международных ML-конференций. Выступят авторы статей, принятых на NeurIPS, 15-минутные обзоры работ по NLP, RL и CV, несколько быстрых докладов и большая дискуссия по методам оптимизации, краудсорсинга, прогнозах дорожной ситуации для беспилотников и других интересных DS-темах. https://events.yandex.ru/events/neurips-afterparty2020, 19.01.21, 18:00 по МСК
Онлайн-вебинар от Yandex.Cloud - практический пример использования serverless в разработке приложений: интеграция Yandex SpeechKit с голосовыми технологиями Voximplant, настройка и автоматизация обработки диалога, запуск CRM-телефонии serverless. 26 января 2021 г., 16:00 https://cloud.yandex.ru/events/298
Data Practice Webinar – онлайн-вебинар для начинающих по DS и BI-аналитике от EPAM. 28.01.21, 18:30 МСК, https://community-z.com/events/data-practice-webinar
Alfa Battle 2.0 – финальный этап онлайн-чемпионата для российских дата-сайентистов от Альфа-Банка. https://alfabattle.ru/2
Организаторы BigData & AI Conference 2021 анонсировали, что конференция состоится в этом году 23 и 24 сентября. Очень надеемся, что это будет оффлайн. Но даже если санитарные ограничения не позволят этого сделать, одно останется неизменным — организаторы обещают отбирать только свежие, ранее не засвеченные кейсы, и будут доклады об анализе данных без воды и визионерства. Отбор выступающих стартует в апреле – так что самое время готовить доклады.
https://ai-conf.org/
🚀Google уверенно держит лидерство в гонке ИИ-достижений! Встречайте новый метод масштабного обучения Switch Transformer, когда используется только подкласс веса ML-модели или параметров, которые изменяют входящие данные. Такая простая архитектура снижает время и стоимость процесса обучения, позволяя обрабатывать огромные объемы данных эффективнее сложных алгоритмов. Например, ML-модель c 1,5 трлн параметров обучилась в 4 раза быстрее, чем Т5-XXL от самой Google и в 10 раз обошла главного конкурента – алгоритм GPT-3 от Open AI.
https://syncedreview.com/2021/01/14/google-brains-switch-transformer-language-model-packs-1-6-trillion-parameters/
Учение – свет!☀️ ТОП-5 полезных книг с практическими советами для дата-инженера
1. I Hearts Logs (Jay Kreps, 2014 год, 50 стр) о роли логов в распределенной среде и принципах работы Apache Kafka
2. Designing Data-Intensive Applications (Martin Kleppmann, 2017, 550 стр) – базовые концепции разработки приложений, интенсивно использующих данные, от понятия модели данных до потоковой обработки
3. Rebuilding Reliable Data Pipelines Through Modern Tools (Ted Malaska, 2019, 100 стр.) – основы конвейерной (пайплайной) обработки данных и особенности построения эффективных конвейеров на базе современных технологий Big Data
4. Expert Hadoop Administration (Sam R. Alapati, 2016, 750 стр.) – от понятий MapReduce HDFS к разработке и обеспечению безопасности Spark-кластеров, оптимизации Hadoop и настройке YARN
5. Architecting Modern Data Platforms (Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George, 2018, 600 стр) – особенности локального и облачного развертывания Big Data инфраструктуры, включая все тонкости администрирования внешних служб Hadoop, от ОЗУ сервера и спецификации ЦП кластерных узлов до требований к сетевому соединению
https://towardsdatascience.com/5-books-for-data-engineers-f174bc1e7906
🎯MLOps-tools save your time and efforts to develop, test and deploy Machine Learning models. MlFlow is one of the most useful and popular MLOps-tools. If you are interested how to use it in practice, read this brief article https://medium.com/hashmapinc/why-i-love-mlflow-951b8d1134be
😁Теперь в этом канале мы будем постить интересные новости и статьи сразу на английском языке. А русскоязычные публикации и дайджесты отечественных ивентов читайте здесь: https://news.1rj.ru/str/bdscience_ru