Big Data Science – Telegram
Big Data Science
3.74K subscribers
65 photos
9 videos
12 files
637 links
Big Data Science channel gathers together all interesting facts about Data Science.
For cooperation: a.chernobrovov@gmail.com
💼https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
💻https://news.1rj.ru/str/bdscience_ru — Big Data Science [RU]
Download Telegram
Про RecSys 2020
🌼В сентябре 2020 года прошла очередная международная ACM-конференция по рекомендательным системам – в этот раз полностью онлайн. 5 дней подряд ученые и ведущие специалисты из Google, Amazon, Microsoft и других крупных компаний делились опытом использования существующих алгоритмов и создания новых для повышения качества рекомендаций. ML-команда Одноклассников внимательно посмотрела все выступления и подготовила собственный обзор наиболее интересных статей и коротких докладов. Подробнее про достоинства и недостатки новых рекомендательных алгоритмов, а также подходы к уточнению оценки «старых добрых решений» читайте здесь: https://habr.com/ru/company/odnoklassniki/blog/532388/
🎄С Новым Годом! ML-итоги 2020: ТОП-5 новинок в науке о данных
Вот и подошел к концу непростой 2020. Давайте же вспомним наиболее интересные и крупные события в области Big Data Science, которые случились в этом сложном для всех году:
• в мае профессиональное сообщество OpenAI выпустило 3-ю версию языковой нейросети GPT, которая пишет текст, стихи, музыку и код, связывая уже созданные людьми данные. Иногда результаты очень близки к человеческим трудам https://openai.com/blog/openai-licenses-gpt-3-technology-to-microsoft/
• в июне вышел мажорный релиз популярного фреймворка для аналитик больших данных – Apache Spark 3.0 с новой структурой адаптивного выполнения SQL-запросов, улучшениями в API-интерфейсах библиотеки Pandas, включая подсказки типов Python и дополнительные UDF-функции, оптимизацией обработки ошибок Python и упрощение исключений PySpark, а также ускорением вызова UDF-функций языка R в десятки раз https://spark.apache.org/docs/latest/index.html
• в ноябре состоялся полноценный релиз открытой модели AlphaFold, которая используется для анализа структуры белковых и других химических соединений, позволяя биологам и химикам быстро анализировать вещества без реальных экспериментов https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
• под конец года вышла новая нейросеть для обнаружения объектов Scaled YOLO v4, которая показала наилучшие результаты на датасете Microsoft COCO с оптимальным соотношением скорости к точности. Она успешно обошла своих конкурентов Google EfficientDet D7x / DetectoRS or SpineNet-190 (self-trained on extra-data), Amazon Cascade-RCNN ResNest200, Microsoft RepPoints v2, Facebook RetinaNet SpineNet-190. https://habr.com/ru/post/531786/
тренд на объяснимый ИИ. В 2020 году очень много компаний и исследователей занимались задачей автоматической интерпретации ML-моделей. Были получены отличные результаты для нейронных сетей и распознавания образов, а также для разных видов бустингов и сложных многомерных задач. Существенно доработаны SHAP, LIME, MLxtend и д.р. А Google и Amazon планируют в ближайшее время представить свои решения, которые станут частью их облачных платформ. https://chernobrovov.ru/articles/interpretiruj-eto-metod-shap-v-data-science.html

Кроме того, появилось много новых DS-стартапов (Evidently, DABL) и ML-библиотек, значительно продвинулась концепция MLOps, начиная от AutoKeras до инструментов Google Cloud AI Platform. Прошло более 100 профессиональных конференций, митапов и хакатонов, в каждом из которых можно было принять участие благодаря онлайн-формату. В общем, несмотря на все вирусы, кризисы, карантины и прочие «прелести» 2020 года, этот период в целом был удачным для развития DS-сферы. Пусть все хорошее, что все же было в уходящем году, продолжится в следующие 12 месяцев, а число негативных новостей сократится. Всем здоровья, интересных задач, высокой точности алгоритмов и сходимости ML-моделей! С Новым Годом и до встречи в 2021! (надеюсь, не только онлайн))).💥
💥Год уже начался! Чтобы вы смогли активнее включиться в рабочий режим после длинных каникул, мы отобрали для вас ТОП-10 конференций по Big Data Science, Machine Learning и Artificial Intelligence. На многие из них еще открыт прием заявок и тезисов. Выбирайте подходящее мероприятие и участвуйте!
ODSC-2021 – 2 онлайн и 2 офлайн-конференции по DS и AI: 30 марта – 1 апреля, 8-10 июня, 15-18 ноября и 8-9 декабря. Узнайте про самые современные тренды в науке и инженерии Big Data Science: от решения классических NLP-задач новыми методами до автоматизации MLOps.
The Data Science Conference – независимая конференция DS-специалистов (без спонсоров, вендоров и рекрутеров), 22-23 апреля, Чикаго. Профессиональное пространство для аналитиков данных и ML-инженеров, где они смогут обсудить друг с другом специфические вопросы по современным методам и средствам интеллектуального анализа больших данных.
SDM21 от Society for Industrial and Applied Mathematics (SIAM) – онлайн-конференция по Data Mining, 29 апреля – 1 мая. Профильная конференция в области интеллектуального анализа данных позволяет DM-исследователям представить свою работу экспертам из ведущих мировых университетов и коммерческих компаний с упором на принципиальные методы с прочной математической основой.
Word Data Summit – 19-21 мая, Амстердам. Узнайте, как разработать аналитическую модель своего бизнеса и поведения клиентов, обсудив с экспертами все аспекты анализа данных, от обработки неструктурированной информации до улучшения визуализации и интерпретируемости результатов ML-моделирования и статистических исследований.
• Серия конференций от Predictive Analytics World. Целый набор конференций, саммитов и других интересных событий по DS, Big Data, AI и ML. Первым мероприятием будет Machine Learning Week, 24-28 мая, онлайн. Оно будет посвящено преимущественно применению Deep Learning.
ML Innovations – 21-23 июня, Мюнхен или онлайн. 3 полных дня новинок в Machine Learning от экспертов-практиков и научных исследователей, структурированных в 4 трека: продвинутая разработка, ML-принципы, бизнес-стратегия и инструментальные средства.
DATA 2021 – 10-ая глобальная конференция для разных аналитиков, от бизнес-аналитики до информационной безопасности, 6-8 июля, онлайн. Совместное мероприятие для исследователей, инженеров и практиков в базах данных, Big Data, Data Mining, управлении данными и безопасности информационных систем позволит вам прокачаться в разных направлениях прикладного анализа.
KDD-2021 – 27-ая ACM-конференция по Knowledge Discovery and Data Mining – 14-18 августа, Сингапур. Эксперты из ведущих университетов и мировых научно-исследовательских центров помогут разобраться во всех аспектах жизненного цикла науки о данных, от очистки и подготовки данных до интерпретируемости и распространения результатов.
RecSys-2021 – 15-ая конференция по рекомендательным системам от ACM, 27 сентября – 1 октября, Амстердам. Пожалуй, это главный международный форум для презентации новых исследований и методов в области рекомендательных систем, объединяющий международные исследовательские группы и ведущие мировые компании.
ReWork, как обычно, предлагают множество интересных конференций по AI и Deep Learning. Рекомендую обратить внимание на Reinforcement Learning Summit и Deep Learning Summit, 19-20 октября, Торонто. Ожидается звездный состав спикеров от всех ведущих технологических компаний.
В 2021 году нас ждёт очень много DS-событий, не все из них ещё анонсировали дату и формат. Здесь есть перечень интересных конференций, которые не вошли в топ. Примечательно, что очень много мероприятий заявлены оффлайн и ожидаются в азиатском регионе: Южная Корея, Япония, и, конечно же, Китай! Также в таблице есть дата до которой можно подать доклад, если вы хотите участвовать.
🏂 Недавно мы рассказывали про международные конференции, которые состоятся за рубежом. А сейчас поговорим о российских мероприятиях, ожидающих нас в ближайшие пару недель. Хотя половина января уже прошла в режиме каникул, до конца месяца еще есть время посетить несколько онлайн или офлайн DS-событий: митапы, конференции, хакатоны. Выбирай событие на свой вкус и участвуй!
NeurIPS New Year AfterParty от Яндекса – рассмотрим итоги NeurIPS (NIPS), одной из самых престижных международных ML-конференций. Выступят авторы статей, принятых на NeurIPS, 15-минутные обзоры работ по NLP, RL и CV, несколько быстрых докладов и большая дискуссия по методам оптимизации, краудсорсинга, прогнозах дорожной ситуации для беспилотников и других интересных DS-темах. https://events.yandex.ru/events/neurips-afterparty2020, 19.01.21, 18:00 по МСК
Онлайн-вебинар от Yandex.Cloud - практический пример использования serverless в разработке приложений: интеграция Yandex SpeechKit с голосовыми технологиями Voximplant, настройка и автоматизация обработки диалога, запуск CRM-телефонии serverless. 26 января 2021 г., 16:00 https://cloud.yandex.ru/events/298
Data Practice Webinar – онлайн-вебинар для начинающих по DS и BI-аналитике от EPAM. 28.01.21, 18:30 МСК, https://community-z.com/events/data-practice-webinar
Alfa Battle 2.0 – финальный этап онлайн-чемпионата для российских дата-сайентистов от Альфа-Банка. https://alfabattle.ru/2
Организаторы BigData & AI Conference 2021 анонсировали, что конференция состоится в этом году 23 и 24 сентября. Очень надеемся, что это будет оффлайн. Но даже если санитарные ограничения не позволят этого сделать, одно останется неизменным — организаторы обещают отбирать только свежие, ранее не засвеченные кейсы, и будут доклады об анализе данных без воды и визионерства. Отбор выступающих стартует в апреле – так что самое время готовить доклады.
https://ai-conf.org/
🚀Google уверенно держит лидерство в гонке ИИ-достижений! Встречайте новый метод масштабного обучения Switch Transformer, когда используется только подкласс веса ML-модели или параметров, которые изменяют входящие данные. Такая простая архитектура снижает время и стоимость процесса обучения, позволяя обрабатывать огромные объемы данных эффективнее сложных алгоритмов. Например, ML-модель c 1,5 трлн параметров обучилась в 4 раза быстрее, чем Т5-XXL от самой Google и в 10 раз обошла главного конкурента – алгоритм GPT-3 от Open AI.
https://syncedreview.com/2021/01/14/google-brains-switch-transformer-language-model-packs-1-6-trillion-parameters/
Учение – свет!☀️ ТОП-5 полезных книг с практическими советами для дата-инженера
1. I Hearts Logs (Jay Kreps, 2014 год, 50 стр) о роли логов в распределенной среде и принципах работы Apache Kafka
2. Designing Data-Intensive Applications (Martin Kleppmann, 2017, 550 стр) – базовые концепции разработки приложений, интенсивно использующих данные, от понятия модели данных до потоковой обработки
3. Rebuilding Reliable Data Pipelines Through Modern Tools (Ted Malaska, 2019, 100 стр.) – основы конвейерной (пайплайной) обработки данных и особенности построения эффективных конвейеров на базе современных технологий Big Data
4. Expert Hadoop Administration (Sam R. Alapati, 2016, 750 стр.) – от понятий MapReduce HDFS к разработке и обеспечению безопасности Spark-кластеров, оптимизации Hadoop и настройке YARN
5. Architecting Modern Data Platforms (Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George, 2018, 600 стр) – особенности локального и облачного развертывания Big Data инфраструктуры, включая все тонкости администрирования внешних служб Hadoop, от ОЗУ сервера и спецификации ЦП кластерных узлов до требований к сетевому соединению
https://towardsdatascience.com/5-books-for-data-engineers-f174bc1e7906
🎯MLOps-tools save your time and efforts to develop, test and deploy Machine Learning models. MlFlow is one of the most useful and popular MLOps-tools. If you are interested how to use it in practice, read this brief article https://medium.com/hashmapinc/why-i-love-mlflow-951b8d1134be
😁Теперь в этом канале мы будем постить интересные новости и статьи сразу на английском языке. А русскоязычные публикации и дайджесты отечественных ивентов читайте здесь: https://news.1rj.ru/str/bdscience_ru
How to streamline the implementation of reasoning systems with ReAgent from Facebook.
ReAgent is the end-to-end platform applied Reinforcement Learning designed for large-scale, distributed recommendation/optimization tasks where we don’t have access to a simulator. The main purpose of this framework is to make the development & experimentation of deep reinforcement algorithms fast. ReAgent is built on Python. It uses PyTorch framework for data modelling. ReAgent holds different algorithms for data preprocessing, feature engineering, model training & evaluation and lastly for optimized serving. It is capable of handling Large-dimension datasets, provides optimized algorithms for data preprocessing, training, and gives a highly efficient production environment for model serving. https://analyticsindiamag.com/hands-on-to-reagent-end-to-end-platform-for-applied-reinforcement-learning/
💦Transparent interpretation of results and permanent learning in production with non-stop adaptation of neural network to new conditions and data
Liquid NN from MIT for decision making in autonomous driving and medical diagnosis based on nervous system of microscopic nematode with 302 neurons and principles of time series data ananlytics. This ML-model edged out other state-of-the-art time series algorithms by a few percentage points in accurately predicting future values in datasets, ranging from atmospheric chemistry to traffic patterns. Just changing the representation of a neuron with the differential equations, you can deal with small number of highly expressive neurons and peer into the “black box” of the network’s decision making and diagnose why the network made a certain characterization.
https://news.mit.edu/2021/machine-learning-adapts-0128
🌷Not only LightGBM and XGBoost: meet new probabilistic prediction algorithm - Natural Gradient Boosting (NGBoost). Released in 2019, NGBoost uses the Natural Gradient to address technical challenges that makes generic probabilistic prediction hard with existing gradient boosting methods. This algorithm consists of three abstract modular components: base learner, parametric probability distribution, and scoring rule. All three components are treated as hyperparameters chosen in advance before training. NGBoost makes it easier to do probabilistic regression with flexible tree-based models. Further, it has been possible to do probabilistic classification for quite some time since most classifiers are actually probabilistic classifiers in that they return probabilities over each class. For instance, logistic regression returns class probabilities as output. In this light, NGBoost doesn’t add much new but experiments on several regression datasets proved that this ML-algorithm provides competitive predictive performance of both uncertainty estimates and traditional metrics. On other hand its computing time is quite longer than other two algorithms and there’s no some useful options, e.g. early stopping, showing the intermediate results, the flexibility of choosing the base learner, setting a random state seed, dealing only with decision tree and Ridge regression,and so on. But this modular ML-algorithm for probabilistic prediction is quite competitive against other popular boosting methods. See more
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1
Deep into NGBoost and probabilistic regression: what is probabilistic supervised learning and how to deal with prediction intervals. About correct interpretation of this ML-algorithm
https://towardsdatascience.com/interpreting-the-probabilistic-predictions-from-ngboost-868d6f3770b2