Big Data Science – Telegram
Big Data Science
3.74K subscribers
65 photos
9 videos
12 files
637 links
Big Data Science channel gathers together all interesting facts about Data Science.
For cooperation: a.chernobrovov@gmail.com
💼https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
💻https://news.1rj.ru/str/bdscience_ru — Big Data Science [RU]
Download Telegram
‼️22 апреля в #tceh пройдет онлайн конференция по Big Data и Cloud Tech!

Спикерами выступят:

- Сергей Кондратьев, руководитель департамента облачных решений ПАО "ВымпелКом"
- Всеволод Грабельников, архитектор облачных решений Яндекс.Облако
- Александр Волынский, архитектор PaaS-продуктов Mail.ru Cloud Solutions
- Екатерина Колпакова, руководитель и архитектор DWH в Ситимобил (модератор)

Бесплатная регистрация – по ссылке https://tceh.com/u/cBLk/
💡Компания Google в марте объявила о бета-запуске Cloud AI Platform Pipelines, сервис, предназначенный для развертывания надежных, воспроизводимых AI-пайплайнов наряду с мониторингом, аудитом, отслеживанием версий и воспроизводимостью в облаке.

Google представляет это так: «простая в установке» защищенная среда для выполнения рабочих процессов машинного обучения, которая может сократить количество времени, которое предприятия тратят на внедрение продуктов в производство.

Даем ссылку на AI Platform Pipelines, чтобы познакомиться с ее структурой и работой:
https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-ai-platform-pipelines
💥Стартовал второй этап конкурса от Telegram на создание алгоритма для ранжирования новостей с призовым фондом €100 тысяч. Необходимо разработать standalone-приложение с CLI-интерфейсом и HTTP-сервером для агрегирования русскоязычных и англоязычных новостей, актуальных для временного периода и интересов конкретного читателя. Алгоритмы кластеризации должны выделять новости и статьи на английском и русском языках, а также группировать их по категориям и сюжетам. Далее требуется выполнить анализ и индексирование отобранных материалов с оптимизацией индекса для последующих запросов. Наконец, предлагаемое решение должно ранжировать тематические новости за указанный период времени по их важности. На странице конкурса представлены исходные данные, подробные условия задачи, требования к результатам и описание приемки работ. Завершение конкурса – 25 мая 2020 года. Больше информации о мероприятии в канале @contest.
🥁Консалтинговое агентство McKinsey&Co ищет таланты и запускает собственный DS-хакатон с 27 апреля по 25 июня 2020 года с призовым фондом в $25 тысяч. Задание появится на странице мероприятия 18 мая, а пока идет регистрация индивидуальных участников и команд не более 4-х человек. Подробная информация и правила конкурса приведены здесь.
🛠AutoViz - это механизм визуализации в один клик: он создает мощные графики и его может использовать любой пользователь, от новичка до эксперта. AutoViz может создавать диаграммы из любого плоского формата файла: CSV, Excel или TXT. Просто загрузите свои данные, и AutoViz отправит вам готовые графики.

Внедряется в 4 простых шага:
1. установка - "pip install autoviz"
2. далее импорт - "from autoviz.Autoviz_Class import Autoviz_Class"
3. создание класса "AV=AutoViz_Class()"

Ссылка на Github: https://github.com/AutoViML/AutoViz

Если нужно больше информации о данном инструменте даем ссылку - https://danrothdatascience.github.io/datascience/autoviz.html
👀8-10 июня состоится ежегодный Computer Vision and Deep Learning Summit – на этот раз в формате онлайн. В программе мероприятия – 12 докладов от ведущих DS-специалистов со всего мира, а также интерактивные дискуссии со спикерами и слушателями. Уже открыта предварительная регистрация, успевайте зарезервировать свой слот!
🗣Как выбрать правильный статистический тест из множества доступных и запустить его на своих собственных данных: очень подробная статья на английском языке с пруфами и математикой от разработчиков рекомендательных систем VK - https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f
👨🏼‍💻Запускаем тему относительно того, какие рекомендации стоит учесть data scientist'у при составлении резюме. Даже несмотря на то, что эти пункты кажутся очевидными, тем не менее многие про них забывают.

Источник: https://www.analyticsinsight.net/how-to-write-a-resume-for-data-science-role/
📓КНИГА DIVE INTO DEEP LEARNING
(Погружение в глубокое обучение):
бесплатная интерактивная книга с кодом, математикой и обсуждениями: http://d2l.ai/

Все концепции и методы также иллюстрируются и реализуются с помощью экспериментов на реальных датасетах.
Эта книга - попытка сделать глубокое обучение более доступным и понятным для всех, а также обучить вас необходимым понятиям, контексту и коду.

Авторы: Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola.
DeepMind выпускает Acme, распределенную среду для разработки алгоритма обучения с подкреплением

Платформа предназначена для упрощения разработки алгоритмов обучения с подкреплением, позволяющая агентам, управляемым ИИ, работать в различных масштабах производства.

Обучение с подкреплением – это разновидность машинного обучения, при котором агент учится действовать в окружающей среде, выполняя действия и тем самым нарабатывая интуицию, после чего наблюдает результаты своих действий.

Acme - это набор инструментов для тренировки систем обучения с подкреплением. Система стремится предоставить простые, эффективные и удобочитаемые агенты, которые служат как эталонными реализациями популярных алгоритмов, так и надежными базовыми показателями, и в то же время обеспечивают достаточную гибкость для проведения новых исследований.

Github:
https://github.com/deepmind/acme

Документ:
https://arxiv.org/abs/2006.00979
Чек-лист для руководителя. Чего ожидать от Data Science.

🧜‍♂️Наука о данных (Data Science) — не магия. Ваш бизнес никто не знает лучше вас. Помогайте специалисту инсайтами и информацией о бизнес-процессах. Знание и понимание предметной области критически важно. Дата сайентист просто не может разбираться во всех областях и знать специфику и все нюансы бизнеса.

📈Для анализа данных нужны данные. Лучше, если их много и они адекватные. Модель никогда не будет лучше данных, которые ей дадут. Не забывайте принцип «Мусор на входе — мусор на выходе». Постарайтесь максимально подробно описать откуда и как поступают данные и какие «подводные камни» в них могут быть.

💸Всегда перед постановкой ML-задачи спрашивайте себя: принесет ли решение значимую выгоду? Если нет, не ставьте ее. Время специалиста дорого.

▶️ Только вы определяете бизнес-метрику. Определите, к какому результату должна стремиться модель, что именно нужно максимизировать или минимизировать. На сколько критичны те или иные ошибки. Опишите, как правильно стоит оценивать качество прогноза.
🔥ABBYY впервые опубликовала на GitHub свою библиотеку разработок машинного обучения с открытым кодом NeoML на GitHub.

Это позволит ускорить разработку продуктов за счёт обратной связи от разработчиков и расширить сферу применения технологий компании.

Библиотека уже поддерживает языки программирования C++, Java, Objective C, а скоро ABBYY добавит к ним Python.

NeoML можно использовать на Windows, Linux, macOS, iOS и Android, библиотека поддерживает процессоры CPU и GPU.
💫Бесплатная онлайн-конференция Data Science

30 июня
пройдёт очередная Data Science конференция, которая начнётся в 11:00, однако на этот раз в онлайн-формате! А это значит, что у вас больше шансов на неё попасть и узнать много классных вещей.

Конференция будет состоять из двух потоков - технический и бизнес, однако они оба посвящены Data Science, но с разных сторон. Полную программу можно посмотреть по ссылке ниже.

Если вы
ещё не там, то обязательно регистрируйтесь по ссылке:
https://clck.ru/P45gm
☀️Неделю назад, 18 июня, состоялся онлайн-семинар Лаборатории искусственного интеллекта - совместного проекта ВКонтакте и ФПМК МФТИ. Кто пропустил прямую трансляцию, самое время скачать 4 видеодоклада и pdf-презентации по Deep Learning от спикеров VK Lab Talks:
сжатие BERT, графовые эмбеддинги, деградация языковых моделей и боты из техподдержки.
Материалы доступны по ссылке: https://vk.com/wall-44016343_31113
Geekhub приглашает на Big Data Online Meetup — обсудим, как обрабатывать большие массивы данных на маленьких компьютерах,  как использовать ML для увеличения уровня добычи нефти и компьютерное зрение + сверточные нейросети для оценки изображений.

Программа:

«Используем компьютерное зрение и сверточные нейросети для оценки картинки: история одной модели»
Александр Прохоров, аналитик в отделе контроля качества Skyeng,

«Большие данные на маленьких компьютерах. DASK»
Антон Недосеков, заместитель начальника управления архитектуры данных и бизнес аналитики Департамента управления клиентами массовых сегментов Банка Санкт-Петербург,

«Применение методов машинного обучения для увеличения уровня добычи нефти»
Михаил Шавкунов, аналитик данных, Центр разработки и монетизации данных, Дирекция по цифровой трансформации ПАО «Газпром нефть».

Участие бесплатное, но нужно зарегистрироваться: https://geekhub.ru
Data Analyst/Data Scientist — в чём разница?

#DS #DataAnalyst #DataScience #DataScientist #DataAnalysis #BigData #BigDataScience
🗣SMILES: SUMMER SCHOOL OF MACHINE LEARNING - недельный онлайн-интенсив по методам современной статистике и машинному обучению на английском языке от Сколтеха: абсолютно бесплатно и полностью онлайн! Спикеры со всего мира (Нью-Йорк, Тель-Авив, Калифорния, Дармштад) проведут видео-лекции и семинары с практическими заданиями по темам Reinforcement Learning, Robust DL, NLP, Causal inference и другим интересным направлениям Data Science. Регистрация открыта с 26 июня по 26 июля, отобранные участники получат приглашения к 1-му августа 2020 года. Мероприятие пройдет с 16 по 21 августа 2020 года. Успевайте подать заявку на участие! https://smiles.skoltech.ru/
Media is too big
VIEW IN TELEGRAM
Дизайн-студия Артемия Лебедева заявила, что создала «искусственный дизайнерский интеллект» и больше года выдавала его за реального человека. За это время нейросеть якобы разработала больше 20 логотипов для разных заказчиков. Никто из них не знал, что заказ выполнила машина.
Подробнее в видео.

Источник: YouTube канал Артемия Лебедева
👍Уникальная возможность поучаствовать в хакатоне Sigma-Thon 1.0. от HackerEarth!

Data Hackathons — это идеальное поле битвы для начинающих Data Scientist'ов. Организации постоянно ищут различные модели и идеи, чтобы поставлять нужные продукты в нужное время. Розничная торговля является одной из таких отраслей.

Что необходимо сделать: создать data-driven решение для предприятий розничной торговли, чтобы обновить свои каналы розничной торговли с помощью моделей данных, механизмов рекомендаций и многого другого. Можно участвовать командой до 4-х человек.

Дедлайн подачи заявок и решений: 12 июля, 2020

Ссылка: https://www.hackerearth.com/ru/challenges/hackathon/sigma-thon-v1/#overview
This media is not supported in your browser
VIEW IN TELEGRAM
🎞Лучшая подборка видео о Machine Learning:

1. Введение в машинное обучение https://youtu.be/ukzFI9rgwfU
2. Базовые знания об обработке естественного языка (Natural language processing)https://youtu.be/d4gGtcobq8M
3. О работе компьютерного зренияhttps://www.youtube.com/watch?v=OcycT1Jwsns&feature=youtu.be
4. Многоагентная система (Multi-agent) игры в прятки https://youtu.be/kopoLzvh5jY
5. Машинное обучение видеоигрhttps://youtu.be/qv6UVOQ0F44

Приятного просмотра!