Big Data Science – Telegram
Big Data Science
3.74K subscribers
65 photos
9 videos
12 files
637 links
Big Data Science channel gathers together all interesting facts about Data Science.
For cooperation: a.chernobrovov@gmail.com
💼https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
💻https://news.1rj.ru/str/bdscience_ru — Big Data Science [RU]
Download Telegram
🥁В преддверии нового учебного года мы вновь публикуем ежемесячный дайджест конференций, митапов, хакатонов и прочих образовательных событий по направлениям Data Science, Machine Learning и Big Data. Многие из этих мероприятий проводятся в 2020 году онлайн и доступны для удаленного участия:
1 сентября в 11:00 МСК - вебинар компании «Неофлекс» «ML, который работает «по-взрослому» для ИТ-директоров/CIO, руководителей подразделений Data Science, а также для тех, кто занимается оптимизацией и автоматизацией процессов организаций, связанных с моделями машинного обучения. https://globalcio.ru/web-conference/7925/
3 сентября в 14:45 SberCloud проведет первый митап по Data Science: разработка и масштабирование AI-сервисов в облаке. Офлайн событие состоится в пространстве Deworkacy (Москва, Русаковская, 1), регистрация не более 50 человек. Количество регистраций на онлайн-трансляцию не ограничено. https://sbercloud.ru/ru/warp/meetups/ds-cloud
4 сентября в 11:00 МСК состоится вебинар "Искусственный интеллект в медицине": как ИИ-сервисы могут повысить точность диагностики, автоматизировать рутинную часть работы врача, подобрать оптимальный метод лечения и даже помочь в создании новых лекарств. https://celsus.ai/webinar/
8 и 10 сентября в 10:00 МСК в онлайн-формате состоится Scoring Case Forum 2020 - ежегодный форум скоринговых технологий, источников данных, anti-fraud решений и оценки физических лиц и МСБ в online и offline-каналах. В программе интервью с признанными экспертами, аналитические обзоры, кейсы лидеров рынка, панельные дискуссии, практикумы и мастер-классы. Стоимость участия 10 000 рублей. http://scoring-forum.ru/
9 сентября в 10.00 МСК состоится вебинар компании Qualcomm Technologies о разработке безопасных и многофункциональных систем автоматического управления и высокопроизводительных вычислительных архитектурах следующего поколения. Регистрация доступна по ссылке https://www.scale-up-360.com/en/automotive-imaging/register
10-11 сентября в Москве пройдет III Конференция «Прогнозирование и планирование 2020» - интенсив по получению практических навыков и углубленных компетенций в прогнозировании и планировании. Адрес: Москва, Максима Заря Отель, ул. Гостиничная, д. 4, корп. 9. Стоимость участия: 25 000 рублей. https://forecasting-conference.ru/
10 сентября в 11.00 МСК начнется вебинар "BigData в Azure. Какие сервисы подобрать для работы с большими данными, преимущества и отличия". https://softline.ru/events/web_2020_bigdata_azure_200910
14-18 сентября в 10.00 МСК состоится профессиональная онлайн-конференция для Python-разработчиков Russian Python Week 2020. Стоимость участия: 5900 рублей. https://conf.python.ru/moscow/2020
17 сентября в 09:00 МСК в оффлайн- и онлайн-формате пройдет конференция ScoringDay 2020 с практическими кейсами по ML-моделям https://scorconf.ru/
17-18 сентября в 12:43 МСК в режиме онлайн пройдет BIG DATA & AI CONFERENCE, где можно узнать о современном состоянии дел в анализе данных и машинном обучении, познакомиться с лучшими практиками и понять, как их применять в собственном бизнесе. Все кейсы и технические решения, которые будут представлены на конференции, реализованы в 2019-2020 годах и прозвучат для широкой публики впервые. Традиционно Big Data&AI Conference поделена на несколько треков: «Бизнес», «Технический», а также научный семинар. Ученые представят свои доклады во второй день конференции — 18 сентября. Стоимость участия: 5000 рублей. http://ai-conf.org/
19-20 сентября с 11:00 до 19:00 МСК в режиме онлайн пройдет мега-конференция DataFest по DS, ML, анализу и обработке больших данных. Youtube трансляция докладов и нетворкинг в сотне тематических комнат spatial.chat, доступных по профилю на ods.ai. https://datafest.ru/2020/
22 сентября в Москве CNews проводит конференцию «Искусственный интеллект 2020». Стоимость участия для представителей ИТ-компаний, Телеком и консалтинговых компаний – 18 000 рублей. https://events.cnews.ru/events/iskusstvennyi_intellekt_2020.shtml
Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science.🚀
Все знают о Scikit-Learn - это основной продукт для специалистов по данным, предлагающий десятки простых в использовании алгоритмов машинного обучения. Он также предоставляет два готовых метода для настройки гиперпараметров: поиск по сетке (GridSearchCV) и случайный поиск (RandomizedSearchCV).
Несмотря на свою эффективность, оба метода представляют собой грубые методы поиска правильных конфигураций гиперпараметров, что является дорогостоящим и трудоемким процессом!

Но! Есть Tune-sklearn! Tune-sklearn - это абсолютная замена модуля выбора модели Scikit-Learn с передовыми методами настройки гиперпараметров (байесовская оптимизация,  обучение с блокированием, выполнение распределенной системы) - эти методы значительно ускоряют поиск по сетке и случайный поиск!

Больше о Tune-sklearn - https://towardsdatascience.com/5x-faster-scikit-learn-parameter-tuning-in-5-lines-of-code-be6bdd21833c
Никогда не замечали почему картинки генерируемые GAN всегда из одной категории? Почему нельзя взять и сгенерировать любое фото поставив тем самым крест на бизнесе фотостоков да и вообще всех фотографов? Да потому что всесильные современные GAN попросту этого не могут. Если датасет слишком вариативный, ничего кроме каши из отдаленно напоминающих реальные вещи объектов у вас не получится! Вот хороший пример.

Журналисты, которые пишут новости, часто не понимают о чем идет речь, или какие важные моменты от них пытаются скрыть. Люди из индустрии обсуждают те же новости на совсем другом языке. Есть такой канал — эйай ньюз — его ведет Леша из Facebook AI Research, который комментирует главные события в мире ML/AI со своей профессиональной точки зрения. Это как раз тот канал который можно смело советовать всем, кто хочет следить за новыми алгоритмами, и начать понимать чуть-лучше как они работают.
Перенос кодовой базы с архаичного языка программирования, такого как COBOL, на современные альтернативы, такие как Java или C ++, - сложная, ресурсоемкая задача, требующая знаний как исходного, так и целевого языков. COBOL, например, до сих пор широко используется в системах мэйнфреймов по всему миру, поэтому компании, правительства и другие лица часто должны выбирать, переводить ли их кодовые базы вручную или поддерживать код, написанный на языке 1950-го года.

Компания Facebook AI разработала и открыла исходный код TransCoder, полностью управляемая нейронная транскомпиляционная система, которая может сделать "миграцию" кода намного проще и эффективнее.
Этот метод является первой системой искусственного интеллекта, способной переводить код с одного языка программирования на другой, не требуя параллельных данных для обучения. TransCoder может успешно переводить функции между C ++, Java и Python 3.

TransCoder может быть полезен для обновления устаревших кодовых баз до современных языков программирования, которые обычно более эффективны и проще в обслуживании. Он также показывает, как методы нейронного машинного перевода могут быть применены к новым областям.

Больше о TransCoder на сайте разработчиков — https://ai.facebook.com/blog/deep-learning-to-translate-between-programming-languages
Миллион рублей за 48 часов - новый онлайн-хакатон от Правительства Москвы по задачам цифровизации города. Успевайте подать заявку и создавайте новые ML-решения для классификации документов, сервисы для предпринимателей, рекомендательные системы для горожан и множество полезных приложений. Регистрация участников до 25 октября на сайте конкурса "Лидеры цифровой трансформации".
https://hack2020.innoagency.ru
⚙️Продолжая насущную и довольно интересную тему нейросетей, хотели бы обратить внимание на следующую вещь.

И в частности поблагодарить автора за то, что собрал в одной статье новые архитектуры нейросетей и поговорил о том, что они из себя представляют.

Смотрите, читайте, исследуйте — https://habr.com/ru/post/498168/

Статья была написана в апреле 2020 года и за это время появилась еще ни одна архитектура, но самые актуальные можно отследить здесь — https://paperswithcode.com/area/computer-vision
👽В этой статье представлено изучение полезных семантических представлений для продуктов и клиентов с помощью нейронных сетей.

Representation Learning
– это область науки о машинном обучении на базе определенного представления (кодирования, хранения) данных для выделения определенных признаков. Поэтому также термину Representation Learning часто ставят в синонимы второй термин – Feature learning – машинное обучение, направленное на выделение нужных признаков из данных.

Многие из задач обучения на базе определенного представления могут быть эффективно выполнены с использованием стандартных методов обработки естественного языка (NLP). Статья касается проблем клиентской аналитики и персонализации, которые связаны с проблемами NLP, и показывает, как модели обучения на базе определенного представления для продуктов и клиентов (так называемые item2vec и customer2vec) могут быть получены непосредственно из их аналогов NLP, таких как word2vec и doc2vec.

Делимся ссылкой на статьюhttps://blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer-analytics-and-personalization/
❄️Snowflake – это компания, занимающаяся хранением данных в облаке, и в последние годы сектор хранения и обработки данных начал набирать просто потрясающие обороты, что заставляет всё инвестиционное сообщество обратить внимание на этот сектор, включая лучших мировых экспертов.

Что нам об этом говорит?
⁃ IPO Snowflake пройдёт при поддержке именитых брендов — “Оракул из Омахи” (Уоррен Баффет), Salesforce и Berkshire Hathaway планируют купить акций Snowflake на общую сумму в 500 млн $
⁃ Резкий рост стоимости компании. Ещё в апреле 2019 года Snowflake оценивали в 4 млрд $. Сейчас эта цифра достигает 22 млрд $ (!!)
⁃ Snowflake получает выручку от двух основных направлений, это объём информации, которую приходится хранить, а также объём вычислительных мощностей, которые используют клиенты компании. Компания уже может похвастаться количеством клиентов, доход от которых превышает 1 млн $ в год и их число выросло в 2 раза за год и составило 56 компаний.
НО при этом компания всё ещё убыточна и убыток за последний год составил 348 млн $, что значительно выше чем то, что мы привыкли видеть у компаний, выходящих на IPO.

Главным вопросом перед IPO Snowflake, безусловно, останется вопрос размера этой компании, капитализация компании росла значительно быстрее, чем её финансовые показатели.
Однако, за последние несколько лет у нас было несколько крупных IPO, чья капитализация превышала 10 млрд $, но при этом никто из них не был успешен, способна ли “снежинка” изменить ход этой тенденции?
💡Успейте зарегистрироваться на Data Meetup Innopolis!

Вы сможете услышать доклад Паши Финкельштейна (JetBrains) на тему "Love to Frankenstein’s monster: Kotlin for Apache Spark" и также послушать Дарью Пронину (Lamoda) с темой "Как логирование действий пользователя на сайте и приложениях влияет на внешний вид и успех бизнеса Lamoda". Обещаем, что будет интересно, а также уютно, так как можно смотреть из дома.

Помимо этого вы сможете послушать мнения экспертов:
Игорь Мосягин (machine learning engineer в R&D Lamoda)
Михаил Свешников (ML Architect в Zyfra, преподаватель в НИУ ВШЭ)
Алексей Чернобровов (к.ф.-м.н., консультант по Data Science, обучал ведущие компании России и СНГ, член экспертного совета Премии Рунета).

Когда: 30 сентября в 17:00
Регистрация
Ссылка на трансляцию
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно исследователи из Швейцарской высшей технологической школы представили алгоритм, который позволяет создавать изображения на основе текстовых описаний и эскизов. Но чем отличается именно эта нейросеть от всех других примеров?
Ее особенность состоит в том, что она распределяет объекты по разным планам. Сначала она создаёт фон, затем — объекты на переднем плане. Это позволяет избежать искажений объектов и фона, которые неизбежно возникают при редактировании изображения.

Результат работы новой нейросети вы можете увидеть на анимации выше, подробная информация и код доступны на GitHub: https://github.com/dariopavllo/style-semantics
Уже 2 октября стартует онлайн-хакатон от ODS Pet Projects ( https://news.1rj.ru/str/ods_pet_projects ) !

Так как хакатон навеян петпроджектами (проектами, направленными на фан, развитие навыков и пополнение резюме), а еще потому, что мы все там веселые люди, то общая тема хакатона у нас есть будет под описанием "тебе должно быть весело". В списке тем - генерация салатника по фото Дэвида Боуи, стилизация речи под говор попугая, генератор тем для Шнобелевских премий и другие темы. (ещё больше тем можно найти в формочке для регистрации - и если вам они не понравятся, можно идти со своей темой).

Хакатон будет продолжаться до 10 октября (в 18:00 уже презентации проектов). Каждой команде помогать будут менторы, а оценивать проекты - комитет жюри. И те, и другие - эксперты в разных областях DS из сообщества Open Data Science.

Призы - мерч ОДС и купоны на обучающие программы!

Ссылка на регистрацию тут:
https://forms.gle/BMyS4SJ7aL5YrkbT6
Если вы не знаете, как простыми словами рассказать зачем нужен Data Science и какая роль специалиста по данным в продукте – то рекомендую это видео. Алексей Чернобровов рассказывает о «Роли науки о данных в построении продуктов» для сотрудников студии Лебедева.

🌏https://www.youtube.com/watch?v=7wqiKDHhRTo
Forwarded from Machinelearning
From Trees to Continuous Embeddings and Back: Hyperbolic Hierarchical Clustering

Gitgub: https://github.com/HazyResearch/HypHC

Paper: https://arxiv.org/abs/2010.00402
В этой статье представлен обзор нескольких распространенных вариантов использования Azure Cosmos DB.

На какие вопросы вы получите ответы из этой статьи:
⁃ Каковы распространенные варианты использования Azure Cosmos DB?
⁃ Каковы преимущества использования Azure Cosmos DB в ритейле?
⁃ Каковы преимущества использования Azure Cosmos DB в качестве хранилища данных для систем Интернет вещей (IoT)?
⁃ Каковы преимущества использования Azure Cosmos DB для веб-приложений и мобильных приложений?

Azure Cosmos DB — это глобально распределенная многомодельная служба базы данных Майкрософт. Сервис разработан, чтобы позволить клиентам эластично (и независимо) масштабировать пропускную способность и хранилище в любом количестве географических регионов. С помощью одного лишь нажатия кнопки Cosmos DB позволяет гибко и независимо масштабировать пропускную способность и ресурсы хранилища в любых регионах Azure по всему миру.

Ссылка на БД — https://azure.microsoft.com/ru-ru/services/cosmos-db/
Ссылка на документ (русская версия) — https://docs.microsoft.com/ru-ru/azure/cosmos-db/introduction
Ссылка на документ (английская версия) https://docs.microsoft.com/en-us/azure/cosmos-db/use-cases
Data Science Summit — крупнейшая независимая конференция по науке о данных в регионе Центральной и Восточной Европы. Конференция дополнительно сопровождается выставкой Data Science Expo, в которой представлены стенды поставщиков технологий / решений в области науки о данных и в настоящее время нанимают работодателей.

Мероприятие в связи с пандемией COVID-19 в этом году будет проходить в смешанном формате — конференция и выставка будут полностью онлайн и будут сопровождаться деловыми и мероприятиями, происходящими в Варшаве.

У вас есть уникальная возможность увидеть видео доклады топовых спикеров Европы и мира в области Data Science (большинство на английском языке) из Google, Huawei, Vertica и других известных компаний.

В этом году представлены следующие потоки тем:
⁃ Machine Learning, извлечение и исследование (просмотр) данных в таких областях, как сегментация, Интернет вещей, ценообразование, Computer Vision и др.
⁃ Анализ и статистика
⁃ Визуализация/Business Intelligence
⁃ Тренды и инновации
И огромное количество других интересных тем, со списком которых вы можете ознакомиться на сайте.

Больше информации — www.DSSconf.pl/en
This media is not supported in your browser
VIEW IN TELEGRAM
Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно.

В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто человеку обмануть модель.

На основе исторических данных использования Dynabench, платформа трекает, какие примеры данных обманывают модели и приводят к некорректным предсказаниям. Эти примеры становятся частью более сложных датасетов, на которых тренируются более устойчивые модели. Затем эти обновлённые модели становятся стандартом, для которых ищутся примеры данных, которые приводят к неверным предсказанием. Так, платформа позволяет итеративно улучшать качество моделей.

Подробнее узнать про систему можно на официальном сайте проекта.

Ссылка на Dynabench - https://dynabench.org
why_gradient_clipping_accelerates_training_a_theoretical_justification.pdf
1.4 MB
📚Why gradient clipping accelerates training: A theoretical justification for adaptivity [Почему градиентное отсечение ускоряет обучение: теоретическое обоснование адаптивности]

Теоретическое объяснение эффективности градиентного отсечения при обучении глубоких нейронных сетей. Подробнее в работе Jingzhao Zhang, Tianxing He, Suvrit Sra и Ali Jadbabaie.
This media is not supported in your browser
VIEW IN TELEGRAM
🎶В Google теперь можно найти песню, если напеть ее мотив

В Google Assistant добавили обновленную версию поиска песен. Теперь мелодию можно напеть, «промычать» или просвистеть, а система опознает трек.

Компания утверждает, что достаточно напеть 10-15 секунд отрывка. Для активации функции нужно предварительно спросить: «Что это за песня?».

Модель машинного обучения преобразует звук в цифровую последовательность, представляющую мелодию песни. Голосовой помощник подберет несколько вариантов на выбор. Каждый из них будет содержать данные о треке, исполнителе, видеоклипах и другие.

Кроме того, Google подберет каверы и другие варианты оригинальной композиции, если они были проиндексированы поисковыми ботами.
Пока функция доступна на английском языке для iOS и более чем на 20 языках на Android. Вскоре ее планируется выпустить на большем количестве языков.
Функцию разработали в команде AI Research по распознаванию музыки.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Text2Code для Jupyter notebook

Расширение Jupiter, которое преобразует английские запросы в соответствующий код Python.
Это поможет специалистам по данным и опытным пользователям создавать более сложные запросы и проще код.
Разработчики и специалисты по данным в безопасности (пока 😉).

Github: https://github.com/deepklarity/jupyter-text2code#a-proof-of-concept-jupyter-extension-which-converts-english-queries-into-relevant-python-code

#innovation #artificialintelligence #deeplearning #technology #datascience #bigdata