Big Data Science – Telegram
Big Data Science
3.74K subscribers
65 photos
9 videos
12 files
637 links
Big Data Science channel gathers together all interesting facts about Data Science.
For cooperation: a.chernobrovov@gmail.com
💼https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
💻https://news.1rj.ru/str/bdscience_ru — Big Data Science [RU]
Download Telegram
7 лучших фреймворков AutoML в 2020 году

Предположим, есть набор данных, по которому мы хотим получить прогнозную модель. Традиционный подход к машинному обучению требует следующей последовательности действий:
⁃ предварительная обработка данных;
⁃ определение характерных особенностей построения новых функций;
⁃ выбор правильной модели обучения;
⁃ оптимизация гиперпараметров;
⁃ тренировка с оптимальными параметрами.

Процесс может быть долгим и, следовательно, дорогим. Действительно, для лучшего результата необходимо многократно проверять гипотезу, более того, на каждом шаге она может уточняться дальше.
Задача автоматического машинного обучения (AutoML) состоит в том, чтобы автоматизировать все или хотя бы некоторые из этих шагов без потери точности прогнозирования. Идеальная стратегия AutoML предполагает, что любой пользователь может брать необработанные данные, строить на них модель и получать прогнозы с максимально возможной (для доступной выборки) точностью.

Лучшие фреймворки собрали для вас:

1. MLBox хорошо решает следующие задачи:
⁃ Подготовка данных (самая развитая часть библиотеки)
⁃ Выбор модели
⁃ Поиск гиперпараметров

2. Auto Sklearn Framework построен на основе популярной библиотеки машинного обучения scikit-learn. Что может он может делать:
⁃ Выбор модели
⁃ Гипер Настройки

3. TPOT позиционируется как структура, в которой пайплайн машинного обучения полностью автоматизирован. Много различных моделей строятся с выбором лучших в прогнозирующей точности.

4. H2O AutoML поддерживает как традиционные модели машинного обучения, так и нейронные сети. Особенно подходит для тех, кто ищет способ автоматизировать глубокое обучение.

5. Auto Keras использует классический API, как в scikit-learn, но при этом использует мощный поиск нейронной сети для параметров модели с использованием Keras.

6. Cloud AutoML использует архитектуру нейронной сети. Этот продукт Google имеет простой пользовательский интерфейс для изучения и развертывания моделей.

7. Auto-WEKA представляет собой пакет множества различных алгоритмов машинного обучения с открытым исходным кодом. Однако каждый из этих алгоритмов имеет свои собственные гиперпараметры, которые могут радикально изменить их производительность. Auto-WEKA рассматривает проблему одновременного выбора алгоритма обучения и установки его гиперпараметров, выходя за рамки предыдущих методов, которые решают эти проблемы изолированно, и использует полностью автоматизированный подход.
This media is not supported in your browser
VIEW IN TELEGRAM
❤️Полный мэтч: машинное обучение в дейтинге

Сайты знакомств и дейтинговые приложения – одни из самых интересных и в тоже время абсолютно типичных применений современных алгоритмов машинного обучения. В этой статье рассмотрены основные задачи и принципы работы дейтинговых систем с точки зрения Data Science, а также приведены оригинальные примеры пользовательских попыток «хакнуть».

Ссылка на статью:
https://chernobrovov.ru/articles/polnyj-metch-mashinnoe-obuchenie-v-dejtinge.html
☄️BREAK INTO NLP
Еще одно классное (бесплатное!) онлайн-мероприятие, организованное deeplearning.ai, с участием выдающихся экспертов по NLP, которые поделятся своими мыслями о текущих тенденциях и применениях NLP.

Событие будет транслироваться на YouTube с 20:00 до 21:30 по московскому времени 29 июля. Если вы не сможете посмотреть вживую, обязательно зарегистрируйтесь, чтобы получить ссылку для записи.

Ссылка на событие и регистрацию — Break into NLP.

Всем продуктивных выходных!
Forwarded from Karim Iskakov - канал (Vladimir Ivashkin)
This media is not supported in your browser
VIEW IN TELEGRAM
BREAKING NEWS! (sound on)

Our iOS app Avatarify is #1 in Russian App Store, and today we release it worldwide.

Vivify any photo with your face in real time: celebrity, your boss or even pet. Record video and share it to amaze your friends.

NN works completely on the device in zero-shot mode. Check it out!

📱 App Store
🌐 avatarify.ai
📉 @loss_function_porn
🇷🇺Россия, вперед! Согласно исследованию Coursera, наша страна возглавила мировой рейтинг по компетенциям в области технологий и Data Science. Наиболее сильные компетенции показали студенты ВУЗов Москвы, Петербурга, Томска и Новосибирска.
💰После выхода выпуска у Дудя про Кремниевую Долину наверняка каждый подумал о том, как бы туда попасть.
Предлагаем посмотреть довольно интересную статью про детальный разбор структуры зарплат IT-специалистов в Кремниевой долине, а также на то, сколько в совокупности можно было бы получать в год в топовых компаниях США.

https://habr.com/ru/post/512598/

Хорошая мотивация?
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Netflix’s Polynote is a New Open Source Framework to Build Better Data Science Notebooks

Polynote is an experimental polyglot notebook environment. Currently, it supports Scala and Python, SQL, and Vega.

https://www.kdnuggets.com/2020/08/netflix-polynote-open-source-framework-better-data-science-notebooks.html

Project page: https://polynote.org/

Github: https://github.com/polynote/polynote

@ai_machinelearning_big_data
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть GPT-3 от OpenAI пишет стихи, музыку и код.
Алгоритм выдаёт текст, который лишь кажется осмысленным, и на самом деле просто связывает уже созданные людьми данные.

В мае 2020 года OpenAI представила третью версию языковой модели GPT, которая позволяет генерировать текст, который не всегда можно отличить от того, что написал бы человек.

GPT-3 генерирует текст на основе 175 миллиардов параметров — это значение отражает её вычислительную мощность. В зависимости от количества параметров система лучше или хуже оценивает данные и придаёт каким-то из них большее значение, а каким-то меньшее.

GPT-3 нельзя(!) cвободно использовать: пока OpenAI даёт доступ только отдельным разработчикам и исследователям в рамках закрытого бета-теста :(
⚙️Что же такое QA и как овладеть профессией тестировщика ПО,чтобы реализовать себя в IT-отрасли?

Советуем обратить внимание на канал про радости и боли, преподавание и рефлексию на тему работы в IT, который ведёт Анастасия Шарикова, QA Lead в Bookmate.
И если вам также интересна тема тестинга, или вы хотите узнать больше классных вещей из мира Data Science, которые с каждым годом только развиваются, то делимся ссылкой на канал - https://news.1rj.ru/str/yetanotherqa
Mail.ru Group и hh.ru составили портреты российских специалистов по анализу данных (Data Science) и машинному обучению (Machine Learning). Аналитики выяснили, где они живут и что умеют — а также чего ждут от них работодатели и как меняется спрос на таких профессионалов.

https://habr.com/ru/company/mailru/blog/511104/
💡В обучающей программе Learn with Google AI имеются бесплатные уроки Machine Learning Crash Course (MLCC). Курс помогает освоить машинное обучение и раньше был доступен только сотрудникам компании.
Раздел обучающей программы Learn with Google AI состоит из 25 уроков с более чем 40 заданиями. Лекции ведут исследователи из Google, объясняя принципы машинного обучения на реальных примерах. Прохождение всего курса занимает 15 часов.

Проведите свою неделю продуктивно - https://developers.google.com/machine-learning/crash-course
🧐Philosopher AI

Представленный недавно исследовательской организацией OpenAI генератор текста GPT-3 стал одной из самых обсуждаемых тем в сфере искусственного интеллекта (ИИ) за последнее время. Этот алгоритм может «умно» отвечать на многие вопросы, сочинять стихи, новостные статьи и финансовые отчеты и даже писать программный код. Предлагаем попробовать и вам.

Веб-сайт: https://philosopherai.com/philosopher/humanity-on-mars-73ac00
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Такой вот алгоритм из Макса Планка и Facebook Reality Lab, который позволяет через ре-рендеринг текстуры переодевать людей в новую одежду, и даже применять это к видео! Пока качество хромает (очень), но вот перспективы у последнего великие, только представьте, как легко и дешево можно будет генерить видео-демонстрацию одежды для e-commerce.
Жду с нетерпением.
Совсем недавно Google Research выпустила документ, посвященный проблеме NLP и представила новую аналитическую платформу: Language Interpretability Tool (LIT).

LIT - это набор инструментов и пользовательский интерфейс для браузера, чтобы понять модель NLP.

У него пять основных функций:
— Поддерживает локальное объяснение, включая карты значимости, внимание и богатую визуализацию прогнозов модели
— Поддерживает агрегированный анализ, включая метрики, места для встраивания и гибкую срезку
— Позволяет плавно переключаться между вышеперечисленным для проверки локальных гипотез и проверки набора данных
— Позволяет добавлять новые точки данных в любое время и сразу же визуализировать их эффект
— Позволяет визуализировать сравнения между двумя моделями или двумя точками данных в одном интерфейсе

Пользовательский интерфейс LIT написан на TypeScript и взаимодействует с серверной частью Python.

Статья находится на arXiv. Платформа имеет открытый исходный код на Github.
Nerus — большой синтетический русскоязычный датасет с разметкой морфологии, синтаксиса и именованных сущностей.
В проекте Natasha анализ морфологии, синтаксиса и извлечение именованных сущностей делают 3 компактные модели: Slovnet NER, Slovnet Morph и Slovnet Syntax. Качество решений на 1–5 процентных пунктов хуже, чем у тяжёлых аналогов c BERT-архитектурой, размер в 50-75 раз меньше, скорость на CPU в 2 раза больше. Модели обучены на огромном синтетическом датасете Nerus, в архиве 700 000 новостных статей с CoNLL-U-разметкой морфологии, синтаксиса и именованных сущностей.

https://natasha.github.io/nerus/
🥁В преддверии нового учебного года мы вновь публикуем ежемесячный дайджест конференций, митапов, хакатонов и прочих образовательных событий по направлениям Data Science, Machine Learning и Big Data. Многие из этих мероприятий проводятся в 2020 году онлайн и доступны для удаленного участия:
1 сентября в 11:00 МСК - вебинар компании «Неофлекс» «ML, который работает «по-взрослому» для ИТ-директоров/CIO, руководителей подразделений Data Science, а также для тех, кто занимается оптимизацией и автоматизацией процессов организаций, связанных с моделями машинного обучения. https://globalcio.ru/web-conference/7925/
3 сентября в 14:45 SberCloud проведет первый митап по Data Science: разработка и масштабирование AI-сервисов в облаке. Офлайн событие состоится в пространстве Deworkacy (Москва, Русаковская, 1), регистрация не более 50 человек. Количество регистраций на онлайн-трансляцию не ограничено. https://sbercloud.ru/ru/warp/meetups/ds-cloud
4 сентября в 11:00 МСК состоится вебинар "Искусственный интеллект в медицине": как ИИ-сервисы могут повысить точность диагностики, автоматизировать рутинную часть работы врача, подобрать оптимальный метод лечения и даже помочь в создании новых лекарств. https://celsus.ai/webinar/
8 и 10 сентября в 10:00 МСК в онлайн-формате состоится Scoring Case Forum 2020 - ежегодный форум скоринговых технологий, источников данных, anti-fraud решений и оценки физических лиц и МСБ в online и offline-каналах. В программе интервью с признанными экспертами, аналитические обзоры, кейсы лидеров рынка, панельные дискуссии, практикумы и мастер-классы. Стоимость участия 10 000 рублей. http://scoring-forum.ru/
9 сентября в 10.00 МСК состоится вебинар компании Qualcomm Technologies о разработке безопасных и многофункциональных систем автоматического управления и высокопроизводительных вычислительных архитектурах следующего поколения. Регистрация доступна по ссылке https://www.scale-up-360.com/en/automotive-imaging/register
10-11 сентября в Москве пройдет III Конференция «Прогнозирование и планирование 2020» - интенсив по получению практических навыков и углубленных компетенций в прогнозировании и планировании. Адрес: Москва, Максима Заря Отель, ул. Гостиничная, д. 4, корп. 9. Стоимость участия: 25 000 рублей. https://forecasting-conference.ru/
10 сентября в 11.00 МСК начнется вебинар "BigData в Azure. Какие сервисы подобрать для работы с большими данными, преимущества и отличия". https://softline.ru/events/web_2020_bigdata_azure_200910
14-18 сентября в 10.00 МСК состоится профессиональная онлайн-конференция для Python-разработчиков Russian Python Week 2020. Стоимость участия: 5900 рублей. https://conf.python.ru/moscow/2020
17 сентября в 09:00 МСК в оффлайн- и онлайн-формате пройдет конференция ScoringDay 2020 с практическими кейсами по ML-моделям https://scorconf.ru/
17-18 сентября в 12:43 МСК в режиме онлайн пройдет BIG DATA & AI CONFERENCE, где можно узнать о современном состоянии дел в анализе данных и машинном обучении, познакомиться с лучшими практиками и понять, как их применять в собственном бизнесе. Все кейсы и технические решения, которые будут представлены на конференции, реализованы в 2019-2020 годах и прозвучат для широкой публики впервые. Традиционно Big Data&AI Conference поделена на несколько треков: «Бизнес», «Технический», а также научный семинар. Ученые представят свои доклады во второй день конференции — 18 сентября. Стоимость участия: 5000 рублей. http://ai-conf.org/
19-20 сентября с 11:00 до 19:00 МСК в режиме онлайн пройдет мега-конференция DataFest по DS, ML, анализу и обработке больших данных. Youtube трансляция докладов и нетворкинг в сотне тематических комнат spatial.chat, доступных по профилю на ods.ai. https://datafest.ru/2020/
22 сентября в Москве CNews проводит конференцию «Искусственный интеллект 2020». Стоимость участия для представителей ИТ-компаний, Телеком и консалтинговых компаний – 18 000 рублей. https://events.cnews.ru/events/iskusstvennyi_intellekt_2020.shtml
Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science.🚀
Все знают о Scikit-Learn - это основной продукт для специалистов по данным, предлагающий десятки простых в использовании алгоритмов машинного обучения. Он также предоставляет два готовых метода для настройки гиперпараметров: поиск по сетке (GridSearchCV) и случайный поиск (RandomizedSearchCV).
Несмотря на свою эффективность, оба метода представляют собой грубые методы поиска правильных конфигураций гиперпараметров, что является дорогостоящим и трудоемким процессом!

Но! Есть Tune-sklearn! Tune-sklearn - это абсолютная замена модуля выбора модели Scikit-Learn с передовыми методами настройки гиперпараметров (байесовская оптимизация,  обучение с блокированием, выполнение распределенной системы) - эти методы значительно ускоряют поиск по сетке и случайный поиск!

Больше о Tune-sklearn - https://towardsdatascience.com/5x-faster-scikit-learn-parameter-tuning-in-5-lines-of-code-be6bdd21833c
Никогда не замечали почему картинки генерируемые GAN всегда из одной категории? Почему нельзя взять и сгенерировать любое фото поставив тем самым крест на бизнесе фотостоков да и вообще всех фотографов? Да потому что всесильные современные GAN попросту этого не могут. Если датасет слишком вариативный, ничего кроме каши из отдаленно напоминающих реальные вещи объектов у вас не получится! Вот хороший пример.

Журналисты, которые пишут новости, часто не понимают о чем идет речь, или какие важные моменты от них пытаются скрыть. Люди из индустрии обсуждают те же новости на совсем другом языке. Есть такой канал — эйай ньюз — его ведет Леша из Facebook AI Research, который комментирует главные события в мире ML/AI со своей профессиональной точки зрения. Это как раз тот канал который можно смело советовать всем, кто хочет следить за новыми алгоритмами, и начать понимать чуть-лучше как они работают.
Перенос кодовой базы с архаичного языка программирования, такого как COBOL, на современные альтернативы, такие как Java или C ++, - сложная, ресурсоемкая задача, требующая знаний как исходного, так и целевого языков. COBOL, например, до сих пор широко используется в системах мэйнфреймов по всему миру, поэтому компании, правительства и другие лица часто должны выбирать, переводить ли их кодовые базы вручную или поддерживать код, написанный на языке 1950-го года.

Компания Facebook AI разработала и открыла исходный код TransCoder, полностью управляемая нейронная транскомпиляционная система, которая может сделать "миграцию" кода намного проще и эффективнее.
Этот метод является первой системой искусственного интеллекта, способной переводить код с одного языка программирования на другой, не требуя параллельных данных для обучения. TransCoder может успешно переводить функции между C ++, Java и Python 3.

TransCoder может быть полезен для обновления устаревших кодовых баз до современных языков программирования, которые обычно более эффективны и проще в обслуживании. Он также показывает, как методы нейронного машинного перевода могут быть применены к новым областям.

Больше о TransCoder на сайте разработчиков — https://ai.facebook.com/blog/deep-learning-to-translate-between-programming-languages