Big Data Science – Telegram
Big Data Science
3.74K subscribers
65 photos
9 videos
12 files
637 links
Big Data Science channel gathers together all interesting facts about Data Science.
For cooperation: a.chernobrovov@gmail.com
💼https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
💻https://news.1rj.ru/str/bdscience_ru — Big Data Science [RU]
Download Telegram
💰После выхода выпуска у Дудя про Кремниевую Долину наверняка каждый подумал о том, как бы туда попасть.
Предлагаем посмотреть довольно интересную статью про детальный разбор структуры зарплат IT-специалистов в Кремниевой долине, а также на то, сколько в совокупности можно было бы получать в год в топовых компаниях США.

https://habr.com/ru/post/512598/

Хорошая мотивация?
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Netflix’s Polynote is a New Open Source Framework to Build Better Data Science Notebooks

Polynote is an experimental polyglot notebook environment. Currently, it supports Scala and Python, SQL, and Vega.

https://www.kdnuggets.com/2020/08/netflix-polynote-open-source-framework-better-data-science-notebooks.html

Project page: https://polynote.org/

Github: https://github.com/polynote/polynote

@ai_machinelearning_big_data
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть GPT-3 от OpenAI пишет стихи, музыку и код.
Алгоритм выдаёт текст, который лишь кажется осмысленным, и на самом деле просто связывает уже созданные людьми данные.

В мае 2020 года OpenAI представила третью версию языковой модели GPT, которая позволяет генерировать текст, который не всегда можно отличить от того, что написал бы человек.

GPT-3 генерирует текст на основе 175 миллиардов параметров — это значение отражает её вычислительную мощность. В зависимости от количества параметров система лучше или хуже оценивает данные и придаёт каким-то из них большее значение, а каким-то меньшее.

GPT-3 нельзя(!) cвободно использовать: пока OpenAI даёт доступ только отдельным разработчикам и исследователям в рамках закрытого бета-теста :(
⚙️Что же такое QA и как овладеть профессией тестировщика ПО,чтобы реализовать себя в IT-отрасли?

Советуем обратить внимание на канал про радости и боли, преподавание и рефлексию на тему работы в IT, который ведёт Анастасия Шарикова, QA Lead в Bookmate.
И если вам также интересна тема тестинга, или вы хотите узнать больше классных вещей из мира Data Science, которые с каждым годом только развиваются, то делимся ссылкой на канал - https://news.1rj.ru/str/yetanotherqa
Mail.ru Group и hh.ru составили портреты российских специалистов по анализу данных (Data Science) и машинному обучению (Machine Learning). Аналитики выяснили, где они живут и что умеют — а также чего ждут от них работодатели и как меняется спрос на таких профессионалов.

https://habr.com/ru/company/mailru/blog/511104/
💡В обучающей программе Learn with Google AI имеются бесплатные уроки Machine Learning Crash Course (MLCC). Курс помогает освоить машинное обучение и раньше был доступен только сотрудникам компании.
Раздел обучающей программы Learn with Google AI состоит из 25 уроков с более чем 40 заданиями. Лекции ведут исследователи из Google, объясняя принципы машинного обучения на реальных примерах. Прохождение всего курса занимает 15 часов.

Проведите свою неделю продуктивно - https://developers.google.com/machine-learning/crash-course
🧐Philosopher AI

Представленный недавно исследовательской организацией OpenAI генератор текста GPT-3 стал одной из самых обсуждаемых тем в сфере искусственного интеллекта (ИИ) за последнее время. Этот алгоритм может «умно» отвечать на многие вопросы, сочинять стихи, новостные статьи и финансовые отчеты и даже писать программный код. Предлагаем попробовать и вам.

Веб-сайт: https://philosopherai.com/philosopher/humanity-on-mars-73ac00
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Такой вот алгоритм из Макса Планка и Facebook Reality Lab, который позволяет через ре-рендеринг текстуры переодевать людей в новую одежду, и даже применять это к видео! Пока качество хромает (очень), но вот перспективы у последнего великие, только представьте, как легко и дешево можно будет генерить видео-демонстрацию одежды для e-commerce.
Жду с нетерпением.
Совсем недавно Google Research выпустила документ, посвященный проблеме NLP и представила новую аналитическую платформу: Language Interpretability Tool (LIT).

LIT - это набор инструментов и пользовательский интерфейс для браузера, чтобы понять модель NLP.

У него пять основных функций:
— Поддерживает локальное объяснение, включая карты значимости, внимание и богатую визуализацию прогнозов модели
— Поддерживает агрегированный анализ, включая метрики, места для встраивания и гибкую срезку
— Позволяет плавно переключаться между вышеперечисленным для проверки локальных гипотез и проверки набора данных
— Позволяет добавлять новые точки данных в любое время и сразу же визуализировать их эффект
— Позволяет визуализировать сравнения между двумя моделями или двумя точками данных в одном интерфейсе

Пользовательский интерфейс LIT написан на TypeScript и взаимодействует с серверной частью Python.

Статья находится на arXiv. Платформа имеет открытый исходный код на Github.
Nerus — большой синтетический русскоязычный датасет с разметкой морфологии, синтаксиса и именованных сущностей.
В проекте Natasha анализ морфологии, синтаксиса и извлечение именованных сущностей делают 3 компактные модели: Slovnet NER, Slovnet Morph и Slovnet Syntax. Качество решений на 1–5 процентных пунктов хуже, чем у тяжёлых аналогов c BERT-архитектурой, размер в 50-75 раз меньше, скорость на CPU в 2 раза больше. Модели обучены на огромном синтетическом датасете Nerus, в архиве 700 000 новостных статей с CoNLL-U-разметкой морфологии, синтаксиса и именованных сущностей.

https://natasha.github.io/nerus/
🥁В преддверии нового учебного года мы вновь публикуем ежемесячный дайджест конференций, митапов, хакатонов и прочих образовательных событий по направлениям Data Science, Machine Learning и Big Data. Многие из этих мероприятий проводятся в 2020 году онлайн и доступны для удаленного участия:
1 сентября в 11:00 МСК - вебинар компании «Неофлекс» «ML, который работает «по-взрослому» для ИТ-директоров/CIO, руководителей подразделений Data Science, а также для тех, кто занимается оптимизацией и автоматизацией процессов организаций, связанных с моделями машинного обучения. https://globalcio.ru/web-conference/7925/
3 сентября в 14:45 SberCloud проведет первый митап по Data Science: разработка и масштабирование AI-сервисов в облаке. Офлайн событие состоится в пространстве Deworkacy (Москва, Русаковская, 1), регистрация не более 50 человек. Количество регистраций на онлайн-трансляцию не ограничено. https://sbercloud.ru/ru/warp/meetups/ds-cloud
4 сентября в 11:00 МСК состоится вебинар "Искусственный интеллект в медицине": как ИИ-сервисы могут повысить точность диагностики, автоматизировать рутинную часть работы врача, подобрать оптимальный метод лечения и даже помочь в создании новых лекарств. https://celsus.ai/webinar/
8 и 10 сентября в 10:00 МСК в онлайн-формате состоится Scoring Case Forum 2020 - ежегодный форум скоринговых технологий, источников данных, anti-fraud решений и оценки физических лиц и МСБ в online и offline-каналах. В программе интервью с признанными экспертами, аналитические обзоры, кейсы лидеров рынка, панельные дискуссии, практикумы и мастер-классы. Стоимость участия 10 000 рублей. http://scoring-forum.ru/
9 сентября в 10.00 МСК состоится вебинар компании Qualcomm Technologies о разработке безопасных и многофункциональных систем автоматического управления и высокопроизводительных вычислительных архитектурах следующего поколения. Регистрация доступна по ссылке https://www.scale-up-360.com/en/automotive-imaging/register
10-11 сентября в Москве пройдет III Конференция «Прогнозирование и планирование 2020» - интенсив по получению практических навыков и углубленных компетенций в прогнозировании и планировании. Адрес: Москва, Максима Заря Отель, ул. Гостиничная, д. 4, корп. 9. Стоимость участия: 25 000 рублей. https://forecasting-conference.ru/
10 сентября в 11.00 МСК начнется вебинар "BigData в Azure. Какие сервисы подобрать для работы с большими данными, преимущества и отличия". https://softline.ru/events/web_2020_bigdata_azure_200910
14-18 сентября в 10.00 МСК состоится профессиональная онлайн-конференция для Python-разработчиков Russian Python Week 2020. Стоимость участия: 5900 рублей. https://conf.python.ru/moscow/2020
17 сентября в 09:00 МСК в оффлайн- и онлайн-формате пройдет конференция ScoringDay 2020 с практическими кейсами по ML-моделям https://scorconf.ru/
17-18 сентября в 12:43 МСК в режиме онлайн пройдет BIG DATA & AI CONFERENCE, где можно узнать о современном состоянии дел в анализе данных и машинном обучении, познакомиться с лучшими практиками и понять, как их применять в собственном бизнесе. Все кейсы и технические решения, которые будут представлены на конференции, реализованы в 2019-2020 годах и прозвучат для широкой публики впервые. Традиционно Big Data&AI Conference поделена на несколько треков: «Бизнес», «Технический», а также научный семинар. Ученые представят свои доклады во второй день конференции — 18 сентября. Стоимость участия: 5000 рублей. http://ai-conf.org/
19-20 сентября с 11:00 до 19:00 МСК в режиме онлайн пройдет мега-конференция DataFest по DS, ML, анализу и обработке больших данных. Youtube трансляция докладов и нетворкинг в сотне тематических комнат spatial.chat, доступных по профилю на ods.ai. https://datafest.ru/2020/
22 сентября в Москве CNews проводит конференцию «Искусственный интеллект 2020». Стоимость участия для представителей ИТ-компаний, Телеком и консалтинговых компаний – 18 000 рублей. https://events.cnews.ru/events/iskusstvennyi_intellekt_2020.shtml
Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science.🚀
Все знают о Scikit-Learn - это основной продукт для специалистов по данным, предлагающий десятки простых в использовании алгоритмов машинного обучения. Он также предоставляет два готовых метода для настройки гиперпараметров: поиск по сетке (GridSearchCV) и случайный поиск (RandomizedSearchCV).
Несмотря на свою эффективность, оба метода представляют собой грубые методы поиска правильных конфигураций гиперпараметров, что является дорогостоящим и трудоемким процессом!

Но! Есть Tune-sklearn! Tune-sklearn - это абсолютная замена модуля выбора модели Scikit-Learn с передовыми методами настройки гиперпараметров (байесовская оптимизация,  обучение с блокированием, выполнение распределенной системы) - эти методы значительно ускоряют поиск по сетке и случайный поиск!

Больше о Tune-sklearn - https://towardsdatascience.com/5x-faster-scikit-learn-parameter-tuning-in-5-lines-of-code-be6bdd21833c
Никогда не замечали почему картинки генерируемые GAN всегда из одной категории? Почему нельзя взять и сгенерировать любое фото поставив тем самым крест на бизнесе фотостоков да и вообще всех фотографов? Да потому что всесильные современные GAN попросту этого не могут. Если датасет слишком вариативный, ничего кроме каши из отдаленно напоминающих реальные вещи объектов у вас не получится! Вот хороший пример.

Журналисты, которые пишут новости, часто не понимают о чем идет речь, или какие важные моменты от них пытаются скрыть. Люди из индустрии обсуждают те же новости на совсем другом языке. Есть такой канал — эйай ньюз — его ведет Леша из Facebook AI Research, который комментирует главные события в мире ML/AI со своей профессиональной точки зрения. Это как раз тот канал который можно смело советовать всем, кто хочет следить за новыми алгоритмами, и начать понимать чуть-лучше как они работают.
Перенос кодовой базы с архаичного языка программирования, такого как COBOL, на современные альтернативы, такие как Java или C ++, - сложная, ресурсоемкая задача, требующая знаний как исходного, так и целевого языков. COBOL, например, до сих пор широко используется в системах мэйнфреймов по всему миру, поэтому компании, правительства и другие лица часто должны выбирать, переводить ли их кодовые базы вручную или поддерживать код, написанный на языке 1950-го года.

Компания Facebook AI разработала и открыла исходный код TransCoder, полностью управляемая нейронная транскомпиляционная система, которая может сделать "миграцию" кода намного проще и эффективнее.
Этот метод является первой системой искусственного интеллекта, способной переводить код с одного языка программирования на другой, не требуя параллельных данных для обучения. TransCoder может успешно переводить функции между C ++, Java и Python 3.

TransCoder может быть полезен для обновления устаревших кодовых баз до современных языков программирования, которые обычно более эффективны и проще в обслуживании. Он также показывает, как методы нейронного машинного перевода могут быть применены к новым областям.

Больше о TransCoder на сайте разработчиков — https://ai.facebook.com/blog/deep-learning-to-translate-between-programming-languages
Миллион рублей за 48 часов - новый онлайн-хакатон от Правительства Москвы по задачам цифровизации города. Успевайте подать заявку и создавайте новые ML-решения для классификации документов, сервисы для предпринимателей, рекомендательные системы для горожан и множество полезных приложений. Регистрация участников до 25 октября на сайте конкурса "Лидеры цифровой трансформации".
https://hack2020.innoagency.ru
⚙️Продолжая насущную и довольно интересную тему нейросетей, хотели бы обратить внимание на следующую вещь.

И в частности поблагодарить автора за то, что собрал в одной статье новые архитектуры нейросетей и поговорил о том, что они из себя представляют.

Смотрите, читайте, исследуйте — https://habr.com/ru/post/498168/

Статья была написана в апреле 2020 года и за это время появилась еще ни одна архитектура, но самые актуальные можно отследить здесь — https://paperswithcode.com/area/computer-vision
👽В этой статье представлено изучение полезных семантических представлений для продуктов и клиентов с помощью нейронных сетей.

Representation Learning
– это область науки о машинном обучении на базе определенного представления (кодирования, хранения) данных для выделения определенных признаков. Поэтому также термину Representation Learning часто ставят в синонимы второй термин – Feature learning – машинное обучение, направленное на выделение нужных признаков из данных.

Многие из задач обучения на базе определенного представления могут быть эффективно выполнены с использованием стандартных методов обработки естественного языка (NLP). Статья касается проблем клиентской аналитики и персонализации, которые связаны с проблемами NLP, и показывает, как модели обучения на базе определенного представления для продуктов и клиентов (так называемые item2vec и customer2vec) могут быть получены непосредственно из их аналогов NLP, таких как word2vec и doc2vec.

Делимся ссылкой на статьюhttps://blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer-analytics-and-personalization/
❄️Snowflake – это компания, занимающаяся хранением данных в облаке, и в последние годы сектор хранения и обработки данных начал набирать просто потрясающие обороты, что заставляет всё инвестиционное сообщество обратить внимание на этот сектор, включая лучших мировых экспертов.

Что нам об этом говорит?
⁃ IPO Snowflake пройдёт при поддержке именитых брендов — “Оракул из Омахи” (Уоррен Баффет), Salesforce и Berkshire Hathaway планируют купить акций Snowflake на общую сумму в 500 млн $
⁃ Резкий рост стоимости компании. Ещё в апреле 2019 года Snowflake оценивали в 4 млрд $. Сейчас эта цифра достигает 22 млрд $ (!!)
⁃ Snowflake получает выручку от двух основных направлений, это объём информации, которую приходится хранить, а также объём вычислительных мощностей, которые используют клиенты компании. Компания уже может похвастаться количеством клиентов, доход от которых превышает 1 млн $ в год и их число выросло в 2 раза за год и составило 56 компаний.
НО при этом компания всё ещё убыточна и убыток за последний год составил 348 млн $, что значительно выше чем то, что мы привыкли видеть у компаний, выходящих на IPO.

Главным вопросом перед IPO Snowflake, безусловно, останется вопрос размера этой компании, капитализация компании росла значительно быстрее, чем её финансовые показатели.
Однако, за последние несколько лет у нас было несколько крупных IPO, чья капитализация превышала 10 млрд $, но при этом никто из них не был успешен, способна ли “снежинка” изменить ход этой тенденции?
💡Успейте зарегистрироваться на Data Meetup Innopolis!

Вы сможете услышать доклад Паши Финкельштейна (JetBrains) на тему "Love to Frankenstein’s monster: Kotlin for Apache Spark" и также послушать Дарью Пронину (Lamoda) с темой "Как логирование действий пользователя на сайте и приложениях влияет на внешний вид и успех бизнеса Lamoda". Обещаем, что будет интересно, а также уютно, так как можно смотреть из дома.

Помимо этого вы сможете послушать мнения экспертов:
Игорь Мосягин (machine learning engineer в R&D Lamoda)
Михаил Свешников (ML Architect в Zyfra, преподаватель в НИУ ВШЭ)
Алексей Чернобровов (к.ф.-м.н., консультант по Data Science, обучал ведущие компании России и СНГ, член экспертного совета Премии Рунета).

Когда: 30 сентября в 17:00
Регистрация
Ссылка на трансляцию