Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
633 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Изучаем алгоритмы.

Онлайн-практика для того, чтоб оттачивать свои навыки:
ACM-ICPC Live Archive — Сотни задач с предыдущих региональных состязаний ACM-ICPC и мировых состязаний World Finals.
AIZU ONLINE JUDGE — Японская онлайн практика.
CodeChef — Больше задач и ежемесячные состязания.
Codeforces — Единственный сайт, где можно посостязаться в знаниях платформы Web 2.0.
CodeWars — Веб-сайт, который предлагает задачи по алгоритмам на многих языках и для многих уровней сложности.
CoderByte — Скромный веб-сайт с задачами на оттачивание алгоритмов для начального и продвинутого уровней. Поддерживает множество популярных языков программирования, таких как С++, Python, JavaScript, Ruby и так далее.
HackerEarth — Решайте задачи, используя алгоритмы и принимайте участие в решении задач, которые задают при приёме на работу.
HackerRank — Онлайн практика по известным алгоритмам и функциональном программировании.
Infoarena — Румынская онлайн-практика. 1500+ задач по алгоритмам.
LavidaOnlineJudge — Корейская онлайн-практика(около половины на английском) 1300+ задач.
Learneroo Algorithms Tutorials — Учитесь и практикуйтесь в написании алгоритмов, решая задачи онлайн.
LeetCode — Выучите алгоритмы и подготовьтесь к интервью.
PKU JudgeOnline — Китайская онлайн-практика.
ProjectEuler — Математические задачи, которые могут быть решены с использованием алгоритмов (или даже с помощью карандаша, зависит от того, сколько вы уже знаете).
Rosalind — Платформа для изучения биоинформатики и программирования, решая задачи.
ShareCode — Онлайн практика и состязания с множеством задач по алгоритмам.
Snakify — Вводный курс по Python с 100+ задачами по алгоритмам и отладке (российский).
SPOJ — Еще больше задач.
TopCoder — Множество задач по графическому дизайну, анализу данных и разработки в целом.
URI — Бразильская онлайн-практика. Не так много задач по сравнению с конкурентами, но их база растет, а также у них есть онлайн-состязания.
UVA — Ещё много задач с предыдущих региональных состязаний ACM-ICPC и мировых состязаний World Finals.
Линейная алгебра для Data Science.

Латентный семантический анализ (Latent Semantic Analysis, LSA)
Когда вы читаете предложение «Я увидел каменный замок, на его воротах висел замок», вы легко распознаете значения двух омонимов. Аналогично, вам несложно подобрать синоним к какому-либо слову — вы понимаете его значение и представляете, чем можно его заменить. Однако компьютеру такие операции даются с трудом, и создателям NLP-продуктов приходится придумывать, как обеспечить их системе возможность понимать контекст.
В этом им снова помогает алгоритм сингулярного разложения. Они разбивают некий объем текстовых материалов на меньшие матрицы, по которым можно соотнести тему, ее контекст и употребляемые термины. Такое разложение помогает найти внутренние связи в массивном наборе текстов и понимать контекстуальное значение слов.
Плох тот джун, который не хочет стать синьйором

Для того, чтобы разработчик развивался, ему нужно понимать вектор своего роста. Он должен четко понимать чего ему не хватает для того, чтобы стать разработчиком того или иного уровня.

В статье изложен метод систематизации работы программиста (eng)
Линейная алгебра для Data Science

Тензоры и работа с изображениями
Как вы знаете, вектор — это простой массив данных, матрица — массив двухмерный, а тензор объединяет n измерений, где n>2. Компьютерные системы используют эти структуры, чтобы видеть и понимать изображения.
Для передачи цвета в цифровых изображениях используется шкала RGB — Red, Green, Blue. Когда аналитическая модель получает некую картинку, она создает тензор, который объединяет в себе три матрицы, у которых в каждой ячейке хранится цветовое значение соответствующего пикселя. Первая такая матрица содержит значения красного, вторая — зеленого, третья — синего.
Линейная алгебра для Data Science

Функция свертки
Функция свертки, позволяет определять объекты на изображениях. Механика, в общем-то, напоминает работу человеческого мозга — модель запоминает некий образ, а потом внимательно рассматривает предложенную картинку, чтобы найти его среди пикселей.
Для компьютера такой образ представляет собой сумму значений пикселей, которые составляют изображение целевого объекта. Эта сумма называется ядром. Имея в своем распоряжении такое ядро, программа поочередно сравнивает его с разными участками изображения. В том участке, где совпадение оказывается максимальным, она и предполагает наличие искомого объекта.
Этот механизм также можно использовать, чтобы повысить или понизить четкость изображений, наложить на него разнообразные фильтры. Принцип один и тот же — когда нейросеть распознает определенные объекты, она может проводить с ним требуемые операции.
Java. Эффективное программирование.

Эта книга писалась с той целью, чтобы наиболее эффективно использовать язык программирования Jаvа ТМ и его основные библиотеки jаvа.lang, java.util и java.io. В книге рассматриваются и другие библиотеки, но мы не касаемся графического интерфейса пользователя и специализированных API. Книга состоит из пятидесяти семи статей, каждая из которых описывает одно правило. Здесь собран опыт самых лучших и опытных программистов. Статьи произвольно распределены по девяти главам, освещающим определенные аспекты проектирования программного обеспечения. Нет необходимости читать эту книгу от корки до корки: каждая статья в той или иной степени самостоятельна. Статьи имеют множество перекрестных ссылок, поэтому вы можете с легкостью построить по книге ваш собственный учебный курс.
Найден способ уверенно распознавать дипфейки?

Нейросети сегодня умеют создавать настолько правдоподобные изображения, что их порой сложно отличить от реальных фотографий. Такие изображения, называемые дипфейками, могут быть любопытными и забавными, но лишь до тех пор, пока все понимают, что это подделка. Когда же кто-то пытается выдавать дипфейки за чистую монету, они превращаются в большую проблему.
Будущее рядом — освой профессию Data Scientist

Раньше мы с интересом смотрели фильмы про искусственный интеллект и гадали, как же это пришло в голову сценаристам и режиссёрам.
Но в реалиях настоящей жизни искусственный интеллект — это реальность, которая стремительно врывается в нашу жизнь. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.

И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist».

На курсе тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.
Skillbox даёт возможность сначала уделить время обучению, а заботы с оплатой можно отложить на полгода.

После прохождения курса не стоит переживать о том, где найти работу. Эти заботы берут на себя опытные HR-специалисты.

Открой мир будущего — переходи по ссылке ▶️ https://clc.to/Rd1sKQ и бронируй место на курсе только в декабре со скидкой до 60%.
Почему команды Data Science нуждаются в универсалах, а не специалистах


В книге «Исследование о природе и причинах богатства народов» Адам Смит на примере сборочного конвейера булавочной фабрики демонстрирует, как разделение труда становится главным источником повышения производительности: «Один [человек] растягивает проволоку, другой выпрямляет её, третий режет, четвертый затачивает, пятый шлифует». Со специализацией, ориентированной на функцию, каждый работник становится высококвалифицированным в узкой области, ведущей к эффективности процесса. Выпуск продукции в расчёте на одного работника увеличивается многократно; завод становится чрезвычайно эффективным в производстве булавок.
Это разделение труда по функциям так укоренилось в нас, что мы всегда организуем команды таким образом. Data Science — не исключение.
Программа глубокого обучения Google для определения трёхмерной структуры белков может изменить биологию.

Сеть искусственного интеллекта (ИИ), разработанная Google AI, ответвлением DeepMind, сделала гигантский скачок в решении одной из величайших задач биологии – определении трёхмерной структуры белка по его аминокислотной последовательности.
Программа, разработанная DeepMind, получила название AlphaFold и превзошла около 100 других команд в проводимом раз в два года конкурсе по прогнозированию структуры белка – CASP (сокращение от Critical Assessment of Structure Prediction). Результаты были объявлены 30 ноября в начале конференции, проводимой в этом году онлайн, на которой подводятся итоги конкурса.
Упростить сложные вещи и выйти на новый уровень проще, чем кажется.
В Нетологии стартует бесплатный курс “Профессии в Data Science и аналитике.”

Вы найдете подходящее именно вам направление и:

-поймете какие есть профессии в сфере работы с данными
-сможете выбрать подходящий для себя трек развития карьеры
-узнаете какие шаги нужно сделать для входа в новую профессию

Чтобы аналитика не осталась для вас очередным модным словом, а стала настоящим драйвером развития карьеры регистрируйтесь →
http://netolo.gy/f4G
Fastcore — недооцененная, но полезная библиотека Python

Недавно я начал оттачивать владение языком программирования Python. Я хотел изучить продвинутые паттерны, идиомы и методы программирования. Начал я с чтения книг по продвинутому Python, но информация, похоже, не откладывалась в голове без применения навыков. Хотелось иметь возможность задавать вопросы эксперту, пока учусь, а такую возможность трудно найти! Тогда ко мне и пришла идея: что, если я найду проект с открытым и достаточно продвинутым кодом и напишу документацию и тесты? Я сделал ставку, что это заставит меня изучать все очень глубоко, а поддерживающие проект люди оценит мою работу и будут готовы ответить на мои вопросы.
Рекомендации по безопасности API

По своей природе API предназначены для использования. Даже если все ваши пользователи являются внутренними, все равно могут возникнуть проблемы с безопасностью. Чтобы помочь с этим, мы составили список передовых методов, которые следует учитывать при защите и блокировке API или веб-службы.
Javanoscript и jQuery. Интерактивная веб-разработка | Дакетт Джон


Эта книга предназначена для веб-дизайнеров и программистов, контент-менеджеров и редакторов контента, маркетологов и менеджеров по электронным продажам, блогеров и любителей.
Мы не только объясним вам, как читать и создавать сценарии, но также изложим вам основы компьютерного программирования в простой и наглядной форме.
​​ИИ оценивает мужчин и женщин по-разному

В ходе исследований Нью-Йоркского университета удалось выяснить, что искусственный интеллект (ИИ) оценивает мужчин и женщин по-разному, сообщает издание WIRED.
Так, при загрузке фотографий в службу распознавания лиц машина использовала при описании мужчин понятия, связанные с родом деятельности и навыками, а женщин она оценивала преимущественно по внешности.
В рамках эксперимента был проведен тест машинного зрения искусственных интеллектов, созданных такими компаниями, как Google, Microsoft и Amazon. В ходе тестирования службы ИИ должны были составить аннотации к 20 официальным фотографиям политических деятелей, размещенным в Twitter.
На фотографиях были десять женщин и десять мужчин. Все мужчины были помечены алгоритмом Google ярлыками «бизнесмен» и «чиновник», а женщин отметили понятиями, связанными с внешностью, например, «волосы», «улыбка» и «шея».
Сервисы Amazon и Microsoft продемонстрировали менее очевидную предвзятость, хотя программа Amazon сообщила, что более чем на 99% уверена, что две из десяти женщин-сенаторов были либо «девушками», либо «детьми». У службы Microsoft возникли проблемы с определением пола по фотографиям женщин. Так, программа назвала женщинами только восемь из десяти участниц исследования, а двух других она пометила как мужчину и «человека другого пола».
Таким образом, ученые пришли к выводу, что ИИ необъективен и имеет гендерные предрассудки. Это связано в первую очередь с тем, что на фотографиях, используемых для тренировки алгоритмов зрения ИИ, часто изображены стереотипные ситуации, например, когда женщина стоит у плиты, а мужчина стреляет из оружия.
«Это результат того, что женщины имеют меньше статусных стереотипов, чем мужчины. Женщины должны всегда хорошо выглядеть, а мужчины — быть бизнес-лидерами», — говорит научный сотрудник Института социальных наук GESIS им. Лейбница Карстен Швеммер, который участвовал в исследовании.
Руководитель исследовательской группы Avast по изучению искусственного интеллекта Хавьер Алдан Юит пояснил, что модели ИИ часто бывают предвзяты, потому что обучаются на соответствующих человеческих решениях, а люди по своей природе склонны к предрассудкам.
«Причину появления необъективности ИИ стоит искать в данных, которые использовались при обучении системы. Например, в Amazon перестали использовать алгоритм поиска новых сотрудников, заметив, что он отдает предпочтение словам, часто встречающимся в резюме мужчин, таким как «быстро схватывать» и «использовать». Предвзятость также может возникнуть из-за некорректной выборки данных. Так, исследователи заметили, что алгоритмы распознавания лиц некорректно распознают лица людей, относящихся к меньшинствам и мало представленным группам – это происходит из-за того, что в данных для обучения они почти не встречались», — добавил эксперт.
Юит также отметил, что решение проблемы предвзятости ИИ можно решить выборкой обучающих данных.
«Кроме того, можно расставлять теги на отзывах в наборах данных и устанавливать одинаковые обязательные категории тегов для всех фотографий людей. Например, одни и те же теги, определяющие внешний вид, должны применяется как к мужчинам, так и к женщинам», — рассуждает эксперт.
Еще одним из возможных способов обеспечения объективности системы ИИ является привлечение к ее созданию как можно более разнообразных групп людей.
«Если все разработчики системы представляют одну группу, то, скорее всего, эта система будет корректно работать только для этой конкретной группы. Разнообразная группа разработчиков сможет обеспечить многообразие взглядов, обнаружить врожденные предрассудки, а также создать инклюзивный и объективный искусственный интеллект», — заключил эксперт.
#javanoscript

const arr = [. . . new Set ( [ 3, 1, 2, 3, 4 ] ) ];
console. Log ( arr . Length, arr [2]);

Что выведется в консоль?

5,1 - 4
👍👍 6%
4,3 - 7
👍👍 11%
4,2 - 52
👍👍👍👍👍👍👍👍 81%
5,3 - 1
👍 2%
👥 64 человека уже проголосовало.
⬆️ Правильный ответ ⬆️

4,2
PyCharm лидер рынка с языком программирования Python в 2020 году


Из года в год разработчики всего мира все больше и больше убеждаться в том что PyCharm — лучшая среда для работы с языком программирования Python в 2020 году от Jetbrains. С помощью этой системы можно редактировать стили web-документов, файлы имеющие язык разметки HTML, скрипты Coffeenoscript и естественно Javanoscript.
​​Как обучаются алгоритмы и от чего это зависит

Казалось бы, когда бизнес-цель четко сформулирована, а все метрики определены, остается выдать специалисту накопленные данные, он найдет и обучит подходящую модель, и все будут счастливы. Так процесс описывают в статьях о том, «как мы научили машину делать то-то», которые появляются на просторах интернета по несколько раз в месяц. Но есть одно но: ваши данные должны содержать достаточно ценной информации, отвечающей условиям задачи. Иначе велик шанс, что на вопрос о том, кому еще мы можем предложить наш продукт, модель выдаст многозначительное: «42».
То, какие данные вы накопили в своем проекте, и то, что вы можете достать внутри компании или у партнеров, зависит от вас, а не от дата-сайентиста. Согласитесь, вы не можете прийти к строителю с грудой досок и попросить построить из них каменный дворец. Аналогично нельзя требовать от специалиста по данным додумать то, чего нет в ваших данных. Поэтому так важно хотя бы базово понимать, как ваши ресурсы соотносятся с вашими возможностями и какие подходы обеспечат нужный результат.
Разобраться в подходах к машинному обучению довольно просто: изучите эту сравнительную таблицу — и вы лучше поймете, выполнима ли задача, которую вы описали в предыдущем модуле, на данных, которые у вас есть.
Почему простые числа образуют спирали?

Все мы слышали об удивительных закономерностях и паттернах в математике. Некоторые из них настолько красивы и необъяснимы, что люди с радостью приписывают им мистический смысл. Но стоит разобраться получше, и оказывается, всё дело во вполне понятных, хоть и сложных, свойствах самих чисел. Грант с канала 3Blue1Brown, например, предлагает разобраться, как таинственные спирали на полярном графике связаны с одной из фундаментальных особенностей простых чисел.
Облако идет к вам

Все предыдущие годы развития облачных технологий сейчас кажутся подготовкой к тому глобальному вызову, на который пришлось отвечать в этом году, и ведущие провайдеры публичных облаков с этим вызовом успешно справились, замечают аналитики Forrester. Действительно, без облачных приложений, средств коммуникации, инструментов разработки и инфраструктурных сервисов очень многим бизнесам и корпоративным ИТ было бы гораздо сложнее (если вообще возможно) адаптироваться к работе в условиях тотального локдауна и самоизоляции. Облака уже не первый год позиционируются как ключевая платформа цифровизации, а теперь их востребованность резко возрастет, уверены аналитики, поскольку без них нереализуема не только удаленная работа, но и, прежде всего, гибкая, способная адаптироваться к любым изменениям ИТ-инфраструктура.
Именно поэтому рынок публичных облачных сервисов растет и будет расти еще больше. Аналитики Forrester прогнозируют 35-процентный рост для мировых облачных гиперскейлеров (Google, Amazon, Microsoft Azure и Alibaba) в 2021 году, возрастет спрос на платформы контейнеров для разработки приложений в публичных облаках и мультиоблачных средах. По данным IDC, в будущем году 80% корпораций реализуют инициативы по переходу к инфраструктурам на базе облака. А в Gartner повторяют прошлогодний прогноз о появлении распределенных облаков — сред, в которых облачные сервисы реализуются в различных физических точках, но под управлением одного провайдера.
Облачный рынок растет и в России, значительно активизировались в этом году и не планируют останавливаться местные провайдеры облачных сервисов, которые в силу геополитических и регуляторных причин имеют очевидные преимущества на отечественном рынке перед западными. Хотя проникновение облаков в инфраструктуры российских компаний остается относительно низким в сравнении с мировыми показателями, ситуация меняется, кризис побуждает российский бизнес обращаться к облачным сервисам. Аналитики IDC в России и СНГ отмечают, что организации в стране расширяют спектр технологий, которые они готовы потреблять из облака. Это уже не только SaaS для определенных бизнес-функций, но и аналитика больших данных и машинное обучение, решения для Интернета вещей, контейнеры, инструменты для поддержки процессов DevOps, нереляционные базы данных и др.
Важно также то, что российские провайдеры начинают развивать облачные сервисы на основе контейнерной виртуализации, и это, как считают в IDC, может изменить структуру потребления облаков в России. Если сейчас наиболее востребованы предложения SaaS, то в будущем фокус может сместиться к инфраструктурным (IaaS) и платформенным (PaaS) сервисам.