NEW BOT Телеграм, страница

Data Science | Machinelearning [ru]

Хочешь освоить востребованную и высокооплачиваемую IT-профессию? Попробуй свои силы в Java-разработке!

Пройди бесплатный интенсив и напиши свою первую программу: https://clc.am/j96EpA.

За три дня ты:

👉 получишь базовые навыки программирования на Java;
👉 поймёшь на практике, как устроена работа Java-разработчика;
👉 напишешь программу для мониторинга активности рабочего стола.

Полезными навыками и лайфхаками поделится разработчик с опытом более 15 лет, директор центра SymbioWay, который находит IT-специалистов для крупнейших компаний России — Даниил Пилипенко.

🎁 Всех участников ждут подарки от издательства «МИФ», а авторов трёх лучших проектов — гранты на обучение в онлайн-университете Skillbox!

1.16K views08:00

Data Science | Machinelearning [ru]

Метод наименьших квадратов
#algorithms
Метод наименьших квадратов — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных.
Он может использоваться для "решения" переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, а также для аппроксимации точечных значений некоторой функции.
Используйте этот алгоритм, чтобы соответствовать простым кривым/регрессии.
Полезные ссылки:
numpy.linalg.lstsq
numpy.polyfit

1.2K views08:03

👍 8 👎

Data Science | Machinelearning [ru]

Сингулярность, которую мы заслужили

Технологическая сингулярность, которую Вернор Виндж предсказывал в 1993 году, происходит прямо сейчас. В своём манифесте Виндж предложил тогда несколько вероятных сценариев того, как этот фазовый переход разумности землян мог бы состояться где-то между 2005 и 2030 годами, но подчеркнул, что детальные прогнозы тут невозможны. Они и не сбылись. Что сбывается сейчас, так это главная идея: когда в игру войдут созданные нами сверхчеловеческие существа – мы быстро и навсегда утратим не только возможность управлять событиями, но даже принципиальную способность понять новые правила.

1.19K views17:32

Подробно

👍 14 👎 4

Data Science | Machinelearning [ru]

Снижение размерности
#algorithms
Этот термин легко понять интуитивно. Есть набор данных и нужно уменьшить количество его измерений. В Data Science под этим подразумевается количество переменных признаков.
Куб представляет набор данных, имеет три измерения и содержит 1000 точек. Конечно, при современных вычислительных мощностях таким количеством никого не напугать, но когда это число начнёт расти, могут появиться проблемы. Однако, если посмотреть на данные с двухмерной точки зрения, можно увидеть, что с такого угла легко разделить все цвета. С помощью снижения размерности можно спроецировать 3D-данные на 2D-плоскость, что эффективно снижает количество точек для вычисления до 100 единиц.
Снизить размерность также можно с помощью отбрасывания маловажных признаков. Например, после изучения набора данных было выявлено, что из 10 признаков 7 сильно коррелируют с выходом, а остальные 3 — нет. Значит, 3 этих признака не стоят траты ресурсов на них и их можно исключить без вреда для выхода.
Наиболее распространённый метод для снижения размерности — метод главных компонент (PCA), который создаёт векторные представления признаков, тем самым показывая их связь с выходом. PCA можно использовать для обоих вариантов снижения размерности, описанных выше.

1.21K views07:01

👍 11 👎

Data Science | Machinelearning [ru]

Смешные собеседования: истории ИТ-рекрутеров

Невольный свидетель
Проводила собеседование с кандидатом по видеосвязи. На заднем плане был виден очень большой полированный шкаф времен СССР. Общение шло хорошо, кандидат был очень вежливый. В какой-то момент в комнату зашел дедуля, открыл шкаф и начал перебирать в нём вещи. Кандидат при этом ничего не мог сделать и продолжил рассказывать о своем опыте как ни в чем не бывало. Дедуля достал вещи, посмотрел в экран и удалился. По итогу интервью знала не только чего хочет мой кандидат, но и видела всё, что у них в шкафу хранится, а также частично познакомилась с его семьей.

1.22K views16:00

Продолжение

👍 10 👎

Data Science | Machinelearning [ru]

ИИ научился легко решать сложнейшие уравнения, которые описывают устройство Вселенной

Дифференциальные уравнения в частных производных встречаются в самых разных аспектах физико-математического моделирования. Они позволяют рассчитывать состояния весьма сложных систем, но их решение всегда было ресурсоемкой задачей. Благодаря специально созданной нейросети этот процесс значительно ускорился и мощности суперкомпьютеров можно будет перенаправить на другие важные задачи.

Большинство студентов технических специальностей встречают уравнения математической физики (УМФ), или дифференциальные уравнения в частных производных, лишь однажды. Пройдя их во время обучения, об этом сложном, но мощном инструменте почти всегда забывают. И лишь некоторые инженеры используют их регулярно. Речь идет, например, о моделировании воздушных потоков в аэродинамике, описании движения тектонических плит, расчете положения планет или метеорологии.

1.22K views07:01

Подробно

👍 13 👎

Data Science | Machinelearning [ru]

Статистические характеристики

Статистические характеристики — наверное, наиболее часто используемая статистическая концепция в Data Science. Обычно это первое, что применяют при исследовании набора данных. В эту концепцию входят такие понятия как отклонение, дисперсия, среднее значение, медиана, процентили и многие другие. Их довольно легко понять и реализовать в коде.
Линия посередине — это медианное значение данных. Медиану используют вместо среднего значения по той причине, что она более устойчива к аномальным значениям в данных. Первый квартиль — это 25 процентиль, т.е. 25% значений в данных находятся ниже этого значения. Третий квартиль — это 75 процентиль, т.е. 75% значений в данных находятся ниже этого значения. Минимальное и максимальное значения отражают нижнюю и верхнюю границы диапазона данных.
Ящик с усами прекрасно демонстрирует, что мы можем сделать с основными статистическими характеристиками:
Когда этот ящик короткий, то можно сделать вывод, что большинство значений в данных похожи, так как много значений находится на небольшом расстоянии друг от друга.
Когда ящик длинный, то можно сделать обратный вывод: большинство значений отличаются друг от друга.
Если медианное значение ближе к низу, то можно сказать, что большая часть данных имеет более низкие значения. Если оно ближе к верху, то большая часть данных имеет более высокие значения. По сути, если медиана не находится по центру ящика, то это показатель того, что данные неравномерны.
Усы очень длинные? Значит, данные имеют высокое стандартное отклонение и дисперсию, т.е. значения сильно разбросаны и отличаются друг от друга. Если усы длинные только с одной стороны ящика, то, возможно, данные заметно изменяются только в одном направлении.
Используйте статистические характеристики для быстрой, но при этом информативной оценки ваших данных.

1.26K views16:00

👍 20 👎

Data Science | Machinelearning [ru]

Ограниченная линейная регрессия
#algorithms
Метод наименьших квадратов может смутить выбросами, ложными полями и т. д.
Нужны ограничения, чтобы уменьшить дисперсию линии, которую мы помещаем в набор данных. Правильное решение состоит в том, чтобы соответствовать модели линейной регрессии, которая гарантирует, что веса не будут вести себя “плохо”.
Модели могут иметь норму L1 (LASSO) или L2 (Ridge Regression) или обе (elastic regression).
Используйте этот алгоритм для соответствия линиям регрессии с ограничениями, избегая переопределения.
Полезная ссылка:
Обобщенные линейные модели (eng)
Вводные гайды:
Ридж-регрессия (eng)
LASSO регрессия (eng)

1.23K views07:01

👍 8 👎

Data Science | Machinelearning [ru]

Как начинающему Data Engineer повысить свою эффективность? Начните прокачивать навыки 12 ноября с демо-занятия «Знакомство с Ni-Fi». Вместе с Егором Матешуком вы рассмотрите Ni-Fi и роль data ingestion инструментов в целом при построении систем обработки данных. Решите простую задачку по построению пайплайна для загрузки файлов в хранилище данных с использованием Ni-Fi.

Демо-урок входит в программу онлайн-курса «Data Engineer». Для записи на вебинар, пройдите вступительный тест https://otus.pw/1DbX/

1.24K views08:13

Data Science | Machinelearning [ru]

Что такое функция?

На уроках математики вы не только слышали о ней, но и рисовали. Выберете подходящее в рамках курса определение.

Это способ показать зависимость одной величины от другой — мы можем показать это формулой или отразить на графике. - 98
👍👍👍👍👍👍👍👍 88%
Это результат математической операции. - 5
👍 5%
Это то, что выполняет какой-то орган или аппарат. - 8
👍👍 7%
👥 111 человек уже проголосовало.

1.22K viewsedited 16:00

Это способ показать зависимость одной величины от другой — мы можем показать это формулой или отразить на графике. - 98

Это результат математической операции. - 5

Это то, что выполняет какой-то орган или аппарат. - 8

Data Science | Machinelearning [ru]

⬆️⬆️⬆️ Правильный ответ ⬆️⬆️⬆️

Функция показывает зависимость одной переменной от другой. Слева можно увидеть пример записи функции: y = x2.

1.17K views19:00

👍 13 👎

Data Science | Machinelearning [ru]

ИИ создал симуляцию Вселенной, но ученые не понимают, как это получилось
Астрофизики решили использовать самый современной искусственный интеллект (ИИ) для того, чтобы создать трехмерную модель участка Вселенной. Проект был назван Deep Density Displacement Model (D3M) и исследователи не понимают, как ИИ смог создать нечто подобное.
Астрофизиков поразило не только то, что D3M получилась фантастически детализированной и точной моделью, но и то, что ИИ справился с задачей за 30 миллисекунд! Как машина смогла научиться этому? Откуда такие точные познания устройства нашей Вселенной?
Естественно, ИИ получил теоретические основы, было проведено 8000 тестовых симуляций, но машина регулярно справлялась с задачами существенно лучше, чем от нее ожидали. В итоге ИИ проанализировал действующие физические законы, просчитал перемещение частиц за всю историю времени и выдал результат.
"Это все равно что учить ИИ распознавать по снимкам кошек и собак, а потом узнать, что машина умеет распознавать слонов. То, что произошло при создании симуляции Вселенной, пока остается большой загадкой", - сказала астрофизик Ширли Хо, ведущий автор исследования.
ИИ за 30 миллисекунд создал детальнейшую модель Вселенной, которая была заключена в куб с гранями по 600 миллионов световых лет. Если бы астрофизики применяли классические технологии, то на аналогичную операцию ушло не менее 300 часов.
Никто из авторов исследования не может объяснить увиденное и у них в самом деле нет даже предположений. Настал тот день, когда искусственный интеллект в миллиарды раз превзошел ум человека?

1.72K views07:00

👍 23 👎 15

Data Science | Machinelearning [ru]

Этого там точно не было!

Все известные миру сюжетные повороты уже точно были в сериале Симпсоны — ещё бы, за 30-то лет.

А на бесплатном марафоне по Data Science от Нетологии вы сможете создать совершенно новый, невиданный до этого сюжетный поворот и даже целый сценарий при помощи искусственного интеллекта.

В программе марафона — 3 эпизода, каждый из которых приблизит вас к созданию своего варианта культового сериала с помощью SQL, Python и Machine Learning.

Запишитесь на марафон и научите машину творчеству ↓
http://netolo.gy/fWw

1.55K views08:30

Data Science | Machinelearning [ru]

Мама, я сделал Хабр!

Мне 17 лет и я уже несколько месяцев делаю клон мобильного приложения Хабра, назвав его соответствующе, модно, со стилем и пафосной точкой в конце — habra. Получилось реализовать несколько фич, которых пока нет ни в официальном приложении из плей маркета, ни на самом сайте.

Пост для любителей мобильных приложений.
Автор приложения прислушивается к комментариям и идет на диалог.
По мнению редакции Data science [ru] отличное начинание.
#Нереклама

1.34K views16:00

Обсудим?

👍 13 👎 7

Data Science | Machinelearning [ru]

Помните ли вы, как возводить числа в степень?

🤓 Это знание пригодится, когда вы будете знакомиться с функцией потерь и договариваться, по какому показателю оценивать качество работы алгоритма. Помните ли вы, как возводить числа в степень? Сколько будет квадрат от (– 5) (минус пяти)?

5 - 4
👍 2%
25 - 161
👍👍👍👍👍👍👍👍 95%
- 25 - 4
👍 2%
👥 169 человек уже проголосовало.

1.28K viewsedited 07:00

5 - 4

25 - 161

- 25 - 4

Data Science | Machinelearning [ru]

⬆️ Правильный ответ ⬆️
2️⃣5️⃣
Квадрат отрицательного числа — это положительное число. Именно это свойство помогает «отлавливать» ошибки алгоритма на этапе обучения и тестирования.

1.21K views09:00

🤘 16 👎 1

Data Science | Machinelearning [ru]

Примеры, которые заставляют задуматься о том, что восстание машин уже началось

В 2015 году пьяный японец избил первого в мире «эмоционального» робота Pepper за неудачную шутку. Отпинал до состояния, когда робот не смог двигаться, и все из-за одной шутки, сказанной в отделении банка.

Казалось бы, после этого Сара Коннор должна бросить связку оружия в багажник и поехать как можно дальше от человечества. Но проблема в том, что ИИ уже давно бунтует. Хотя ученые пытаются нас успокоить и утверждают, что машины с творческим интеллектом, близким человеческому, появятся в течение ближайших 50 лет. И вообще, очень маловероятно, что искусственный интеллект непременно разделит человеческие ценности.

Но столь же сомнительно, что он придаст какое-либо значение своей собственной жизни. Однако отдельные достижения уверяют нас совершенно в обратном. Да и разве можно верить ученым? Скорее всего, у нас, людей, есть повод для беспокойства.

1.26K views16:00

Продолжение

👍 16 👎 3

Data Science | Machinelearning [ru]

8 бесплатных курсов для дата-аналитиков

Знание Python и R
Курс «Изучение Python»
Автор: Codecademy.
Язык: английский.
Уровень: начальный.
Онлайн-платформа Codecademy предлагает интерактивное изучение Python: на одной странице объясняется краткая теоретическая информация и интерпретатор кода. Курс рассчитан на начинающих пользователей и рассказывает о базовых командах языка программирования.
Курс предоставляется условно-бесплатно: получить доступ к контрольным заданиям и работе над проектами можно только по платной подписке. Бесплатные уроки подойдут, чтобы изучить простые конструкции и разобраться в синтаксисе языка.

Самоучитель «Python 3 для начинающих»
Автор: Дмитрий Мусин.
Язык: русский.
Уровень: начальный.
Самоучитель Мусина — одна из крупных баз знаний про Python на русском языке. На сайте находится информация о модулях, материалы про анализ данных с помощью библиотеки Pandas, теоретическая информация, примеры задач и полезные ссылки. Также на основе опубликованных статей подготовлен самоучитель в PDF-формате.

Курс «Программирование на Python»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: начальный.
На курсе преподаватели знакомят с базовыми понятиями программирования. В качестве домашних заданий предлагается большой объём практических задач — все решения проверяет автоматическая система. При этом преподаватели не дают индивидуальные консультации. В курс также вошли задачи повышенной сложности, которые необязательно решать, чтобы пройти курс.

Курс «Python: основы и применение»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: средний.
Требования: базовые навыки программирования на Python или других языках программирования.
Студенты курса изучают фундаментальные основы языка: как интерпретатор исполняет код, где он хранит переменные и данные, как определяются собственные типы данных и функции. Курс рассчитан на пользователей, которые знакомы с базовыми навыками программирования.
Проверочные задачи в курсе разделены на два типа: на закрепление материала и поиск способов для применения изученных навыков. Решения проверяются системой.

Курс «Основы программирования на Python»
Автор: Udacity.
Язык: английский.
Уровень: начальный.
Слушатели изучают три базовые темы: использование функций, создание и использование классов. Последний урок посвящён созданию собственных проектов. Обучение строится на работе над мини-проектами и изучении важных концепций. Курс нацелен на тех, кто хочет стать программистом или планирует с ними работать.

Курс «Основы программирования на R»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: начальный.
В этом курсе преподаватели рассматривают R как язык программирования, а не как инструмент решения конкретных задач. Слушатели изучают основные типы данных и универсальные семантические правила, а также темы, связанные с анализом и обработкой данных.

Курс «Анализ данных в R»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: средний.
Требования: базовые знания в области статистики.
Преподаватели объясняют основные этапы анализа данных с помощью языка R. Студентам расскажут об основных этапах статистического анализа R, считывании и предварительной обработке данных, применении основных статистических методов и визуализации результатов.

Курс «Программирование на R в науке о данных»
Автор: Microsoft.
Язык: английский.
Уровень: средний.
Требования: курс ориентирован на аналитиков, которым необходимо знание R для работы над статистическими проектами.
Курс разработан Microsoft вместе с Техническим университетом Дании. В курсе рассказывают про основы R, учат читать и записывать данные, работать с ними и получать результаты. Также преподаватели объясняют, как выполнять интеллектуальную аналитику с помощью R и визуализировать данные.

1.72K views07:00

👍 11 👎 1

Data Science | Machinelearning [ru]

Хочешь узнать, как разрабатывается искусственный интеллект? Участвуй в интенсиве по Data Science и познакомься с основами анализа данных и технологиями машинного обучения.

Ссылка для бесплатной регистрации: 🔜 https://clc.am/HFL4Jg.

✔️ Ты изучишь основы Python.
✔️ Научишься грамотно выгружать и визуализировать данные.
✔️ Создашь модель машинного обучения, предсказывающую курс доллара.
✔️ Узнаешь, как оценивать качество модели.

💣 Попробуй себя в роли специалиста по Data Science на мастер-классах от разработчика с 17-летним опытом Михаила Овчинникова и убедись, что эта профессия вполне доступна!

1.29K views08:00

Data Science | Machinelearning [ru]

В книге рассмотрены наиболее распространенные и серьезные ошибки кодирования и программные "дыры", которые используются хакерами для взлома программных продуктов. Рассмотрено большинство языков и платформ программирования, каждая глава посвящена отдельному типу уязвимости ("смертному греху"), угрожающему безопасности компьютерных систем и программ.

1.37K views16:01

Скачать

👍 7 👎

Data Science | Machinelearning [ru]

Распределения вероятностей

Вероятность можно определить как процентный шанс того, что какое-то событие произойдёт. В Data Science вероятность находится в пределах от 0 до 1, где 0 означает, что событие точно не произойдёт, а 1 — что точно произойдёт. Распределение вероятностей — это функция, которая отображает вероятности всех возможных значений. Рассмотрим основные виды распределений.

Равномерное распределение
Самое базовое из представленных здесь. У него есть единственное значение, которое встречается только в определённом диапазоне, а всё, что находится за его пределами, равно нулю. Это распределение можно воспринимать как признак категориальной переменной с двумя категориями: 0 и значением. У такой переменной могут быть и другие значения, отличные от нуля, но это не мешает изобразить её в виде функции, состоящей из нескольких равномерных распределений.

1.27K views07:00

👍 4 👎 1

About

Blog

Apps

Platform