BIG BAD DATA – Telegram
BIG BAD DATA
140 subscribers
69 photos
1 video
9 files
31 links
Сложно о простом и просто о сложном 😎🥸
👀Меня можно найти тут: @Areson251
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Разбирала вопрос по анализу данных на основные задачи машинного обучения.

Одной из таких задач является регрессия. Это способ обучения с учителем, тк у нас есть какое-то количество данных и «правильные ответы» к ним. Примером такого обучение может быть уже всеми излюбленный поиск каких-то объектов на изображении.

Недавно Влад отправил видос (ссылочку прикреплю ниже), где среди множества людей нейронка не могла определить человека, одетого в свитер с размытой фотографией базара😂
Честно говоря, не понимаю как такое могло произойти, потому что меня yolo v5 определяла как person по кусочку большого пальца ноги на фото😅😅😅
Но тем не менее, первое решение этой проблемы, которое мне приходит в голову - просто добавить в обучающий датасет картинки с человеком в этом свитере. Опять же, это решение максимально тривиальное, потому что где гарантия, что кто-то другой не догадается сделать кофту с другим подобным рисунком? Тогда уже это решение работать не будет.
Есть другой вариант - сделать синтетический датасет, где на кофты людей прикреплять уже существующие картинки😂 Сейчас поясню подробнее: мы берём уже существующую нейронку; прогоняем через неё все картинки, на которых она обучалась или другие; она определяет на них людей; в центр выделенного person вставляет рандомную размытую картинку из этого же датасета; обучить другую нейронку на новом датасете. Как Вам такой ход?🤣

Ссылка на видос: https://youtube.com/shorts/YIDfssT6lPY?feature=share

#phil_thoughts
👍2
Всех с праздником!🎉 В честь этого предлагаю решить интересную задачку по комбинаторике😂

Докажите, что в любой компании есть два человека, имеющих одинаковое число знакомых в этой компании

Ответ тут: пусть в компании n человек, тогда каждый человек из компании имеет вариант количества знакомств от 0 до n-1. Если в компании все люди имеют различное число знакомств (0, 1, 2, …, n-1), тогда существует человек с n-1 знакомствами, который знает всех людей в этой компании => не существует человека, который имеет 0 знакомств (имеет хотя бы 1 знакомство в этой компании) => есть хотя бы два человека в компании, которые имеют одинаковое количество знакомств ☺️

#about_ml
👍2🍾1
Доброе утро, товарищи☀️

Вдруг вспомнила, что я вам рассказала цели и мотивы канала, но не назвала main reason, почему я решила идти в науку😬

Отвечаем только честно😂
Интересно было бы послушать?)
Anonymous Poll
100%
Да, конечно!
0%
Нет, но я все равно прочту
Чёт не прет меня вообще в выходные писать посты(

Нет вдохновения, муза не приходит

Обычно, она является ко мне в воскресенье поздно вечером и уходит в пятницу утром😂
This media is not supported in your browser
VIEW IN TELEGRAM
👍1
Наконец-то!!!! Обещанный пост про науку😂

В общем, наука мне была интересна всегда, но у меня не было какой-то серьёзной цели изучать ее. Было лишь «хочу».
Потом судьба столкнула меня с нейронками, можно сказать лоб в лоб😂 И мне это понравилось 😂😂😂
По началу было интересно только их применение, всякие «стартапы» и упрощение домашних дел) Спустя какое-то время мне стало интересно разобраться в том, что находится у них под капотом. А дальше как по накатанной…
Также, параллельно я занимаюсь изучением психологии: читаю разные книжки, статьи, смотрю видосы, анализирую.
И тут мне пришла гениальная идея!🤣 Почему бы не связать искусственный интеллект и психологию??? Как всем давно известно, у человека есть сознательное и бессознательное. Они отличаются тем, что в сознательном мы можем проследить логику, ход мыслей, построить путь от точки А к точке В. Как работает бессознательное, до сих пор мы можем только предполагать. В этом и заключается главная проблема создания ии: если же сознательное мы ещё можем как-то обусловить математическими кванторами и операторами, то, не зная как работает бессознательное, мы точно не сможем воспроизвести работу человеческого мозга.

Вот такая вот у меня гипотеза на счёт ии, которую я, конечно же, хочу доказать😎
Ну и естественно изучить бессознательное и породить настоящий ии!

Если Вы считаете, что это всего лишь мои фантазии, то у меня есть несколько аргументов на этот счёт)))

#phil_thoughts
👍3
Часто сталкиваюсь с проблемой выгорания или обычной апатией.

Думаю, не мне одной знакома такая проблема, как «ой, сегодня у меня нет на это сил( сделаю завтра/на следующей неделе/в следующем месяце/ в следующем году/ в следующей жизни…»
Вполне нормально, что мы теряем интерес к каким-то совсем недавно дико интересующим нас делам. Особенно часто с этим сталкиваются такие люди как «сканеры». Мне кажется, что я сама к ним отношусь (люди, которые были у меня в комнате, подтвердят это😂). Полагаю, что грустное настроение появляется, когда начинаешь путаться в своей голове: что нужно сделать, что уже сделал, что не доделал и тд.
Due to this поделюсь с Вами способом планирования времени, который позволяет видеть общую картину своих дел и хоть как-то помогает собрать в кучку мысли. Пример такого расписания приложу ниже 👇 Думаю, он достаточно наглядный, чтобы понять как его составить. Как видите, на этой неделе я уже начала переносить свои дела, потому что не успеваю даже начать их делать. Но тем не менее, на их место я стараюсь вставить другие таски из этой таблички, чтобы закрыть «пропуски», и в сумме не потратить больше условленного времени.

По секрету, мне ещё ни разу не удавалось полностью закрасить все квадратики на одном листе😂 Но я особо не расстраиваюсь, тк я вижу, что не сижу ровно на месте, пытаюсь что-то делать и я молодец☺️

#info
👍1
Хочется сегодня поговорить о дофаминовой зависимости)
Поэтому кидаю опрос на прожарку толпы😂
Как вы считаете, дофаминовая зависимость это…?
Anonymous Poll
15%
Хорошо
31%
Плохо
54%
Нейтрально
Дофаминовая зависимость.

Можно много рассуждать на счёт хорошо и плохо, основываясь на результатах. Я же считаю, что если есть оба варианта примерно в равных количествах, значит это нейтрально🧐

Приятно считать, что дофамин - это гормон счастья, то бишь некое вознаграждение организму за его труды. В современном мире большинство людей получают огромное количество дофамина из скроллинга ленты, сериалов, видеоигр, шоппинга, каких-то вредных привычек и тп. В таком ключе, конечно, зависимость можно расчитывать как негативную.
С другой стороны, есть иной подход к «применению» своего гормона счастья) Например, зависимость можно перенаправить на занятия спортом, решение задачек по учебе, полезные хобби или даже разбор дел по работе. Естественно, по началу никому не понравится перестраиваться с просмотра любимого мультика или кино на физические упражнения, либо взяться за домаху, вместо бесконечного просмотра новостей… Но я Вас уверяю!!! Результат не заставит себя долго ждать))) Буквально неделя пройдёт после того, как Вы начнёте себя насильно переключать на нужное направление, Вы уже и не заметите, как самим не терпится заняться новым любимым делом😌
И вот тогда уже дофаминовая зависимость будет работать не против Вас, а на Вас!)

К сожалению, пока что я не знаю никакого другого способа, кроме того как постоянно контролировать себя в том, чем я занимаюсь. Я уверена, что есть более лёгкий путь достижения своего ежедневного «счастья». Возможно, Вы сможете что-нибудь подсказать мне и другим в этом канале😉

#phil_thoughts
Скажу честно, у меня нет идей, что постить в этот канал🥲

А пока я ищу своё вдохновение, ловите подборку литературы по машинному обучению🙂

1. Обработка и анализ изображений в задачах машинного зрения, Визильтер Ю.В., Желтов С.Ю., Бондаренко А.В., Ососков M.B., Моржин А.В., 2010
Учебник по компьютерному зрению по лекциям МФТИ I guess. Посоветовал ее Архипов И. О. (директор нашего института ИИВТ). В программу шоу входит теория по предварительной обработке изображений, основы машинного обучения и разные математические методы посвященные "зрению на основе моделей и морфологическому анализу изображений" (принимаются шутки про надобность морфологического разбора со школы).

2. Глубокое обучение. Погружение в мир нейронных сетей, Николенко, Кадурин, Архангельская, 2020
Та самая книжка, которая стоит у меня в очереди на прочтение. По отзывам знаю, что в ней все четко рассказывается про устройство внутрянки нейронок, по полочкам раскладываются все математические формулы и определения. Дает очень огромный багаж знаний👍

3. Грокаем глубокое обучение, Эндрю Траск, 2019
По-моему, самая популярная книжка по мл из этой подборки) Одно время встречала ее почти везде. Обеспечивает минимальный порог входа в эту область. Обещает даже, что научит строить нейронки с нуля) В этой книжке вроде все примеры приводятся на python.

4. Data Science. Наука о данных с нуля, Джоэл Грас, 2020
Завершу эту подборку самой легкой, на мой взгляд, книгой (хотя сама ее не читала😜). Опять таки судя по отзывам, материал предлагается на очень простом языке. Данный представитель подборки не заставит читателя заскучать от нудных формул по всеми любимой математике, ведь в этой книге сделан акцент на простоту и доступность материала. Содержит в себе много тем по матеше, но всего по чуть-чуть))) Плюс этой книжки в том, что она показывает много примеров применения на практике. Например, анализ социальных сетей. Так же есть краткий курс в python

Хотела еще вставить сюда учебник по анализу данных у ШАД, но чет у них упал сайт😵‍💫

#about_ml
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Хочу дать вам немного теории по работе с ml🤓 А точнее, о подготовке к ней)

Самый первый и важный этап - собрать и предобработать входные данные. Всю информацию можно описать по ее конкретным признакам, которые в свою очередь различаются на два типа: категориальные и численные. Сегодня я расскажу Вам, товарищи, о работе с категориальными признаками.
Значения этих признаков можно относить к какой-либо группе, но при этом их порядок не важен. Эти значения не являются сравнимыми, например имя, страна, спорт и тп.
При сборе обучающей выборки часто бывает так, что находится много выбросов (аномальных значений для определенной категории) и пропусков (отсутсвие каких-то полей). Есть несколько способов для борьбы с такими случаями:
1. Удаление пропущенных значений. Самый простой способ, когда просто удаляешь строки в таблице или варианты. К сожалению, у этого метода есть очень жирный минус - огромная потеря информации, что сильно сокращает датасет.
2. Заполнение пропущенных значений. Этот способ гораздо лучше предыдущего, тк он сохраняет все исходные данные. Можно, к примеру, вставлять слово «unknown». Но все же лучше использовать медианы по столбцам, тк новые элементы будут более реальными и приближенными к первоначальным.
3. Замена максимальными значениями. В отличие от других методов, конкретно этот можно применить только к категориальным признакам, да бы не испортить всю выборку. Однако, я все равно больше склоняюсь к медианам.
4. Обнаружение и ограничение выбросов. Чтобы увидеть аномальные значения, достаточно визуализировать свою выборку. Для ограничения можно использовать процентили - (мера, в которой процентное значение общих значений равно этой мере или меньше таковой).

Также для обработки категориальных признаков можно использовать:
1. Быстрое кодирование (One-Hot encoding), суть которого заключается в распределении столбца на несколько других и присваиванием каждому из него 0 или 1. Полученные бинарные значения отобразят сгруппированость между данными и столбцами. Удобно для передачи инфы в алгоритмы.
2. Масштабирование признаков - приведение всех данных к одному формату.
3. Логарифмическое преобразование - помогает бороться с искаженными данными. Также, приближает их реальным. Важно! Работает только на положительных значениях.

Суть сей басни такова: нормально подготавливайте исходники изначально, чтобы потом не тратить неделю на поиск ошибок в коде (которых там может и не быть)🙃

#about_ml
Кстати, на этой неделе я доделала все вопросы в разделе «комбинаторика»🥳
Так, что на следующей неделе я уже начну наращивать практику. Думаю, попробую решить один из вариантов экзамена, чтобы оценить свои силы

#info
👍4👏1