BIG BAD DATA – Telegram
BIG BAD DATA
140 subscribers
69 photos
1 video
9 files
31 links
Сложно о простом и просто о сложном 😎🥸
👀Меня можно найти тут: @Areson251
Download Telegram
Наконец-то!!!! Обещанный пост про науку😂

В общем, наука мне была интересна всегда, но у меня не было какой-то серьёзной цели изучать ее. Было лишь «хочу».
Потом судьба столкнула меня с нейронками, можно сказать лоб в лоб😂 И мне это понравилось 😂😂😂
По началу было интересно только их применение, всякие «стартапы» и упрощение домашних дел) Спустя какое-то время мне стало интересно разобраться в том, что находится у них под капотом. А дальше как по накатанной…
Также, параллельно я занимаюсь изучением психологии: читаю разные книжки, статьи, смотрю видосы, анализирую.
И тут мне пришла гениальная идея!🤣 Почему бы не связать искусственный интеллект и психологию??? Как всем давно известно, у человека есть сознательное и бессознательное. Они отличаются тем, что в сознательном мы можем проследить логику, ход мыслей, построить путь от точки А к точке В. Как работает бессознательное, до сих пор мы можем только предполагать. В этом и заключается главная проблема создания ии: если же сознательное мы ещё можем как-то обусловить математическими кванторами и операторами, то, не зная как работает бессознательное, мы точно не сможем воспроизвести работу человеческого мозга.

Вот такая вот у меня гипотеза на счёт ии, которую я, конечно же, хочу доказать😎
Ну и естественно изучить бессознательное и породить настоящий ии!

Если Вы считаете, что это всего лишь мои фантазии, то у меня есть несколько аргументов на этот счёт)))

#phil_thoughts
👍3
Часто сталкиваюсь с проблемой выгорания или обычной апатией.

Думаю, не мне одной знакома такая проблема, как «ой, сегодня у меня нет на это сил( сделаю завтра/на следующей неделе/в следующем месяце/ в следующем году/ в следующей жизни…»
Вполне нормально, что мы теряем интерес к каким-то совсем недавно дико интересующим нас делам. Особенно часто с этим сталкиваются такие люди как «сканеры». Мне кажется, что я сама к ним отношусь (люди, которые были у меня в комнате, подтвердят это😂). Полагаю, что грустное настроение появляется, когда начинаешь путаться в своей голове: что нужно сделать, что уже сделал, что не доделал и тд.
Due to this поделюсь с Вами способом планирования времени, который позволяет видеть общую картину своих дел и хоть как-то помогает собрать в кучку мысли. Пример такого расписания приложу ниже 👇 Думаю, он достаточно наглядный, чтобы понять как его составить. Как видите, на этой неделе я уже начала переносить свои дела, потому что не успеваю даже начать их делать. Но тем не менее, на их место я стараюсь вставить другие таски из этой таблички, чтобы закрыть «пропуски», и в сумме не потратить больше условленного времени.

По секрету, мне ещё ни разу не удавалось полностью закрасить все квадратики на одном листе😂 Но я особо не расстраиваюсь, тк я вижу, что не сижу ровно на месте, пытаюсь что-то делать и я молодец☺️

#info
👍1
Хочется сегодня поговорить о дофаминовой зависимости)
Поэтому кидаю опрос на прожарку толпы😂
Как вы считаете, дофаминовая зависимость это…?
Anonymous Poll
15%
Хорошо
31%
Плохо
54%
Нейтрально
Дофаминовая зависимость.

Можно много рассуждать на счёт хорошо и плохо, основываясь на результатах. Я же считаю, что если есть оба варианта примерно в равных количествах, значит это нейтрально🧐

Приятно считать, что дофамин - это гормон счастья, то бишь некое вознаграждение организму за его труды. В современном мире большинство людей получают огромное количество дофамина из скроллинга ленты, сериалов, видеоигр, шоппинга, каких-то вредных привычек и тп. В таком ключе, конечно, зависимость можно расчитывать как негативную.
С другой стороны, есть иной подход к «применению» своего гормона счастья) Например, зависимость можно перенаправить на занятия спортом, решение задачек по учебе, полезные хобби или даже разбор дел по работе. Естественно, по началу никому не понравится перестраиваться с просмотра любимого мультика или кино на физические упражнения, либо взяться за домаху, вместо бесконечного просмотра новостей… Но я Вас уверяю!!! Результат не заставит себя долго ждать))) Буквально неделя пройдёт после того, как Вы начнёте себя насильно переключать на нужное направление, Вы уже и не заметите, как самим не терпится заняться новым любимым делом😌
И вот тогда уже дофаминовая зависимость будет работать не против Вас, а на Вас!)

К сожалению, пока что я не знаю никакого другого способа, кроме того как постоянно контролировать себя в том, чем я занимаюсь. Я уверена, что есть более лёгкий путь достижения своего ежедневного «счастья». Возможно, Вы сможете что-нибудь подсказать мне и другим в этом канале😉

#phil_thoughts
Скажу честно, у меня нет идей, что постить в этот канал🥲

А пока я ищу своё вдохновение, ловите подборку литературы по машинному обучению🙂

1. Обработка и анализ изображений в задачах машинного зрения, Визильтер Ю.В., Желтов С.Ю., Бондаренко А.В., Ососков M.B., Моржин А.В., 2010
Учебник по компьютерному зрению по лекциям МФТИ I guess. Посоветовал ее Архипов И. О. (директор нашего института ИИВТ). В программу шоу входит теория по предварительной обработке изображений, основы машинного обучения и разные математические методы посвященные "зрению на основе моделей и морфологическому анализу изображений" (принимаются шутки про надобность морфологического разбора со школы).

2. Глубокое обучение. Погружение в мир нейронных сетей, Николенко, Кадурин, Архангельская, 2020
Та самая книжка, которая стоит у меня в очереди на прочтение. По отзывам знаю, что в ней все четко рассказывается про устройство внутрянки нейронок, по полочкам раскладываются все математические формулы и определения. Дает очень огромный багаж знаний👍

3. Грокаем глубокое обучение, Эндрю Траск, 2019
По-моему, самая популярная книжка по мл из этой подборки) Одно время встречала ее почти везде. Обеспечивает минимальный порог входа в эту область. Обещает даже, что научит строить нейронки с нуля) В этой книжке вроде все примеры приводятся на python.

4. Data Science. Наука о данных с нуля, Джоэл Грас, 2020
Завершу эту подборку самой легкой, на мой взгляд, книгой (хотя сама ее не читала😜). Опять таки судя по отзывам, материал предлагается на очень простом языке. Данный представитель подборки не заставит читателя заскучать от нудных формул по всеми любимой математике, ведь в этой книге сделан акцент на простоту и доступность материала. Содержит в себе много тем по матеше, но всего по чуть-чуть))) Плюс этой книжки в том, что она показывает много примеров применения на практике. Например, анализ социальных сетей. Так же есть краткий курс в python

Хотела еще вставить сюда учебник по анализу данных у ШАД, но чет у них упал сайт😵‍💫

#about_ml
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Хочу дать вам немного теории по работе с ml🤓 А точнее, о подготовке к ней)

Самый первый и важный этап - собрать и предобработать входные данные. Всю информацию можно описать по ее конкретным признакам, которые в свою очередь различаются на два типа: категориальные и численные. Сегодня я расскажу Вам, товарищи, о работе с категориальными признаками.
Значения этих признаков можно относить к какой-либо группе, но при этом их порядок не важен. Эти значения не являются сравнимыми, например имя, страна, спорт и тп.
При сборе обучающей выборки часто бывает так, что находится много выбросов (аномальных значений для определенной категории) и пропусков (отсутсвие каких-то полей). Есть несколько способов для борьбы с такими случаями:
1. Удаление пропущенных значений. Самый простой способ, когда просто удаляешь строки в таблице или варианты. К сожалению, у этого метода есть очень жирный минус - огромная потеря информации, что сильно сокращает датасет.
2. Заполнение пропущенных значений. Этот способ гораздо лучше предыдущего, тк он сохраняет все исходные данные. Можно, к примеру, вставлять слово «unknown». Но все же лучше использовать медианы по столбцам, тк новые элементы будут более реальными и приближенными к первоначальным.
3. Замена максимальными значениями. В отличие от других методов, конкретно этот можно применить только к категориальным признакам, да бы не испортить всю выборку. Однако, я все равно больше склоняюсь к медианам.
4. Обнаружение и ограничение выбросов. Чтобы увидеть аномальные значения, достаточно визуализировать свою выборку. Для ограничения можно использовать процентили - (мера, в которой процентное значение общих значений равно этой мере или меньше таковой).

Также для обработки категориальных признаков можно использовать:
1. Быстрое кодирование (One-Hot encoding), суть которого заключается в распределении столбца на несколько других и присваиванием каждому из него 0 или 1. Полученные бинарные значения отобразят сгруппированость между данными и столбцами. Удобно для передачи инфы в алгоритмы.
2. Масштабирование признаков - приведение всех данных к одному формату.
3. Логарифмическое преобразование - помогает бороться с искаженными данными. Также, приближает их реальным. Важно! Работает только на положительных значениях.

Суть сей басни такова: нормально подготавливайте исходники изначально, чтобы потом не тратить неделю на поиск ошибок в коде (которых там может и не быть)🙃

#about_ml
Кстати, на этой неделе я доделала все вопросы в разделе «комбинаторика»🥳
Так, что на следующей неделе я уже начну наращивать практику. Думаю, попробую решить один из вариантов экзамена, чтобы оценить свои силы

#info
👍4👏1
Доброй ночи, товарищи!

Я тут подумала, что многие из вас наверное не знают моей темы на диплом (ну либо я ее уже озвучила и забыла об этом🙃)
Так вот, я решила работать над «методом грубого позиционирования беспилотных аппаратов». Входными данными служит огромный снимок местности со спутника (предполагается, что только по этой территории будет летать б/а), параметры беспилотника (текущее значение компаса, высота полёта, наклон и тд), и каждый момент времени поступает снимок текущей местности, где находится б/а.

Звучит очень грандиозно, но куда двигаться - непонятно😬

Пока что я написала простецкий алгоритм, который сравнивает изображения методом вычитания одного из другого. Даже можно задать шаг, с которым будет сдвигаться меньшая картинка на большей. Получается такой супер усложнённый полный перебор…
Работает он, конечно, достаточно долго (порядка 2 секунд с изображениями 1600х600 и 400х300 и шагом в 100 пикселей).

На данный момент я знаю только одно альтернативное решение этой задачи - разбор задачки с RuCode не помню какого года (вроде даже 2021). Но минус этого решения в том, что там используется нейронка , натренированная на датасете из 800 картинок.
Если я захочу применить это решение к поставленной задаче, сразу возникает вопрос: где я буду брать каждый раз обучающую выборку из ~500 картинок для абсолютно рандомной местности? Окей, всегда можно воспользоваться моим любимым вариантом - использовать синтетический датасет😂 Берём исходное изображение со спутника, нарезаем кучу ~300 картинок одинакового размера с разных участков этой местности. Оставшиеся 200 генерирует с помощью поворотов и различных фильтров (такое даже описывалось в разборе к той задаче рукода). И вуаля, можно обучать нейронку😎 Однако, на обучение нейронки может уходить от 1 дня до целой недели. А что, если беспилотник нужно запустить уже через час? Будет ли время на подготовку нейронки? А если беспилотник будет иметь возможность постоянно менять местность, по которой он летает(просто каждый раз получать новое исходное изображение)? Учить нейронку налету методом взлетов и падений?😂😂😂

Все, что остаётся сейчас делать - рыть инфу для поиска альтернативных решений на похожие задачи, ну и конечно пытаться придумать самой какой-то гениальный алгоритм)))

¡Buenas noches, amigos!

#about_ml
Хочу поделиться первыми результатами разработки диплома)

Исходное изображение 1280х497 Яндекс карты
Сравниваемое изображение
400х300 Гугл карты
Масштаб карты на фотках одинаковый - 1 км
1 фото результат: «тепловая карта» с шагом в 101 пиксель, время работы - 2.4 сек.
2 фото результат: «тепловая карта» с шагом в 21 пиксель, время работы - 28.2 сек.

#about_ml
👍6
Я попыталась решить пробник в ШАД😅😅😅

Ну… я решила первую задачу😂
А ещё правильно думала в направлении 5 задачи🤣
Лан, посмотрю завтра разбор и буду на шаг ближе к цели😎

Вариант оставлю ниже, вдруг кому тоже будет интересно попробовать себя👇👇👇

#info