BIG BAD DATA – Telegram
BIG BAD DATA
140 subscribers
69 photos
1 video
9 files
31 links
Сложно о простом и просто о сложном 😎🥸
👀Меня можно найти тут: @Areson251
Download Telegram
Давайте отвлечёмся немного от теории😮‍💨

Хочу рассказать Вам о своей учебе...
А конкретнее о курсе Алексея Ковалёва «Методы искусственного интеллекта в анализе данных» 🙌

Этот курс считается вводным для тех, у кого слабовата базовая теория в ml (для таких как я👀). Мы уже успели пройти предварительную обработку данных, распространенные метрики, линейную классификацию, логистическую регрессию и метод опорных векторов (SVM). Настало время для самого интересного - домашнего задания)))
Вообще, домашка по этому курсу имеет формат мини проектов. В первом из них нужно самому найти и подготовить обучающие данные, составить baseline (базовое решение), обучить линейные модели, композиции моделей и подготовить отчет о проделанной работе. Получается такое самостоятельное микро исследование🙃
Первый этап - подготовка данных. Нам предлагается самим найти табличные данные, включающие в себя разные признаки (категориальные и численные), придумать по ним задачу классификации и выбрать метрики. Мне очень понравился тот факт, что мы сами можем выбирать данные, с которыми будем работать. Присутствует нотка творчества👩‍🎨 В поисках датасета я наткнулась на очень интересный csv файлик - датасет анекдотов на русском😂 Честно говоря, я застряла на нем где-то на полчаса просто читая все подряд... . К великому сожалению, эти данные не подходят под критерии домахи, потому что этот датасет содержит всего один признак - сам контент. Поэтому пришлось рыть дальше.
Спустя пару минут я нашла ИДЕАЛЬНЫЕ данные: Anime Recommendations Database. Датасет содержит информацию о чуть более 12к различных аниме и представлен в виде двух файлах:

⭕️ anime.csv
🌀anime_id - уникальный id номер аниме с сайта myanimelist.net
🌀name - полное название аниме
🌀genre - список жанров для соответствующего аниме (через запятую)
🌀type - тип аниме (movie, TV, OVA и т.д.)
🌀episodes - количество эпизодов для соответствующего аниме
🌀rating - рейтинг для соответствующего аниме (от 0 до 10)
🌀members - количество людей просмотревших соответствующее аниме (или проголосовавших, еще не разобралась)

⭕️ rating.csv
🌀user_id - рандомно сгенерированные id юзеров
🌀anime_id - id аниме, за которое проголосовал юзер
🌀rating - рейтинг, выставленный юзером для соответствующего аниме (-1 если человек просмотрел, но не проголосовал).

Как совместить эти два файла в один я не придумала. Однако, первый файлик прекрасно вписывается в требования датасета, поэтому было решено использовать именно его.
Затем требовалось выбрать задачу классификации (не обязательно бинарной). Пришла идея "предсказывать рейтинг аниме". Соответственно, не долго думая, я и взяла ее🤣 И с потолка метрику F1-score к ней привязала...👀

Штош, после этого получила accept у нашего семинариста и живу наслаждаюсь жизнью (в лабе).
Следующим этапом будет анализ данных и их корректировка, об этом тоже обязательно напишу мини отчет🙂

#diff
5👍1🔥1
Кстати, кому интересно поиграться с датасетом анекдотов - прицеляю этот файлик ниже)))
Пишите, у кого какие интересные идеи могут быть на этот счет😃

(хотя я с NLP ваще не дружу че то)

#diff
3👍2
jokes.csv
3.3 MB
4🔥2🐳1
Многие, кто общался со мной в сентябре, знают некоторый факт обо мне. А точнее, моё желание🤫

Конечно, не все так эпично, как могло прозвучать😂. Но!
Я хочу разобраться с генеративными моделями, да все руки не доходят...

Вы могли заметить в instagram новый тренд, где на основе своего фото генерируют похожие изображения в стиле аниме. И вот именно сегодня я добралась до приложения loopsie (это не реклама, мне никто не заплатил) и успела поиграться с его бесплатной версией. Оно дало мне сгенерировать 6 фотографий, а при попытке сделать видос и снова загрузить фото попросило деньгу😟
Однако, мне понравились сгенерированные изображения) Прикреплю их ниже.

Хотя можно выделить несколько нюансов:
🖌 Руки, руки и ещё раз руки. На сколько я знаю, многим людям тяжело даётся рисовать кисти рук. И, видимо, моделькам тоже
🖌 Непонятные элементы одежды. То на футболке воротник как от рубашки, то водолазка взялась откуда ни возьмись, то наушники появляются случайным образом...
🖌 Почему-то на последнем изображении моделька перепутала мальчиков и девочек (слева стоим мы с Ритой, а справа Женя и Вова) 😐
🖌 К последнему изображению вообще много вопросов. Что с ногами у самой правой персоны?🤣 Если присмотреться, то можно понять, что левую ногу нужно было дорисовать сзади, а правую спереди. Моделька просто перепутала колени... А у Второго человека справа вообще непонятно, что с лицом (и это не потому, что фотография была сделана после посещения бара). Ну и опять же моделька забила на отрисовку кистей рук.

При всех этих недочётах я бы хотела уделить внимание тому, что на первой фотке нейроночка отчётливо сохранила буквы "ИжГТУ" 💙 за моей спиной. Ну и в принципе качество генерации различных деталей достаточно хорошее.

На этом мой обзор подходит к концу. Жаль, не затестила генерацию видосов (я просто хочу найти бесплатную версию, но вы так не делайте. Программистам нужно платить). Ставьте лайки, подписывайтесь на канал👍

Важное уточнение! Эта приложуха есть только под ios. Так что пользователи Android - ищите веб версии.

#diff
🔥3
А, ну да
Интересны ли Вам посты такого формата? Могу замутить какую-нибудь подборку прикольных моделек (на этот раз, доступные для всех, а не только для любителей айфонов😅)
Делать подборку прикольных нейронок?
Anonymous Poll
88%
ДА
12%
...
История о том, как я не попала на лекцию «Generative artificial intelligence models for high quality multimedia data fusion » на конференции Fall into ML 2023🤷‍♀️

В запаре учебы, домашки и работы я очередной раз забыла про существование этого канала (как и личной жизни в принципе). Однако, на рабочую почту пришло оповещение:
You have successfully registered for the Fall into ML 2023.
Date: 26 to 28 October 2023
Address: HSE University Cultural Centre
И тут я подумала, что было бы круто съездить развеяться, послушать других умных людей, узнать что-то новое для себя.
Тщательно просмотрела все расписание, выбрала интересные для себя лекции - это «Multimodal architectures - a way to artificial general intelligence » и, как я уже сказала, «Generative artificial intelligence models for high quality multimedia data fusion».
И вот лежу вчера вечером и осознаю, что первая лекция начинается в 10 утра, а мне нужно ехать в центр Москвы... Не долго думая, я сторговалась сама с собой, что мне нужно идти только на вторую лекцию (потому что только она по генеративкам, и только эта тема на текущем моменте меня интересует больше всего). Естественно, построив маршрут по Яндекс картам и просчитав необходимое время на путь, я спокойно ложусь спать.
Однако, никто не ожидал, что именно сегодня у меня проснется топографический кретинизм и я не смогу разобраться в какую сторону ехать в метро, в какую сторону идти и с какой стороны садиться на автобус..........
Время 11:50, лекция началась в 11:45, а я стою в 40 минутах ходьбы от места назначения....
Смысла идти на половину лекции я не увидела, поэтому приняла решение сходить вкусно покушать и возвращаться в лабу🥲

К счастью, у меня есть возможность сделать вторую попытку и прийти на стендовую сессию в субботу, но я уже приняла решение, что ТОЧНО не поеду одна...

Надеюсь, я смогу найти запись лекций и посмотреть их онлайн. Надеюсь, в субботу я доберусь до туда....

#dvizh
😢2
Так и добралась я в субботу до конференции😅

Успела сходить только на последнюю секцию Generative modeling and representation learning, в которой было 4 доклада про оптимальный транспорт 🙃 Я естественно ничего не поняла (все усложнилось тем, что выступления были полностью на английском). Пятым докладом должны были рассказать про Кандинского (единственное, на что у меня были большие ставки), однако не уложились во время и не успели🫤
Дальше была постерная сессия, на которой можно было снова послушать все представленные доклады и лично пообщаться с презентующими.
Тем не менее, я повидалась со своими друзьями с летней школы, узнала последние новости и
поела
В целом, было прикольно съездить развеяться. Но лично для меня данное мероприятие не прошло продуктивно(

#dvizh
❤‍🔥4
5👍2
Продолжая серию постов про базовую базу в ml, расскажу сегодня про ещё один вид нейронов☑️

В одном из постов я рассказывала, что их существует 3 вида - входной, скрытый и выходной. Однако, в нейронки обычно добавляют так называемый нейрон смещения (bias). Его особенность заключается в значении всегда равном единице. Также, bias имеет только выходные синапсы, исходя из чего такой тип нейронов можно поставить на входной и скрытые слои (если поставить на выходной слой, не к чему будет привязать выходные синапсы bias`а). Также, следует отметить, что нейроны смещения либо находятся в каждом скрытом и входом слое по одному, либо их вообще нет. Наличие bias является гиперпараметром модели.
Пример структуры простой модельки как обычно прикреплю к этому посту. Исходя из рисунка интуитивно понятно, что при подсчете веса следующего нейрона, нейрон смещения определяется как 1*wi, где wi - вес его синапса.

#about_ml
🔥3
Возникает вопрос, какое функциональное назначение у bias? С его помощью можно двигать функцию активации по оси Ox. Условно как в линейной алгебре: y=a*x+b, где a - вес нейрона, b - его смещение. Грубый, но показательный пример.
На картинке Вы можете видеть три разных графика сигмоиды с разными значениями смещения.
Делаем вывод, что с использованием bias получится захватить бо́льшую область точек для наших моделек. Другая полезная функция нейрона смещения: в случае, если на входном слое все нейроны получат 0, то и на их выходе, несмотря на любые значения их синапсов, они выдадут 0 - такую ситуацию как раз так и может компенсировать bias.

#about_ml
🔥6
Вы замечали, какая сегодня прекрасная погода?🌨

И именно в этот чудный день я хочу поделиться с Вами каналом своего коллеги, наставника и просто друга☀️
Илья пишет про множество интересных и необычных вещей. В его канале представлена часть его жизни, включая анекдоты, юмор, размышления, фотографии, путешествие и, конечно же, значительное количество контента, связанного с искусственным интеллектом.

Также, в его канале приветствуются шутки про медведей🐻

🦎https://news.1rj.ru/str/story_of_one_me🦎

#advert
4