Магия данных | Артур Сапрыкин – Telegram
Магия данных | Артур Сапрыкин
906 subscribers
329 photos
57 videos
9 files
316 links
Канал Артура Сапрыкина.
- Основатель и CEO Maglosya (@maglosya)
- Создаю со своей командой AI/ML-проекты
- Преподаватель, автор курсов
- Исследователь ML и AI.

Сайт: https://arthursaprykin.ru/

По вопросам сотрудничества пишите мне: @arthur_saprykin
Download Telegram
Готовимся к старту, через час встречаемся 🤗
5🥰4
Состоялась чудесная и познавательная беседа про NLP общем и про курс.
Рассказывал про некоторые подходы и задачи в направлении обработки естественного языка.

Раскрыл краткую историю моделей GPT и немного ИИ (в контексте анализа текстов), а также ответил на вопросы по особенностям подходов этого направления.

Конечно, ещё ответил на вопросы по курсу, рассказал про интересующие детали, идею.

Спасибо участникам! 🌞

-------------

Стоимость курса 12 000 рублей до ЗАВТРА, а дальше уже 15 000 рублей!

Поэтому пишите мне в личку - @arthur_saprykin

Буду рад вам 🌟
3👍1👏1
Действительно, такое рвение можно назвать тенденцией среди большинства начинающих 😌
Forwarded from Data Secrets
POV: к вам в команду пришел джун и пытается решить все задачи нейронками
😁12
Магия данных | Артур Сапрыкин
Одни из моментов, которые приносят мне радость - это успехи моих учеников. В эти выходные, команда из моих учеников заняла 2е место на хакатоне за NLP-решение. Это меня очень радует, и хочу поделиться этой радостью с вами! В очередной раз убеждаюсь, что…
Помните, я сентябре рассказывал, как мои ученики заняли второе место на всероссийском хакатоне?

Так вот, ребята тем же составом в апреле заняли уже третье место (крррррасаачики ⚡️), решив задачу семантической классификации документов.

Очень круто видеть, когда развитие продолжается уже в решении практических задач 🦾

Давайте поздравим ребят огоньками 🔥
🔥21🏆3👍1🎉1
Статья из серии «GPT для самых маленьких», где тезисно, но понятно, рассказывается про то, что такое трансформер, и как с помощью Keras собрать свой GPT.

Начинающим будет интересно (тем более мануал несложно воспроизвести на домашнем компьютере), а тем, кто в теме должно смутить отсутствие, как описания, так и наличия в коде слоя Positional Encoding. А он имеет важное значение в трансформерах.

Кто решит реализовать у себя представленную архитектуру, то можете добавить как раз слой позиционного кодирования. Можете потом поделиться результатами в комментариях 😉

Также напомню, что сегодня ПОСЛЕДНИЙ день, когда стоимость курса 12 000 рублей.
Завтра уже полная стоимость 15 000 рублей!

Поэтому желающие - велком в личку - @arthur_saprykin

Всем хорошего дня ☀️
🔥4👌1
1 час - 2 место в конкурсе 🏆

В конце 2021 года проходил конкурс ПРО//ЗНАНИЕ, который был саттелитом большего конкурса UpGREAT ПРО//ЧТЕНИЕ (о нём в следующем посте).

В ПРО//ЗНАНИИ нужно было построить классификатор наличия фактических ошибок в тексте.

И речь шла не только про правописание и пунктуацию :)

В текстах нужно было обнаружить фактологические и логические ошибки, в том числе. Были ещё более специфичные и мелкие классы, но перечень будет более длинный 🥱.

Прочитал описание задачи, и решил, что смогу её сделать быстро и легко.

В действительности, что удивило сильно, я смог собрать сильный классификатор за 1 час!!!

Для этого понадобился сентенс энкодер, специфический подход перекодировки отдельных предложений и стыковка воедино, а затем сверху SVM (вообще, я его до сих пор люблю применять для некоторых задач).

Получив чудесные метрики на тесте, я был допущен до финальных испытаний, где в режиме онлайн, нужно было применить классификатор, и сбросить решение.

Результаты финалистов быстро показали, и моё решение было на 4м месте (вроде). И тут я махнул рукой, мол не страшно, интересный был эксперимент, но через месяц мне звонок.... 🤔

Сказали, приходите на награждение. 😲
Я не хотел идти сначала, но в итоге пошёл, и был крайне приятно удивлён, что ответы моего классификатора получились отличными!
В итоге занял 2е место 🦾

Почему сразу не показал метрики выше? Не знаю, может быть ошибки в изначальной разметке были 🤷‍♂️ но лидерборд сильно изменился в день награждения.

Особенно было приятно получать награду от уважаемого Константина Воронцова 🤝 (надеюсь, здесь все знают, кто это).

--------------

Ну и часики тикают, и натикали финальную стоимость курса!

Теперь стоимость 15 000 рублей, друзья!

Набор продолжается, а все участники уже получат приглашения и доступы уже в ближайший понедельник (22.04).

По вопросам участия и приобретения курса, пишите мне - @arthur_saprykin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍41
Друзья из Санкт-Петербурга!

Сегодня вечером оффлайн в 19 часов пройдёт интересное мероприятие про факапы от моих друзей из ProIT Fest.

По промокоду PROIT24 вы приобретёте билет БЕСПЛАТНО.

Поэтому приходите!
Учиться на чужих ошибках лучше, чем на своих)
👍1
Forwarded from ProIT Fest
🍻Обсудите свои факапы за бокалом пива в кругу единомышленников

☝🏻
Здесь каждый сможет высказаться о своих ошибках, и вместо проблем получить поддержку, победив синдром самозванца.

А за лучшие истории мы подарим памятные призы!

👉 Регистрация тут
Напоминаем, что билет на Летний ProIT Fest - ваш бесплатный проездной и доступ в закрытый чат участников.
Please open Telegram to view this post
VIEW IN TELEGRAM
Только ленивый не сказал, и я скажу, что вчера вышла Llama 3 (ныне SOTA по бенчмаркам) на 8B и 70B параметров.

Длина контекста 8К
Поддерживает 30 языков

HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
Blog: https://ai.meta.com/blog/meta-llama-3/

Говорят, что ещё 400В обучают (но не сейчас, модель у бабушки в деревне 😀), так что посмотрим, что она будет вытворять 🙂
👍4
Некоторые темы рвут крышу 😂

но по честному, стоит попробовать 70B
👍1
а на www.llama2.ai можно и с 70B поиграть)
😁4
This media is not supported in your browser
VIEW IN TELEGRAM
наши роботы передают приветы капче (🖕)
🔥5
Узнаёте себя? 😂
👍6😁4
Магия данных | Артур Сапрыкин
1 час - 2 место в конкурсе 🏆 В конце 2021 года проходил конкурс ПРО//ЗНАНИЕ, который был саттелитом большего конкурса UpGREAT ПРО//ЧТЕНИЕ (о нём в следующем посте). В ПРО//ЗНАНИИ нужно было построить классификатор наличия фактических ошибок в тексте. …
Гордость и обида

До этого писал выше про призовое второе место на ПРО//ЗНАНИИ, а также про то, что это предшествовало участию в конкурсе ПРО//ЧТЕНИЕ.

Так вот, задача на конкурсе была очень сложной, от того и очень интересной!!!
И да, призовой фонд был 100 000 000 рублей 😍 (да, в нулях не ошибся 😃)

Все вы знаете про ЕГЭ, и что есть часть С, где школьники должны написать сочинение (если мы не про математику или естественно научные дисциплины говорим).
На конкурсе предлагались тексты сочинений по дисциплинам: русский язык, обществознание, история и литература.

Необходимо было создать систему, которая должна была самостоятельно выделять участок текста, а затем классифицировать по одному или нескольким классам, которые характеризуют как-то этот участок или содержат какую-то ошибку.

Классов было много, данных мало, всё как мы любим.
Приступил к задаче поздно, и у меня была неделя для того, чтобы пройти квалификационные испытания.

В итоге, мне удалось собрать сильное решение, за счёт иерархического моделирования, и на всех тестах на квалификации результаты были на высшем уровне!

ПРОДОЛЖЕНИЕ В СЛЕДУЮЩЕМ ПОСТЕ 👇🏼
🔥3👍1
Гордость и обида (продолжение)

Дальше был финал.
Попали 5 команд, где с самого утра до вечера, наши сервисы должны были принимать, а затем обрабатывать поступающие документы.

Условие было такое, чтобы полноценный анализ и подготовка разметки нашими решения проходили максимум до 60 секунд.

Наверное, я никогда раньше не был так приклеен к компьютеру, чтобы следить за состоянием сети и сервиса.
Был даже инцидент, когда система с ошибкой принимала разметки по «литературе» от меня, но вопрос решили, так как косяк был на стороне принимающей системы.

Долго ждали результатов, но в конце концов стало известно, что я занял 3е место 🏆, меня обошли 2 компании.

2е место было достаточно близко по метрикам к моему решению, а 1е место сильно выделялось на нашем фоне.
Действительно, достойная работа. 👍🏼

Конечно, было обидно, что призовой фонд весь достался только первому месту, а нам только дипломы дали, НО насколько я горжусь тем, что удалось собрать отличное решение для такой сложной задачи всего за неделю!

Один из уроков для меня тогда стал, что нужно всё-таки больше времени уделять на соревнование. 📝
👍4🔥3
Магия данных | Артур Сапрыкин
Анонсирую мощный курс "Основы NLP. Общая теория и практика" ⚡️⚡️⚡️. В рамках курса рассмотрим различные направления обработки естественного языка от классических подходов до самых современных. Мы рассмотрим, какие задачи решает направление NLP, что уже…
В понедельник уже официально стартует курс "Основы NLP. От Теории к Практике".

Ребята уже приглашены в общую группу потока.
Создалась душевная и веселая обстановка и компания 🌟🦾🔥
Все общаются, знакомятся, и, как оказалось, немало общего друг с другом (кстати, такие особенности всегда наблюдаются 🙂 )

Набор ещё продолжается, поэтому буду рад пополнениям в наши ряды 🕶️

Стоимость курса 15 000 рублей.

По вопросам участия и приобретения курса, пишите мне - @arthur_saprykin
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Наше первое занятие завершилось успешно 🤩
🔥15