Пару дней недель назад увидел просто бомбический пост от Бориса Цейтлина - “LLM это статистические попугаи или все-таки нет.”
Что бы это проверить, на вход к моделям подавали названия различных мест нашей планеты (города, достопремечательности итп). Оказалось что, пониженные через PCA до двумера эмбединги этих событий образуют карту земли - события произошедшие в европе находятся в компактном кластере, чуть "южнее" кластер африки, сборку северная и южная америка, а в другую сторону азия и в далеке океания - прям настоящая карта! (лучше чекните картинку в посте)
Разумеется тут есть небольшое читерство - это все верно с точностью до линейного преобразования - (их проще представлять как кобинация двух поворотов и растяжения) - но все равно)
Я решил посмотреть какую информацию содержат в себе эмбединги кода моделей - выкачал задачек по некоторым с архива codeforces, а так же их решения. Проделав аналогичные действия (но с моделью попроще - codebert), я обнаружил, что:
* Задачи их их решения разделились на 2 больших неоднородных кластера - ну это вроде очевидно
* Для задач внутри одной темы, вектор идущий от эмбединга решения к эмбедингу кода - плюс минус постоянный, а для задач разных тем он отличается на небольшой поворот. Получается что внутри модельки существует "вектор решения", прибавление которого к описанию задачи - дает его решение
Ссылка на исходную статью
Что бы это проверить, на вход к моделям подавали названия различных мест нашей планеты (города, достопремечательности итп). Оказалось что, пониженные через PCA до двумера эмбединги этих событий образуют карту земли - события произошедшие в европе находятся в компактном кластере, чуть "южнее" кластер африки, сборку северная и южная америка, а в другую сторону азия и в далеке океания - прям настоящая карта! (лучше чекните картинку в посте)
Разумеется тут есть небольшое читерство - это все верно с точностью до линейного преобразования - (их проще представлять как кобинация двух поворотов и растяжения) - но все равно)
Я решил посмотреть какую информацию содержат в себе эмбединги кода моделей - выкачал задачек по некоторым с архива codeforces, а так же их решения. Проделав аналогичные действия (но с моделью попроще - codebert), я обнаружил, что:
* Задачи их их решения разделились на 2 больших неоднородных кластера - ну это вроде очевидно
* Для задач внутри одной темы, вектор идущий от эмбединга решения к эмбедингу кода - плюс минус постоянный, а для задач разных тем он отличается на небольшой поворот. Получается что внутри модельки существует "вектор решения", прибавление которого к описанию задачи - дает его решение
Ссылка на исходную статью
🔥7
Кстати супер интересный кейс - в нем gpt3.5 показывает себя лучше на русском, чем на английском. А почему - домашнее задание
Отличный сервис который сделали ML-щики и урбанисты что бы показать как бы выглядела ваша улица, находись она в Нидерландах. Просто вводите адрес (можно на русском) и ИИ сам строит изображение. Например на фото выше всем известная физтехам Первомайская - улица напротив МФТИ.
Если этот пост наберет хотябы одну эмодзи с варламовым <или Гершманым или кем то еще> (или стикер в коменты) - сделаю подробный пост как это работает и как они обучали свою модельку.
Если этот пост наберет хотябы одну эмодзи с варламовым <или Гершманым или кем то еще> (или стикер в коменты) - сделаю подробный пост как это работает и как они обучали свою модельку.
👀5
Школа анализа данных (ШАД) и ФПМИ МФТИ приглашают вас принять участие в уникальном интенсиве, посвященном разработке и изучению GPT!
🚀 Что вас ждет на этом интенсиве? Вы погрузитесь в мир генеративных моделей, узнаете все о YandexGPT, его предобучении и alignment, а также о вызовах, связанных с сбором гигантских датасетов. Будет много практической работы и возможностей задать вопросы экспертам из команды YandexGPT.
🧠 Этот курс идеально подходит для тех, кто уже имеет базовые знания в области машинного обучения и хочет углубить свои знания в ML.
📅 Интенсив пройдет онлайн с 27 ноября по 1 декабря.
✅ Регистрация открыта до 23 ноября. Тык <-----
⚡А еще вы бесплатно получите доступ к датасфере - это как Google colab - но есть возможность выбрать значительно более мощные конфигурации с большим числом A100
🚀 Что вас ждет на этом интенсиве? Вы погрузитесь в мир генеративных моделей, узнаете все о YandexGPT, его предобучении и alignment, а также о вызовах, связанных с сбором гигантских датасетов. Будет много практической работы и возможностей задать вопросы экспертам из команды YandexGPT.
🧠 Этот курс идеально подходит для тех, кто уже имеет базовые знания в области машинного обучения и хочет углубить свои знания в ML.
📅 Интенсив пройдет онлайн с 27 ноября по 1 декабря.
✅ Регистрация открыта до 23 ноября. Тык <-----
⚡А еще вы бесплатно получите доступ к датасфере - это как Google colab - но есть возможность выбрать значительно более мощные конфигурации с большим числом A100
👍4❤2🔥1
Сори за еще одно уведомление, необходимое число реакций есть, более лакшери лагман в коментариях, там же условие на следующую картинку
Как то идея с лагманом очень зашла, мы собирали необходимое число реакции быстрее чем дифузия успевала генерировать картинки - что бы не засоряь этот канал - буду выкладывать посты в отдельном треде - подписывайтесь что бы не потерять (больше постов про лагманы в этом канале не будет, он продолжит быть серьезным))))
https://news.1rj.ru/str/lagmanlux/7
https://news.1rj.ru/str/lagmanlux/7
Telegram
Лакшери лагман
😎5
Кстати фан факт, по данным hh.ru средняя зарплата курьера в РФ больше чем зп айтишника, и вторая продолжает падать
dolgoprudniy.hh.ru
Обзор ИТ-отрасли по итогам первого полугодия: какие зарплаты платят и насколько сложно найти работу
Аналитики hh.ru провели анализ рынка труда ИТ-отрасли в России и выяснили, какие зарплаты предлагает бизнес ИТ-специалистам, как сильно отличаются ставки опытного и начинающего айтишника, компании из каких регионов готовы платить больше всего, а также насколько…
Отличное мероприятие от ODS и Reliable ML - FailConf - UnReliable ML - 9 декабря 2023
Офлайн митап про фейлы в ML проектах
Для участия необходима регистрация, сегодня последний день
Такие мероприятия - отличный способ скорее понетворкаться (в том числе и со мной😉), чем узнать что то новое, хотя такой смысл в них тоже есть)
Офлайн митап про фейлы в ML проектах
Для участия необходима регистрация, сегодня последний день
Такие мероприятия - отличный способ скорее понетворкаться (в том числе и со мной😉), чем узнать что то новое, хотя такой смысл в них тоже есть)
❤4
Нашел очень классный питоновский пакет - fuckit, с помощью него можно заставить питон просто игнорировать строки с ошибками и идти дальше (очень полезно, что бы не было случаев, когда запускаешь на ночь обучение скриптом, а оно вылетает в последний момент, потому что в предпоследней строчке, перед сохранением модели на диск у тебя идет push to hub с неправильным захардкоженым токеном)
А как оно рабоатет под капотом - буду рад услышать в коментариях.
А как оно рабоатет под капотом - буду рад услышать в коментариях.
⚡7❤2
Тык
Я пару дней назад наткнулся на этого чела на конфах и мне он безумно понравился. Очень интересно и дохотчиво обьсняет сложные моменты, с точки зрения нейрофизиологии обьясняет почему ЯП делают так как делают, а не наоборот. Я буквально пересмотрел все его выступления на всех конфах))).
Сам он питонист с огромным опытом и если интересно погрузить в недра питона - советую начать с этой конфы.
Я пару дней назад наткнулся на этого чела на конфах и мне он безумно понравился. Очень интересно и дохотчиво обьсняет сложные моменты, с точки зрения нейрофизиологии обьясняет почему ЯП делают так как делают, а не наоборот. Я буквально пересмотрел все его выступления на всех конфах))).
Сам он питонист с огромным опытом и если интересно погрузить в недра питона - советую начать с этой конфы.
YouTube
"Простой Python": ложь, большая ложь и метаклассы / Григорий Петров
Приглашаем на Moscow Python Conf 2023, которая пройдет 19 и 20 мая 2023 в Москве в рамках Positive Hack Days.
Программа, подробности и билеты по ссылке https://conf.python.ru/moscow/2023
--------
Moscow Python Conf++ 2021
Профессиональная конференция для…
Программа, подробности и билеты по ссылке https://conf.python.ru/moscow/2023
--------
Moscow Python Conf++ 2021
Профессиональная конференция для…
❤6