Forwarded from epsilon correct
This media is not supported in your browser
VIEW IN TELEGRAM
Выпустили первую стабильную версию Tensorflow-GNN 1.0! 🎅
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно🇷🇺 , приятно.
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.😛
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27🤡16 7👍4❤2🤮1
#чтивонаночь по быстрому
Челы из apple придумали sliding window c предиктером какие веса грузить и это ускорило инференс во много раз!
Папир
Челы из apple придумали sliding window c предиктером какие веса грузить и это ускорило инференс во много раз!
Папир
👍41👏5❤1
Forwarded from ML-легушька (Николай Кутузов)
Я сам знал много математиков, они все реально шизанутые. У них реально с головой не все в порядке, потому что они живут в каком-то своем мире, мире цифр. Они не разбираются вообще, что происходит в обществе, они не разбираются в политике например. Вспомните, есть ли хоть один политик, особенно революционер, который бы был математиком. Таких просто нет. Например, Ленин он был юристом, Че Гевара он был врачом. И ни одного революционера не было математика, ни одного! И это связанно именно с чертами характеров таких людей, потому что математики они полностью аполитичны. Поскольку произвести они ничего не могут, они полностью не способны к ручному труду, например. Им нужно чтобы за ними кто-то ухаживал, они большие дети, которые без помощи там мамы (обычно они живут с мамой до 50 лет) сами ничего сделать не могут.
Математика это совершенно не наука, абсолютно бесполезное хобби. Это люди, которые вот в силу своего характера, не хотят работать, не хотят бороться против капитализма за светлое будущее, им наплевать на всех людей. Они вот замкнуты в своей голове, и в своей голове они сидят высчитывают. Математика это переливание из пустого в порожнее.
Вот доказал ты какую-то теорему, кому нужна эта теорема? Что она дает людям? Да ничего она не дает, это просто разминка для ума и интеллектуальный онанизм, и вот математики они всю жизнь занимаются онанизмом и считают, что это нормально. Математики это вот реально зло, как и математика, математика это реально зло. Ее надо запретить, она приводит к тому, что люди сходят с ума.
Вот мужчины математики это да, это вот с лохматыми волосами сумасшедший профессор, который там может обоссаться и не заметить, и ходить в ссаных штанах, потому что он математик, он решает примеры. Математика это способ заставить народ отказаться от социальной борьбы. Если занять мозг человека этими бессмысленными вычислениями, то у него не остается времени и просто ресурсов мозга, мыслей не остается, чтобы задуматься - а почему нас угнетают капиталисты?
И ведь смотрите, это рассчитано именно на умных, на элиту, не на маргиналов. Как маргинализировать умного, талантливого, гениального человека? Заставить математикой заниматься! И причем смотрите, какая мощная манипуляция получается: он будет считать что он великий ученый, что он занимается наукой, он будет всем говорить - вот, смотрите, какой я пример решил, какую задачу решил, какой я умный. И он не будет понимать, что он просто поонанировал интеллектуально, и вся его эта задачка она не нужна, понимаете, просто не нужна.
В советские годы тоже насаждали математику, чтобы народ меньше занимался свободомыслием, и вот этот спор из 60ых годов про лириков и физиков. Физики, вас гораздо меньше, вы единицы, вы маргиналы, и вы не нужны. Победа будет за лириками, за теми, кто хочет любить, кто хочет чувствовать, кто хочет быть человеком, а не вычислительной машиной.
Заберите свою математику, и засуньте ее себе в одно место, и не пихайте ее нам - нам она не нужна!
Математика это совершенно не наука, абсолютно бесполезное хобби. Это люди, которые вот в силу своего характера, не хотят работать, не хотят бороться против капитализма за светлое будущее, им наплевать на всех людей. Они вот замкнуты в своей голове, и в своей голове они сидят высчитывают. Математика это переливание из пустого в порожнее.
Вот доказал ты какую-то теорему, кому нужна эта теорема? Что она дает людям? Да ничего она не дает, это просто разминка для ума и интеллектуальный онанизм, и вот математики они всю жизнь занимаются онанизмом и считают, что это нормально. Математики это вот реально зло, как и математика, математика это реально зло. Ее надо запретить, она приводит к тому, что люди сходят с ума.
Вот мужчины математики это да, это вот с лохматыми волосами сумасшедший профессор, который там может обоссаться и не заметить, и ходить в ссаных штанах, потому что он математик, он решает примеры. Математика это способ заставить народ отказаться от социальной борьбы. Если занять мозг человека этими бессмысленными вычислениями, то у него не остается времени и просто ресурсов мозга, мыслей не остается, чтобы задуматься - а почему нас угнетают капиталисты?
И ведь смотрите, это рассчитано именно на умных, на элиту, не на маргиналов. Как маргинализировать умного, талантливого, гениального человека? Заставить математикой заниматься! И причем смотрите, какая мощная манипуляция получается: он будет считать что он великий ученый, что он занимается наукой, он будет всем говорить - вот, смотрите, какой я пример решил, какую задачу решил, какой я умный. И он не будет понимать, что он просто поонанировал интеллектуально, и вся его эта задачка она не нужна, понимаете, просто не нужна.
В советские годы тоже насаждали математику, чтобы народ меньше занимался свободомыслием, и вот этот спор из 60ых годов про лириков и физиков. Физики, вас гораздо меньше, вы единицы, вы маргиналы, и вы не нужны. Победа будет за лириками, за теми, кто хочет любить, кто хочет чувствовать, кто хочет быть человеком, а не вычислительной машиной.
Заберите свою математику, и засуньте ее себе в одно место, и не пихайте ее нам - нам она не нужна!
😁74🤡49 25 13👍9👎4🤩3❤2👏2🤔1
Forwarded from Сломанные пляски
Новый Брокен Дэнс — про Муджуса 💗
Для меня «Downshifting» Муджуса всегда будет тем альбомом, с которого в российской музыке официально закончились 2000-е и начались 2010-е.
Я прекрасно помню «Афишу» с Романом на обложке, где было написано, что он новый Цой (фотография, кстати, Гоши Рубчинского). Покадрово знаю клип «Выздоравливай скорей». И благодарен людям, которые почти целиком засняли для ютуба выступление Муджуса на Пикнике-2011 — неровное, неидеальное, стеснительное, но хорошо схватившее энергию Романа в тот момент.
Мне всегда нравилось думать про этот альбом как про отложенную смску, которая дошла до адресатов («адресантов», сказал бы Муджус) сильно позже, но вдохновила целое поколение следующих музыкантов (от Петара Мартича до Куока) на собственные опыты с песнями.
Про все это рассказываю в новой серии «Базы». Таким выпуском не стыдно закончить год, но закончу все-таки другим.
Спасибо главному евангелисту Муджуса в России Саше Горбачеву за то, что принял участие в видео. Подписывайтесь на его канал @musicinanutshell и слушайте его прекрасный подкаст «Он увидел солнце».
Приятного просмотра!
https://youtu.be/kHAzkHYVNYg
Для меня «Downshifting» Муджуса всегда будет тем альбомом, с которого в российской музыке официально закончились 2000-е и начались 2010-е.
Я прекрасно помню «Афишу» с Романом на обложке, где было написано, что он новый Цой (фотография, кстати, Гоши Рубчинского). Покадрово знаю клип «Выздоравливай скорей». И благодарен людям, которые почти целиком засняли для ютуба выступление Муджуса на Пикнике-2011 — неровное, неидеальное, стеснительное, но хорошо схватившее энергию Романа в тот момент.
Мне всегда нравилось думать про этот альбом как про отложенную смску, которая дошла до адресатов («адресантов», сказал бы Муджус) сильно позже, но вдохновила целое поколение следующих музыкантов (от Петара Мартича до Куока) на собственные опыты с песнями.
Про все это рассказываю в новой серии «Базы». Таким выпуском не стыдно закончить год, но закончу все-таки другим.
Спасибо главному евангелисту Муджуса в России Саше Горбачеву за то, что принял участие в видео. Подписывайтесь на его канал @musicinanutshell и слушайте его прекрасный подкаст «Он увидел солнце».
Приятного просмотра!
https://youtu.be/kHAzkHYVNYg
YouTube
Как МУДЖУС научил нас чувствовать / БАЗА
Оформите Тинькофф Платинум и получите 1000 рублей за покупки от 3000 — https://l.tinkoff.ru/brokendancedec
Пробуй максимум всего за 399 руб! 50 гигов, 2000 минут и безлимитные приложения. Можно. Yota https://clck.ru/37Keii
мой ТГ-канал Сломанные Пляски…
Пробуй максимум всего за 399 руб! 50 гигов, 2000 минут и безлимитные приложения. Можно. Yota https://clck.ru/37Keii
мой ТГ-канал Сломанные Пляски…
❤31 4👎1🤔1🤮1
Love. Death. Transformers.
midjourney v6 > dalle3 foxes running away from a nuclear explosion with a fighter jet overhead and mushrooms in the foreground вообще очень интересно что у них с текстовым энкодером, прошлые версии были на CLIP, а вот что с будущей хз(т5?)
Доехал релиз mj v6
- т5 как энкодер, твердо и четко
- 2.7x медленнее*
- т5 как энкодер, твердо и четко
- 2.7x медленнее*
❤31👍5 3
тред статей 2023
закидывайте статьи с которыми по вашему мнению должны ознакомиться спецы из других областей
закидывайте статьи с которыми по вашему мнению должны ознакомиться спецы из других областей
🔥30 2 1
Forwarded from Lexi Bender
Привет!
Хочу запоздало поделиться релизом OpenMetricLearning (https://github.com/OML-Team/open-metric-learning) 2.0!
Это библиотека для тренировки deep learning моделей, представляющих ваши данные как вектора.
А ещё, у нас есть зоопарк предобученных моделек для картинок, DDP, много примеров и доков.
Что нового в релизе?
- Переехали на PyTorch 2.0 (было изи) & Lightning 2.0 (было больно)
- Уменьшили количество зависимостей, которые ставятся через pip
- Сделали стабильную поддержку всех актуальных версий Python: теперь CI/CD гоняет тесты на всём -- 3.8 , 3.9, 3.10, 3.11
- Пофиксили мелкие неприятные баги, причесали документацию, упростили запуск пайплайнов на публичных датасетах (InShop, Stanford Online Products, CARs, CUB)
Надеемся, что все эти изменения сделают OML более удобным для вкатывания.
Ваши ⭐️ на GitHub очень приветствуются!
Хочу запоздало поделиться релизом OpenMetricLearning (https://github.com/OML-Team/open-metric-learning) 2.0!
Это библиотека для тренировки deep learning моделей, представляющих ваши данные как вектора.
А ещё, у нас есть зоопарк предобученных моделек для картинок, DDP, много примеров и доков.
Что нового в релизе?
- Переехали на PyTorch 2.0 (было изи) & Lightning 2.0 (было больно)
- Уменьшили количество зависимостей, которые ставятся через pip
- Сделали стабильную поддержку всех актуальных версий Python: теперь CI/CD гоняет тесты на всём -- 3.8 , 3.9, 3.10, 3.11
- Пофиксили мелкие неприятные баги, причесали документацию, упростили запуск пайплайнов на публичных датасетах (InShop, Stanford Online Products, CARs, CUB)
Надеемся, что все эти изменения сделают OML более удобным для вкатывания.
Ваши ⭐️ на GitHub очень приветствуются!
GitHub
GitHub - OML-Team/open-metric-learning: Metric learning and retrieval pipelines, models and zoo.
Metric learning and retrieval pipelines, models and zoo. - OML-Team/open-metric-learning
🔥35👍7 3
в сегодня лет я узнал о существовании gradient_penalty для diffusion
Forwarded from gonzo-обзоры ML статей
For Distillation, Tokens Are Not All You Need
Mrigank Raman, Pranav Mani, Davis Liang, Zachary C. Lipton
Статья: https://openreview.net/pdf?id=2fc5GOPYip
Новости дистилляции. Статья с воркшопа Instruction Tuning and Instruction Following на NeurIPS 2023.
TL;DR Авторы предложили метод дистилляции LLM под названием SLIM, использующий значения топ 5% логитов для дистилляции на каждом шаге декодирования + динамическое взвешивание KL/CE лоссов. Результат лучше классической дистилляции, SFT и MiniLLM. Метод скейлится до учителей размером ~70B.
Если поглубже, то современные LLM доросли до огромных размеров и часто используются для аннотирования и генерации инструкций для файнтюнинга малых моделей. Классика файнтюнинга при этом -- supervised fine-tuning (SFT), дообучение на новых (сгенерированных) текстах как на hard labels. Мы знаем, что этот метод несёт сильно меньше информации о распределении, чем мог бы (https://news.1rj.ru/str/gonzo_ML/1911).
Дистилляция уже используется для LLM (и многие маленькие LLM получаются из больших, та же Gemini вроде как) и с ней есть сложности. Например, маленькая модель может быть недостаточно выразительной, чтобы покрыть все моды распределения учителя.
Недавний метод MiniLLM (https://arxiv.org/abs/2306.08543) заменяет forward Kullback-Leibler divergence (KLD) на reverse KLD, чтобы предотвратить переоценку студентом низковероятностных регионов распределения учителя. Там для обучения использовался RL, что добавляло сложности. Текущая работа всё упрощает и улучшает, подход назвали SLIM (Sparse Logit Infused Modeling).
Идея проста. Давайте по нашему датасету для обучения через модель-учителя создадим датасет логитов (выходы нейронов без применения функции активации). Для каждого токена в последовательности получаем соответственно V (размер словаря) значений, это будут soft targets. Проблема с таким подходом, что это требует дофига места. Для уменьшения требований предлагается взять только 5% максимальных логитов для каждого токена, остальные считать нулями, так получаются разреженные логиты.
Дальше запускаем процедуру дистилляции (для тех, кто забыл как это работает, можно почитать тут https://news.1rj.ru/str/gonzo_ML/118), где в качестве целей берутся soft targets и лосс, являющийся взвешенной суммой обычного кросс-энтропийного лосса (CE) и традиционного KL лосса. Вес KD лоссу даётся зависящий от соотношения логита учителя и студента, таким образом он получается адаптивным и у KL компоненты больше вклад, когда у учителя больше уверенность в предсказании, чем у студента.
Подход проверили на задачах следования инструкциям. Оценивали по Rouge-L и через фидбек от GPT-4. Сравнивались с SFT на hard labels и MiniLLM, для обучения использовали 7B модели LLaMA, LLaMA 2, MPT, учитель был 13-30B. SLIM даёт результат лучше бейзлайнов. SFT вообще хуже всех.
Затем проверили на downstream задачах: ARC, Hellaswag, MMLU, TruthfulQA. Здесь сравнивались с SFT на LLaMA 2 70B в качестве учителя и Llama2-7B в качестве студента. Тоже лучше.
Также проверили генерацию данных для предобучения. Взяли Pythia-6.9B и сгенерили ей датасет текстов + 5% логитов. Затем обучили случайно инициализированную Pythia-160M на подвыборках датасета разного размера. По графику перплексии показали, что SLIM более sample efficient, чем SFT и обычная дистилляция. Я тут не до конца понимаю, что именно они всё-таки под обычной дистилляцией подразумевают, более классический KL лосс чтоли и без топ 5%?
Anyway, просто и эффективно. Метод вроде не сильно отличается от классической дистилляции, не назвал бы его радикально новым, по мне так скорее итеративное улучшение. Интересно, как сами OpenAI, Гугл и остальные внутри себя модели дистиллируют. Есть ли большая разница.
Mrigank Raman, Pranav Mani, Davis Liang, Zachary C. Lipton
Статья: https://openreview.net/pdf?id=2fc5GOPYip
Новости дистилляции. Статья с воркшопа Instruction Tuning and Instruction Following на NeurIPS 2023.
TL;DR Авторы предложили метод дистилляции LLM под названием SLIM, использующий значения топ 5% логитов для дистилляции на каждом шаге декодирования + динамическое взвешивание KL/CE лоссов. Результат лучше классической дистилляции, SFT и MiniLLM. Метод скейлится до учителей размером ~70B.
Если поглубже, то современные LLM доросли до огромных размеров и часто используются для аннотирования и генерации инструкций для файнтюнинга малых моделей. Классика файнтюнинга при этом -- supervised fine-tuning (SFT), дообучение на новых (сгенерированных) текстах как на hard labels. Мы знаем, что этот метод несёт сильно меньше информации о распределении, чем мог бы (https://news.1rj.ru/str/gonzo_ML/1911).
Дистилляция уже используется для LLM (и многие маленькие LLM получаются из больших, та же Gemini вроде как) и с ней есть сложности. Например, маленькая модель может быть недостаточно выразительной, чтобы покрыть все моды распределения учителя.
Недавний метод MiniLLM (https://arxiv.org/abs/2306.08543) заменяет forward Kullback-Leibler divergence (KLD) на reverse KLD, чтобы предотвратить переоценку студентом низковероятностных регионов распределения учителя. Там для обучения использовался RL, что добавляло сложности. Текущая работа всё упрощает и улучшает, подход назвали SLIM (Sparse Logit Infused Modeling).
Идея проста. Давайте по нашему датасету для обучения через модель-учителя создадим датасет логитов (выходы нейронов без применения функции активации). Для каждого токена в последовательности получаем соответственно V (размер словаря) значений, это будут soft targets. Проблема с таким подходом, что это требует дофига места. Для уменьшения требований предлагается взять только 5% максимальных логитов для каждого токена, остальные считать нулями, так получаются разреженные логиты.
Дальше запускаем процедуру дистилляции (для тех, кто забыл как это работает, можно почитать тут https://news.1rj.ru/str/gonzo_ML/118), где в качестве целей берутся soft targets и лосс, являющийся взвешенной суммой обычного кросс-энтропийного лосса (CE) и традиционного KL лосса. Вес KD лоссу даётся зависящий от соотношения логита учителя и студента, таким образом он получается адаптивным и у KL компоненты больше вклад, когда у учителя больше уверенность в предсказании, чем у студента.
Подход проверили на задачах следования инструкциям. Оценивали по Rouge-L и через фидбек от GPT-4. Сравнивались с SFT на hard labels и MiniLLM, для обучения использовали 7B модели LLaMA, LLaMA 2, MPT, учитель был 13-30B. SLIM даёт результат лучше бейзлайнов. SFT вообще хуже всех.
Затем проверили на downstream задачах: ARC, Hellaswag, MMLU, TruthfulQA. Здесь сравнивались с SFT на LLaMA 2 70B в качестве учителя и Llama2-7B в качестве студента. Тоже лучше.
Также проверили генерацию данных для предобучения. Взяли Pythia-6.9B и сгенерили ей датасет текстов + 5% логитов. Затем обучили случайно инициализированную Pythia-160M на подвыборках датасета разного размера. По графику перплексии показали, что SLIM более sample efficient, чем SFT и обычная дистилляция. Я тут не до конца понимаю, что именно они всё-таки под обычной дистилляцией подразумевают, более классический KL лосс чтоли и без топ 5%?
Anyway, просто и эффективно. Метод вроде не сильно отличается от классической дистилляции, не назвал бы его радикально новым, по мне так скорее итеративное улучшение. Интересно, как сами OpenAI, Гугл и остальные внутри себя модели дистиллируют. Есть ли большая разница.
👍13❤5 3
Корпоративная культура и бесплатные обеды
Многие компании покупают лояльность начинающих спецов простыми хаками - когда ты на втором курсе бесплатный обед в красивом офисе весомый аргумент чтобы выбрать компанию R а не B, а там глядишь и проработает десяток лет без вылазно, сами вырастим, потом ипотеку поближе к работе поможем взять, а это ещё лет на 10.
Ладно, я гиперболизирую, но суть понятна.
А дальше начинаются увлекательные финты: ну это, мы тут тебе акций отсыпем(сумма < Годового оклада) ну там на коэф надо поработать, тут команду потыкать. - если вы редкий специалист или перформите значимо лучше других.
А обычно: обеды по бейджу и 5% скидка на подписку на Психолога (самого дешёвого)
А потом ты узнаешь что коллега умирает в 32 от инсульта.
В компании забудут и забьют, умер и умер, неприятно конечно, тасочки в джире двигать некому будет, ну да ладно, наймут нового зубастого или кому то работы подкинет. Похуй, так поедет.
Лояльность компании не оплачивается, вас бросят с вашими проблемами как только вы перестанете быть выгодным.
Не работайте на выходных.
Не думайте по ночам как улучшить ваше суб оптимальное решение.
Бессовестно украдено из старого чата канала.
Многие компании покупают лояльность начинающих спецов простыми хаками - когда ты на втором курсе бесплатный обед в красивом офисе весомый аргумент чтобы выбрать компанию R а не B, а там глядишь и проработает десяток лет без вылазно, сами вырастим, потом ипотеку поближе к работе поможем взять, а это ещё лет на 10.
Ладно, я гиперболизирую, но суть понятна.
А дальше начинаются увлекательные финты: ну это, мы тут тебе акций отсыпем(сумма < Годового оклада) ну там на коэф надо поработать, тут команду потыкать. - если вы редкий специалист или перформите значимо лучше других.
А обычно: обеды по бейджу и 5% скидка на подписку на Психолога (самого дешёвого)
А потом ты узнаешь что коллега умирает в 32 от инсульта.
В компании забудут и забьют, умер и умер, неприятно конечно, тасочки в джире двигать некому будет, ну да ладно, наймут нового зубастого или кому то работы подкинет. Похуй, так поедет.
Лояльность компании не оплачивается, вас бросят с вашими проблемами как только вы перестанете быть выгодным.
Не работайте на выходных.
Не думайте по ночам как улучшить ваше суб оптимальное решение.
Бессовестно украдено из старого чата канала.
👍119😢41 8❤4👎4😁3🤔2 2🔥1👏1
Forwarded from Техножрица 👩💻👩🏫👩🔧
Нашла канал журнала "КВАНТ":
https://news.1rj.ru/str/kvant_magazine
В основном там выкладываются новые номера журналов и делаются репосты из других каналов, связанных с математикой - чаще всего с школьной олимпиадной. Есть и объявления о новых конкурсах по решению олимпиадных задач.
Примеры постов:
🌟 Сентябрьский выпуск "КВАНТа" этого года в pdf - https://news.1rj.ru/str/kvant_magazine/135 . Не знала, что теперь pdf-ки так быстро выкладываются;
🌟 Декабрьский номер "Квантика" - https://news.1rj.ru/str/kvant_magazine/123 (это журнал, напоминающий "КВАНТ", но меньше по объему и с намного более простыми задачами и статьями);
🌟 Кратко о том, какие новые математические этюды появились в этом году https://news.1rj.ru/str/kvant_magazine/80 (репост);
🌟 Список избранных постов профессора Виктора Губы, собранных в его память (умер в этом месяце, к сожалению) - https://news.1rj.ru/str/kvant_magazine/130 (репост). Там есть темы чуть посложнее; собираюсь почитать про Банаха-Тарского и трансцендентность.
🌟 Объявление о конкурсе для школьников (уже просроченное; привела для примера) - https://news.1rj.ru/str/kvant_magazine/101
---
Журнал КВАНТ был одним из тех источников информации, с которых началось мое увлечение математикой. Где-то лет пятнадцать-семнадцать назад, когда была подростком, я выписывала этот журнал по почте (не электронной) и была очень рада каждый раз, когда он приходил. А ещё время от времени решала задачи из "Задачника КВАНТа" и отправляла их в редакцию на проверку. Однажды в ответ мне даже прислали маленькую брошюрку по математике за мои решения. Это очень приятное воспоминание. Рада, что журнал продолжают выпускать (а ведь ему уже больше 50 лет).
#математика
https://news.1rj.ru/str/kvant_magazine
В основном там выкладываются новые номера журналов и делаются репосты из других каналов, связанных с математикой - чаще всего с школьной олимпиадной. Есть и объявления о новых конкурсах по решению олимпиадных задач.
Примеры постов:
---
Журнал КВАНТ был одним из тех источников информации, с которых началось мое увлечение математикой. Где-то лет пятнадцать-семнадцать назад, когда была подростком, я выписывала этот журнал по почте (не электронной) и была очень рада каждый раз, когда он приходил. А ещё время от времени решала задачи из "Задачника КВАНТа" и отправляла их в редакцию на проверку. Однажды в ответ мне даже прислали маленькую брошюрку по математике за мои решения. Это очень приятное воспоминание. Рада, что журнал продолжают выпускать (а ведь ему уже больше 50 лет).
#математика
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥9🤮2
Forwarded from Pavel Zloi
Всем привет! Хочу рассказать про ещё одну обученную мною модель под названием PavelGPT-7B-128K-v0.1-LoRA, на этот раз я взял скрипты Saiga (rulm) и модифицировал их таким образом, чтобы получить языковую модель типа INSTRUCT, но с данными оформленными в виде чата (для того чтобы её было легко использовать в связке с проектами типа text-generation-webui).
В качестве основы взял Yarn-Mistral-7b-128k, а датасеты собирал таким образом, чтобы модель могла не только решать базовые задачи, но и отгадывать загадки, а ещё решать несложные математические задачки, писать небольшие тексты, составлять оглавление и создавать простые скрипты.
Вот все ссылочки, которые могут пригодиться:
- скрипт обучения модели
- отчёт обучения на wandb
- тестовые ответы модели в карточке на huggingface
- скрипт запуска модели
PS. Мне давно хотелось сделать себе чуть более умного помощника для работы с документацией которую я храню в Obsidian и пока что впечатления от использования данной модели более приятные чем от предыдущих моих экспериментов.
Надеюсь вам данная моделька тоже окажется полезной :)
#ai #saiga #gpt
В качестве основы взял Yarn-Mistral-7b-128k, а датасеты собирал таким образом, чтобы модель могла не только решать базовые задачи, но и отгадывать загадки, а ещё решать несложные математические задачки, писать небольшие тексты, составлять оглавление и создавать простые скрипты.
Вот все ссылочки, которые могут пригодиться:
- скрипт обучения модели
- отчёт обучения на wandb
- тестовые ответы модели в карточке на huggingface
- скрипт запуска модели
PS. Мне давно хотелось сделать себе чуть более умного помощника для работы с документацией которую я храню в Obsidian и пока что впечатления от использования данной модели более приятные чем от предыдущих моих экспериментов.
Надеюсь вам данная моделька тоже окажется полезной :)
#ai #saiga #gpt
👍35🤮11🤡4❤2👎1🔥1😁1🤯1