Плохой пм: ставит сроки точь в точь
Хороший пм: закладывает три дня к исходной оценке чтобы отдать все за пару дней до дедлайна и попросить премию
Хороший пм: закладывает три дня к исходной оценке чтобы отдать все за пару дней до дедлайна и попросить премию
🔥35👎1
#чтивонаночь
Мы тут в чате канала запустили цикл пересказов статей от подписчиков и первым стал Монета. Гений, бедный безработный студент и любитель поней.
https://monetka.name/
Велкам как говорится!
Что же, господа и дамы, раз наш чат официально LGBTQOPRTS+-, то на связанную с этой темой статью сегодня и будет мой скромный обзор.
А конкретно - Perturbation Augmentation for Fairer NLP(https://arxiv.org/pdf/2205.12586v1.pdf) от всеми (не)любимой Меты!
Какая перед нами встаёт проблема? Та же, что и всегда, друг мой.
УГНЕТЕНИЕ МЕНЬШИНСТВ
Да-да! Наш мир наполнен расизмом, женоненавистничеством, и всяким другим нехорошим, но чего полно в сетах на обучении. Особенно, в сетах на обучение текстовых моделей, ога.
И модели, суки эдакие, любят выучить то, что неграм место на кухне, а бабе - на плантации.
Мы же не хотим, чтобы у нас модель выучилась и стала предвзятой в сторону расизма? (Надеюсь?..)
Поэтому, люди начали искать способы избежать такого мерзкого биаса (в этом поиске, кхе-кхе, успел немного поучавствовать и ваш скромный монета, https://aivsbias.feather.cloudns.cl/ https://github.com/mmkuznecov/AIvsBIAS)
Однако, в первую очередь эти попытки были связаны с тем, чтобы каким-то образом штрафовать модель за гендерный/расовый биас, либо на стадии обучения, либо в инфересе - но работ, про то, как пиздить этот баес с помощью дата аугметации - пока не было.
До этой статьи. (Да, мы наконец-то переходим к сути, е!)
Команда иследователь_ниц (Да, все автор_есс_ки статьи - женщины, почему-то) предложила способ пертубрировать(?) данные.
Результаты работы конкретно:
1) Вручную набитый текстовый датасет на 100к пар "текст с гендерной окраской" - "текст её лишённый"
2) Обученный на этом счастье пертубрер - seq2seq моделька, которая обезличит ваш текст, например: she likes her grandma -> they like their grandma
3) FairBERTa - этот ваш БЕРТ(На самом деле, РоБЕРТа), но обученный на данных, пропущенные через мастурбатор пертубатор
4) Эксперименты с ФАИРТЮНИНГОМ - дообучение моделей на их пертубированной дате
5) ФАИРСКОР - метрика для оценивания того, насколько ваша модель не-расисткая
А теперь, давайте поговорим о том, а как этот ваш фаирскор вообще считать? Поскольку телега не умеет в латекс, то формулы вы сами найдёте, а я краткую выжимку скажу:
Мы берём записи, связанные с полом/возрастом/национальностью. Прогоняем по ним модель. Потом прогоняем модель на тех же, записях, но пертубрированных (лишённых гендернорасового окраса) и смотрим - насколько ответы модели изменились. В процентах - и есть наш фаирскор, вотб.
Теперь, мой друг, ты можешь задаться вопросом: а не убьёт ли такое кастрирование текста качество моделей нахуй, если их на таком обучать?
Ответ от авторов: качество, конечно, падает, но не значительно, зато какой фаирскор теперь хороший!
Это относится, как к моделям, которые сразу были обучены на пертубрированном тексте, так и к моделям, которые прошли фаиртюнинг.
Итого: светлое СЖВ-будущее стало на шаг ближе - мы можем сделать датасеты нейтральными и учить нейтральные модели без серьёзных потерь в качестве.
Мы тут в чате канала запустили цикл пересказов статей от подписчиков и первым стал Монета. Гений, бедный безработный студент и любитель поней.
https://monetka.name/
Велкам как говорится!
Что же, господа и дамы, раз наш чат официально LGBTQOPRTS+-, то на связанную с этой темой статью сегодня и будет мой скромный обзор.
А конкретно - Perturbation Augmentation for Fairer NLP(https://arxiv.org/pdf/2205.12586v1.pdf) от всеми (не)любимой Меты!
Какая перед нами встаёт проблема? Та же, что и всегда, друг мой.
УГНЕТЕНИЕ МЕНЬШИНСТВ
Да-да! Наш мир наполнен расизмом, женоненавистничеством, и всяким другим нехорошим, но чего полно в сетах на обучении. Особенно, в сетах на обучение текстовых моделей, ога.
И модели, суки эдакие, любят выучить то, что неграм место на кухне, а бабе - на плантации.
Мы же не хотим, чтобы у нас модель выучилась и стала предвзятой в сторону расизма? (Надеюсь?..)
Поэтому, люди начали искать способы избежать такого мерзкого биаса (в этом поиске, кхе-кхе, успел немного поучавствовать и ваш скромный монета, https://aivsbias.feather.cloudns.cl/ https://github.com/mmkuznecov/AIvsBIAS)
Однако, в первую очередь эти попытки были связаны с тем, чтобы каким-то образом штрафовать модель за гендерный/расовый биас, либо на стадии обучения, либо в инфересе - но работ, про то, как пиздить этот баес с помощью дата аугметации - пока не было.
До этой статьи. (Да, мы наконец-то переходим к сути, е!)
Команда иследователь_ниц (Да, все автор_есс_ки статьи - женщины, почему-то) предложила способ пертубрировать(?) данные.
Результаты работы конкретно:
1) Вручную набитый текстовый датасет на 100к пар "текст с гендерной окраской" - "текст её лишённый"
2) Обученный на этом счастье пертубрер - seq2seq моделька, которая обезличит ваш текст, например: she likes her grandma -> they like their grandma
3) FairBERTa - этот ваш БЕРТ(На самом деле, РоБЕРТа), но обученный на данных, пропущенные через мастурбатор пертубатор
4) Эксперименты с ФАИРТЮНИНГОМ - дообучение моделей на их пертубированной дате
5) ФАИРСКОР - метрика для оценивания того, насколько ваша модель не-расисткая
А теперь, давайте поговорим о том, а как этот ваш фаирскор вообще считать? Поскольку телега не умеет в латекс, то формулы вы сами найдёте, а я краткую выжимку скажу:
Мы берём записи, связанные с полом/возрастом/национальностью. Прогоняем по ним модель. Потом прогоняем модель на тех же, записях, но пертубрированных (лишённых гендернорасового окраса) и смотрим - насколько ответы модели изменились. В процентах - и есть наш фаирскор, вотб.
Теперь, мой друг, ты можешь задаться вопросом: а не убьёт ли такое кастрирование текста качество моделей нахуй, если их на таком обучать?
Ответ от авторов: качество, конечно, падает, но не значительно, зато какой фаирскор теперь хороший!
Это относится, как к моделям, которые сразу были обучены на пертубрированном тексте, так и к моделям, которые прошли фаиртюнинг.
Итого: светлое СЖВ-будущее стало на шаг ближе - мы можем сделать датасеты нейтральными и учить нейтральные модели без серьёзных потерь в качестве.
monetka.name
usr/monetka
Monetka's profile
🔥17😱11💩4🤮3🤔1
Вы находитесь в той реальности где школьник из Челябинска видимо выпустит ImageGen раньше чем lucidrains-sberai-eleutherai-meta
@gradientdip
@gradientdip
🔥38🤔5👍2😁2
Forwarded from Градиентное погружение
Вот несколько примеров того, что я сегодня сгенерировал с помощью imagen. Сейчас ещё тренирую.
@gradientdip
@gradientdip
🔥25💩7
#рандомная_рефлексия
А что если интернет был с нами всегда? Ну те, как с математикой, она была всегда, просто мы открываем новые ее законы. Что если с интернетом так же? Он был всегда на каком то метафизическом уровне как способ передачи информации, просто он так не назывался, он не был отделен от остального физического мира. А в один момент мы его не изобрели, а перевели из одного состояния в другое, после чего он начал не экспоненциально развиваться, а просто стал заметен для всех.
А что если интернет был с нами всегда? Ну те, как с математикой, она была всегда, просто мы открываем новые ее законы. Что если с интернетом так же? Он был всегда на каком то метафизическом уровне как способ передачи информации, просто он так не назывался, он не был отделен от остального физического мира. А в один момент мы его не изобрели, а перевели из одного состояния в другое, после чего он начал не экспоненциально развиваться, а просто стал заметен для всех.
💩34❤20🔥2👎1
Forwarded from Ivan Glushenkov | ru |
Telegraph
История моего поступления в Schaffhausen Institute of Technology
TL;DR; Универ в Швейцарии как способ загрузить в себя взрывоопасную взвесь всего хайпового и красивого, а именно {лидерство, предпринимательство, бизнес} + {CS, DS, Quantum, Cybersecurity}. Целим на C-posistions (CTO, CEO, CIO, CDO, Chief _something_ officer)…
🔥4
Forwarded from Just links
EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation Visual Recognition https://arxiv.org/abs/2205.14756
#cv #vit
#cv #vit
Подписчик собрал 220м пар вопрос-ответ с ответов мэйл ру и теперь у нас есть 58(!) Гигбайт сырых данных
kaggle
(сет обрабатывается)
kaggle
(сет обрабатывается)
Kaggle
otvet.mail.ru solved questions
Unfiltered pile of questions with best answers from otvet.mail.ru
😱27👍9🔥7