In continuation to my kursach старый, но от этого не менее прикольный материал от Wall Street Journal: они взяли издания, которые часто упоминали в Фейсбуке либо консервативные, либо либеральные юзеры, и построили два параллельных user feed – как одну и ту же проблему освещали консервативные или либеральные СМИ.
Помимо того, что это просто интересно полистать, становится довольно очевидной мысль, что помимо самой оценки события ('аборты плохо'), важно еще то, какую информацию вы в принципе отбираете – будете ли вы постить историю о том, как у какой-то девочки после неудачного аборта ампутировали ноги, или вы будете скорее вести репортаж о том, как власти пытаются прикрыть организацию, которая обеспечивает репродуктивными услугами бедные слои населения. При чем, скорее всего вам может быть жалко и ту девочку, и бедных, которые теперь кроме абортов не смогут сделать те же плановые обследования, но выбирается для постинга только то, что вписывается в ваш идеологический нарратив. Поэтому большая часть постов в этом материале не то чтобы противоречат друг другу – они просто о разных историях.
Более очевидный для 2021 года пример, как мне кажется, это отношение к полиции. Если вы либеральное СМИ, вам зазорно писать о том, сколько реальных преступлений за этот год раскрыли опера (если конечно это цифра не оказывается бесконечно мала), и вообще предоставлять любую информацию о том, что полиция может быть эффективной и полезной, так как при существующем уровне полицейского насилия (далеко не только в России) зазорно быть на ее стороне. В либеральном дискурсе (прости господи) любая позитивная оценка силовиков, будь она основана на самых сухих фактах, вопринимается в штыки, потому что тем самым мы якобы закрываем глаза на все нарушения прав человека и на все мучения невинно постадавших (и на то, что полиция как институт сама по себе порочна). Аналогично, если вы про-государственное СМИ или просто за политику сильной руки, вам зазорно признавать, что где-то в тюрьмах кого-то пытают, потому что освещение таких сюжетов якобы нивелирует честь мундира, игнорирует доблестные подвиги уважаемых ментов и т.д. В общем и целом, как правило вы можете признавать и то, что от полиции есть польза, и то, что полиция очень часто кого-то бьет (без законных на то оснований). При этом как правило люди оказываются уверены, что концентрироваться нужно на чем-то одном, а говорить об обратной стороне медали – либо не особо нужно и оправдано, либо попросту аморально.
Помимо того, что это просто интересно полистать, становится довольно очевидной мысль, что помимо самой оценки события ('аборты плохо'), важно еще то, какую информацию вы в принципе отбираете – будете ли вы постить историю о том, как у какой-то девочки после неудачного аборта ампутировали ноги, или вы будете скорее вести репортаж о том, как власти пытаются прикрыть организацию, которая обеспечивает репродуктивными услугами бедные слои населения. При чем, скорее всего вам может быть жалко и ту девочку, и бедных, которые теперь кроме абортов не смогут сделать те же плановые обследования, но выбирается для постинга только то, что вписывается в ваш идеологический нарратив. Поэтому большая часть постов в этом материале не то чтобы противоречат друг другу – они просто о разных историях.
Более очевидный для 2021 года пример, как мне кажется, это отношение к полиции. Если вы либеральное СМИ, вам зазорно писать о том, сколько реальных преступлений за этот год раскрыли опера (если конечно это цифра не оказывается бесконечно мала), и вообще предоставлять любую информацию о том, что полиция может быть эффективной и полезной, так как при существующем уровне полицейского насилия (далеко не только в России) зазорно быть на ее стороне. В либеральном дискурсе (прости господи) любая позитивная оценка силовиков, будь она основана на самых сухих фактах, вопринимается в штыки, потому что тем самым мы якобы закрываем глаза на все нарушения прав человека и на все мучения невинно постадавших (и на то, что полиция как институт сама по себе порочна). Аналогично, если вы про-государственное СМИ или просто за политику сильной руки, вам зазорно признавать, что где-то в тюрьмах кого-то пытают, потому что освещение таких сюжетов якобы нивелирует честь мундира, игнорирует доблестные подвиги уважаемых ментов и т.д. В общем и целом, как правило вы можете признавать и то, что от полиции есть польза, и то, что полиция очень часто кого-то бьет (без законных на то оснований). При этом как правило люди оказываются уверены, что концентрироваться нужно на чем-то одном, а говорить об обратной стороне медали – либо не особо нужно и оправдано, либо попросту аморально.
WSJ
Blue Feed, Red Feed
See Liberal Facebook and Conservative Facebook, Side by Side
Смотрю презентацию vk lab про генерацию текста, докладчик открывает слайд "а зачем все это нужно" и там первый пункт "мы получили прикольную игрушку, может быть сгенерированный текст будет смешным"))))) Мое мнение что это единственный правильный подход к АИ-решениям
+ давайте обучим большую модель и еще одну большую модель, но не будем сверху обучать модель попроще, а будем запускать сразу обе при инференсе, потому что у нас лосс на разности моделей построен))))
Forwarded from Love. Death. Transformers.
Короче я расстроен докладчиками:
* мы проебались с выборкой, метрик не будет, метод сосет бибу
* У нас модель заикается мы не знаем почему
Алсо этот же докладчик: НИКТО НИ ИСПОЛЬЗУЕТ БИМ СЕРЧ ВЫ ВСЕ ВРЕТИ!?!
PPLM очень медленные, а giant LM не медленные?)))
Короче доклад про LM сосет бибу, авто не умеет в conditional gpt и тюнинг модели. Зато умеет делать stack more models)))
Короче говоря я расстроен, я ждал анонс VKLM с sparce attention от big bird ((((
* мы проебались с выборкой, метрик не будет, метод сосет бибу
* У нас модель заикается мы не знаем почему
Алсо этот же докладчик: НИКТО НИ ИСПОЛЬЗУЕТ БИМ СЕРЧ ВЫ ВСЕ ВРЕТИ!?!
PPLM очень медленные, а giant LM не медленные?)))
Короче доклад про LM сосет бибу, авто не умеет в conditional gpt и тюнинг модели. Зато умеет делать stack more models)))
Короче говоря я расстроен, я ждал анонс VKLM с sparce attention от big bird ((((
Вы могли знать, что наконец-то выкатили модель для использования в ваших рабочих и учебных чатиках, а именно модельку для детокса текста на русском
Для этой задачи авторы тюнили GPT и BERT:
• В случае GPT сама модель уже умеет перефразировать предложения (если начать ввод с 'перефразируй' или поставить >>> в конце), но авторы дополнительно ее файн-тюнили: брали пары из одних и тех же по смыслу предожений, но одно из них токсичное, второе нет. На вход подается токсичное предложение, на выходе хотят нейтральное. Авторы утверждают, что хватило 200 таких пар для обучения. Минус подхода в том, что модель по сути генерит новое предложение с нуля, поэтому по содержанию выход может сильно отличаться.
• В случае BERT все сложнее. Для начала, авторы взяли conditional BERT и обучали соотвественно на тексты с лейблами двух стилей – токс и не токс. Дальше во время обучения токсичные слова маскировались, и модель просили заменить их на что-то не токсичное. Как определять токсичные слова? Ну, авторы обучили логистическую регрессию на мешке слов, чтобы она предсказывала, токсичный текст или нет, – и оттуда можно было взять веса (оценку токсичности) для каждого слова. Минус подхода в том, что BERT меняет всего одного слово, а не все предложение, что может плохо сказаться на грамматике и вообще логике предложения (или он может вообще вставить special token типа [UNK])
Разумеется, важно не это все, а то, что на выходе получаются кеки (тыкать тут). Я например экспериментально установила, что сделать добрыми треки Фараона у модели пока не выходит( Вообще это не сюрприз ни для кого, но авторы сильно черипикали примеры, потому что как правило мат она заменяет просто на рандомный набор букв
Для этой задачи авторы тюнили GPT и BERT:
• В случае GPT сама модель уже умеет перефразировать предложения (если начать ввод с 'перефразируй' или поставить >>> в конце), но авторы дополнительно ее файн-тюнили: брали пары из одних и тех же по смыслу предожений, но одно из них токсичное, второе нет. На вход подается токсичное предложение, на выходе хотят нейтральное. Авторы утверждают, что хватило 200 таких пар для обучения. Минус подхода в том, что модель по сути генерит новое предложение с нуля, поэтому по содержанию выход может сильно отличаться.
• В случае BERT все сложнее. Для начала, авторы взяли conditional BERT и обучали соотвественно на тексты с лейблами двух стилей – токс и не токс. Дальше во время обучения токсичные слова маскировались, и модель просили заменить их на что-то не токсичное. Как определять токсичные слова? Ну, авторы обучили логистическую регрессию на мешке слов, чтобы она предсказывала, токсичный текст или нет, – и оттуда можно было взять веса (оценку токсичности) для каждого слова. Минус подхода в том, что BERT меняет всего одного слово, а не все предложение, что может плохо сказаться на грамматике и вообще логике предложения (или он может вообще вставить special token типа [UNK])
Разумеется, важно не это все, а то, что на выходе получаются кеки (тыкать тут). Я например экспериментально установила, что сделать добрыми треки Фараона у модели пока не выходит( Вообще это не сюрприз ни для кого, но авторы сильно черипикали примеры, потому что как правило мат она заменяет просто на рандомный набор букв
GitHub
GitHub - s-nlp/rudetoxifier: Code and data of "Methods for Detoxification of Texts for the Russian Language" paper
Code and data of "Methods for Detoxification of Texts for the Russian Language" paper - s-nlp/rudetoxifier