я обучала одну модель – Telegram
я обучала одну модель
4.54K subscribers
457 photos
29 videos
21 files
381 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Смотрю презентацию vk lab про генерацию текста, докладчик открывает слайд "а зачем все это нужно" и там первый пункт "мы получили прикольную игрушку, может быть сгенерированный текст будет смешным"))))) Мое мнение что это единственный правильный подход к АИ-решениям
+ давайте обучим большую модель и еще одну большую модель, но не будем сверху обучать модель попроще, а будем запускать сразу обе при инференсе, потому что у нас лосс на разности моделей построен))))
Короче я расстроен докладчиками:
* мы проебались с выборкой, метрик не будет, метод сосет бибу

* У нас модель заикается мы не знаем почему
Алсо этот же докладчик: НИКТО НИ ИСПОЛЬЗУЕТ БИМ СЕРЧ ВЫ ВСЕ ВРЕТИ!?!
PPLM очень медленные, а giant LM не медленные?)))
Короче доклад про LM сосет бибу, авто не умеет в conditional gpt и тюнинг модели. Зато умеет делать stack more models)))


Короче говоря я расстроен, я ждал анонс VKLM с sparce attention от big bird ((((
Вы могли знать, что наконец-то выкатили модель для использования в ваших рабочих и учебных чатиках, а именно модельку для детокса текста на русском
Для этой задачи авторы тюнили GPT и BERT:
• В случае GPT сама модель уже умеет перефразировать предложения (если начать ввод с 'перефразируй' или поставить >>> в конце), но авторы дополнительно ее файн-тюнили: брали пары из одних и тех же по смыслу предожений, но одно из них токсичное, второе нет. На вход подается токсичное предложение, на выходе хотят нейтральное. Авторы утверждают, что хватило 200 таких пар для обучения. Минус подхода в том, что модель по сути генерит новое предложение с нуля, поэтому по содержанию выход может сильно отличаться.
• В случае BERT все сложнее. Для начала, авторы взяли conditional BERT и обучали соотвественно на тексты с лейблами двух стилей – токс и не токс. Дальше во время обучения токсичные слова маскировались, и модель просили заменить их на что-то не токсичное. Как определять токсичные слова? Ну, авторы обучили логистическую регрессию на мешке слов, чтобы она предсказывала, токсичный текст или нет, – и оттуда можно было взять веса (оценку токсичности) для каждого слова. Минус подхода в том, что BERT меняет всего одного слово, а не все предложение, что может плохо сказаться на грамматике и вообще логике предложения (или он может вообще вставить special token типа [UNK])

Разумеется, важно не это все, а то, что на выходе получаются кеки (тыкать тут). Я например экспериментально установила, что сделать добрыми треки Фараона у модели пока не выходит( Вообще это не сюрприз ни для кого, но авторы сильно черипикали примеры, потому что как правило мат она заменяет просто на рандомный набор букв
кеки следующего характера:
😁1
Интересная довольно работа по unsupervised question answering. По сути авторы пытаются построить модель, которой не нужен размеченный датасет с вопросами по типу SQuAD. При этом, по качеству она не дотягивает до supervised обучения (когда есть ручная разметка вопрос-ответ), но хотя бы обгоняет более ранние модели QA. Что они делают:
1. Рандомно семплируются парагрфы из Википедии опредленной длины. Внутри них ищутся noun sentences или name entity sentences (то есть когда в предложении есть специфичные наименования вроде даты/места/имени/марки и т.д.).
2. Из этих предложений составляются Cloze Questions – предожения, где ответ замаскирован (например, 'летние олимпийские игры 1980 года проходили в _' или 'летние олимпийские игры _ года проходили в Москве' ). За ответ считается, собственно, named entity или главное существительное в предложении.
3. Далее нужно перевести эти Cloze Questions в вопросы, сформулированные на естественом языке. Для этого авторы используют seq2seq модель, которая по сути занимается переносом стиля на текстовых данных: она берет два корпуса – один это cloze questions, второй это реальные вопросы, составленные людьми, и пытается перенести стиль, сохранив содержание. Чтобы улучить качество переноса, авторы стали еще подавать тип ответа вместе с самим cloze question, чтобы генерировалось правильное вопросительное слово (например, если ответ – это дата (temporal), то нужно подставить вместо маски when). Еще авторы пытались повысить робастность, добавляя шум, то есть перемешивая и удаляя слова в вопросе, предполагая, что модель дожна выучиь определнные n-граммы, которые указывают на тот или иной ответ, и быть устойчивой к различным вариантам парафраза.

Тренируют это все на BERT-Large, и в принципе выходит неплохо, вообще интересно, как тема с обучением на синтетических данных будет развиваться. Еще по статье видно, что этот один из тех случаев, когда авторы умоляют нейроночку заработать с помощью любых эвристик, ну или они просто ответственные, и прямо сильно документировали процесс экспериментов с методом

Сслыка на гит
Пример вопросов вот
This media is not supported in your browser
VIEW IN TELEGRAM
Просто восхитительный видос, полученный следующим образом: взяли датасет лиц Ukiyo-e, сетку для image-to-image translation (архитетура похожа на GAN с аттеншеном), и еще один очень крутой GAN, который может переводить видео в видео (вообще его изначально тренировали на аниме)
Повторюсь, единственно правильный подход к АИ-решениям я вижу именно так
Специально для людей как я, которые любят заводить странички в ноушене, но не очень любят все это потом делать))) Но вообще по-моему тут очень адекватная градация скилов, к тому же списки можно кастомайзить под себя
https://towardsdatascience.com/a-checklist-to-track-your-data-science-progress-bf92e878edf2
И вот еще очень хороший роудмэп по всему DS от train-test split и knn до облачных сервисов, все идет вместе с ссылками на курсы/материалы
https://whimsical.com/machine-learning-roadmap-2020-CA7f3ykvXpnJ9Az32vYXva
Еще один достойнейший представитель аккаунтов-нейроночек в твиттере