Мы тут с товарищами кстати запилили нейронку, которая генерит твиты в стиле Пушкина. Пока это все в тестовом режиме, но скоро будут нормальные почищенные данные + видимо нам дадут ru gpt3 xl сберовскую 👀
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Twitter
Neural Pushkin
Сегодня в метро услышал, как один из проводников по громкоговорителю сообщил: «Сейчас за мной придет женщина и принесет мне стакан воды». Я опешил. Оказывается на этот счет есть статья Уголовного кодекса — до двух лет лишения свободы условно с испытательным…
Этой ночью хочется признаться в любви цветовым палитрам viridis из ggplot2
Иногда в 2 часа ночи приходится задаться вопросом, как работают генераторы в питоне....
Небольшая подборка для тех, кто в последний раз слово yield видел на парах по эконому (как и я собсна): базовое объяснение, более сложный пример с прохождением по графу и немножко с разбором логики всего процесса, примерчики где это хорошо использовать
Небольшая подборка для тех, кто в последний раз слово yield видел на парах по эконому (как и я собсна): базовое объяснение, более сложный пример с прохождением по графу и немножко с разбором логики всего процесса, примерчики где это хорошо использовать
Хабр
Как работает yield
На StackOverflow часто задают вопросы, подробно освещённые в документации. Ценность их в том, что на некоторые из них кто-нибудь даёт ответ, обладающий гораздо б...
Вообще с к*рсовой происходит ставший уже классическим для меня вид жопной боли – ты кучу времени въебывашь на то, чтоб какая-то тупая nlp моделька начала давать какие-то результаты, чтобы потом узнать, что это все умеет делать BERT, при чем с довольно неплохим качеством. Я так где-то месяц обучала Latent dirichlet allocation во всех возможных конфигурациях, он почти при любом раскладе выдавал хуйню (ну, кроме топиков типа abort_cells и pray_jesus), а BERTopic сделал что-то осмысленное почти с первого запуска.
Еще больше времени я убила на работу с лексиконами. И да, наверное, в моем случае юзать лексиконы, чтобы определить сентимент скор твита это методологически оправдано (потому что лексиконы можно редактировать руками, как на картинке выше, и это можно туда добавить всякие слова специфичные для этой кампании типа sleepy или laptop), но half the time с этими сентиментами выходит тоже хуйня. И вот вчера я чуть ли не на стартовой странице huggingface со списком моделек вижу, что bert умеет считать сенимент скоры и так. И то есть всей этой дрочильни ручками могло и не быть. Мда.
Летом конечно обязательно обучу это все на берте и попробую пропихнуть как публикацию, но вот такой крик души
Еще больше времени я убила на работу с лексиконами. И да, наверное, в моем случае юзать лексиконы, чтобы определить сентимент скор твита это методологически оправдано (потому что лексиконы можно редактировать руками, как на картинке выше, и это можно туда добавить всякие слова специфичные для этой кампании типа sleepy или laptop), но half the time с этими сентиментами выходит тоже хуйня. И вот вчера я чуть ли не на стартовой странице huggingface со списком моделек вижу, что bert умеет считать сенимент скоры и так. И то есть всей этой дрочильни ручками могло и не быть. Мда.
Летом конечно обязательно обучу это все на берте и попробую пропихнуть как публикацию, но вот такой крик души
пытаюсь нарисовать простую гистограмму на своей выборке
@
одна гистограмма строится три минуты
@
ура бигдата
@
одна гистограмма строится три минуты
@
ура бигдата
Как можно понять, автору канала очень хочется за неделю добить курсач (мммм написать курсовую на майских ага да), поэтому тут будет шитпостинг и отчетики на тему
Что мы имеем на входе: 16 тыщ строк кода, сейчас мне надо прогнать это все на массиве из 8 миллионов твитов (учитывая то, что у меня постоянно наебывается ram, даже на high ram mode в colab pro). Ну и написать прости господи сам текст, потому что сейчас у меня написано 0 знаков с пробелами, и немножко страшно уже жить
Что мы имеем на входе: 16 тыщ строк кода, сейчас мне надо прогнать это все на массиве из 8 миллионов твитов (учитывая то, что у меня постоянно наебывается ram, даже на high ram mode в colab pro). Ну и написать прости господи сам текст, потому что сейчас у меня написано 0 знаков с пробелами, и немножко страшно уже жить