Сейчас я буду два часа богемно сидеть в серфе. Что лучше: сделать дз по топологии или продолжить кодить свой поисковый движок?
👎7🔥3
ML-легушька
Сейчас я буду два часа богемно сидеть в серфе. Что лучше: сделать дз по топологии или продолжить кодить свой поисковый движок?
Я придумал как применить в нем то, что мы делаем с Гасниковым, и доволен собой
👎8👍2❤1
А) скиньтесь админу на макбук.
Б) кто знает, как можно быстро лемматизировать слова на питоне? Русские. pystem от яндекса работает слишком медленно
Б) кто знает, как можно быстро лемматизировать слова на питоне? Русские. pystem от яндекса работает слишком медленно
👎26👍4
Кстати. Всем очень советую песню "Нексюша - Итшник". Мне очень понравилось и думаю вам понравится. Ссылка в комментах
👎7🔥2
Чтобы мотивировать себя писать этот движок, теперь каждое воскресенье я буду выделять по два часа на это, и дальше писать пост об этом и о том что зарисерчил
👍7❤4👎1🔥1👏1
#поисковыйдвижок
Итак, сегодня второй день, когда я его переписываю. В первый день столкнулся с проблемой медленной лемматизации текстов, поэтому вместо лемм решил использовать все слово, но с доп.эвристиками. Сейчас я написал на питоне Бор(префиксное дерево), куда можно добавлять слова/тексты, и искать, в каких текстах какой кусок этого слова встречается. Также я придумал, что можно сделать дальше. Планы на следующий раз: 1) сделать ассоциатор - штуку для эффективного получения синонимов слов, также без лемматизации. Оно будет тоже бором, но с другой метадатой к вершинам. 2) попробовать лемматизацию от наташи - когда я давно её брал, она работала быстро, но не очень качественно. 3) возможно, успею сделать сжатие моего бора, так как очевидно, что там будет крайне много вершин, где у вершины ровно 1 сын
Итак, сегодня второй день, когда я его переписываю. В первый день столкнулся с проблемой медленной лемматизации текстов, поэтому вместо лемм решил использовать все слово, но с доп.эвристиками. Сейчас я написал на питоне Бор(префиксное дерево), куда можно добавлять слова/тексты, и искать, в каких текстах какой кусок этого слова встречается. Также я придумал, что можно сделать дальше. Планы на следующий раз: 1) сделать ассоциатор - штуку для эффективного получения синонимов слов, также без лемматизации. Оно будет тоже бором, но с другой метадатой к вершинам. 2) попробовать лемматизацию от наташи - когда я давно её брал, она работала быстро, но не очень качественно. 3) возможно, успею сделать сжатие моего бора, так как очевидно, что там будет крайне много вершин, где у вершины ровно 1 сын
👍6🔥4👎2
#поисковыйдвижок
Сегодня ещё дорабатывал поиск без нейронок. Очень элегантно выразил поиск синонимов в боре через бор, сделанный для обычного поиска. Мне нравится. Много думал, как и что можно повзвешивать и добавить в оценку. Скоро придётся использовать оптимизационные пакеты для безград.оптимизации, чтобы параметры подбирать нужные (с каким весом брать разные эвристики при ранжировании), но это позже. Пока что все и так работает оч быстро, поэтому сжимать бор не буду, подожду. Проверил Наташу - быстро лемматизирует. Кайф. А неточности я поправлю с помощью боров как раз)
Сегодня ещё дорабатывал поиск без нейронок. Очень элегантно выразил поиск синонимов в боре через бор, сделанный для обычного поиска. Мне нравится. Много думал, как и что можно повзвешивать и добавить в оценку. Скоро придётся использовать оптимизационные пакеты для безград.оптимизации, чтобы параметры подбирать нужные (с каким весом брать разные эвристики при ранжировании), но это позже. Пока что все и так работает оч быстро, поэтому сжимать бор не буду, подожду. Проверил Наташу - быстро лемматизирует. Кайф. А неточности я поправлю с помощью боров как раз)
🔥5👎1
Определился с темой проекта на Сириус: многорукие бандиты с тяжёлыми хвостами. Сначала буду прорабатывать, когда мы имеем неограниченную дисперсию у потерь, а потом (как хочет Гасников), если все будет получаться, займёмся вопросами клипирования стох.градиента, когда многорукий бандит решается зеркальным спуском. Как же кайфово изучать матешу самому
👍9👎2
Как увеличить аудиторию канала? А то идёт уже некоторая стагнация. Я удивлён, что столько людей читают мой щитпостинг, но все же
👎11❤1
Неужели большая часть прикладной математики в компьютер саенсе это комбинаторика (кодирование, дискропт и прочее) и теорвер (обычный опт, матстат и вот это все)? Даже удивительно. Я сейчас делаю условно "рисерч" по оптимизации, и большую часть времени я просто делаю какой-то теорвер. И все доказательства в оптах это теорвер процентов на 95%
👍3👎2🔥1
Ещё я случайно подслушал, что Гасников говорил дедушке, с которым я в Сириусе работаю в основном (т.к. у него многорукие бандиты). И он меня достаточно хвалил. Сказал, что я проверенный человек, очень круто ему помогал в Сириусе, и что хорошо погружаюсь. Сказал, что небольшая проблема в том, что я лишь на 2ом курсе, но для 2ого курса у меня все очень неплохо и если я все пройду и изучу, то перспектива ему видится хорошей. И что конкретно в моем случае он планирует довести то, что тут будет на Сириусе, до статьи, так что это будет не просто проект. Гасников лучший
👏24👍4❤2👎1
Я все ещё не смог найти нормального инструмента, чтобы на питончике делать разбор слов по составу. Может плохо искал... Сделаю свою библиотеку, даже если такая уже есть. Попробую сделать удобно и быстро. Да и надо оформлять гитхабчик
👍6👎4
Яндекс такая крутая компания. Что может быть лучше, чем автобус, который телепортировался несколько раз на базу, пока ехал?
Upd. Поехал на автобусе, который не показывал яндекс в итоге. Спасибо) Сочи это волшебный город
Upd. Поехал на автобусе, который не показывал яндекс в итоге. Спасибо) Сочи это волшебный город
👎5
ML-легушька
Ещё я случайно подслушал, что Гасников говорил дедушке, с которым я в Сириусе работаю в основном (т.к. у него многорукие бандиты). И он меня достаточно хвалил. Сказал, что я проверенный человек, очень круто ему помогал в Сириусе, и что хорошо погружаюсь. Сказал…
Справедливости ради мне кажется что у меня ничего не получится)))) Потому что как-то это очень тяжело. Мне сейчас обычная стох.оптимизация, которая жёстко пугала, кажется детским лепетом в сравнении с Онлайн оптимизацией
👎3😢1