Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from asisakov
РЕЗЮМЕ
Часть 2

Начало выше ⬆️

4. Проекты

Здесь есть некоторое пересечение с тем, что было описано уже в рабочих проектах. Это скорее подходит для проектов, которые вы делали в свободное время. Например, у вас есть классный пет-проект, который помогает распознать, какая же цифра из 10 нарисована на изображении. Его и стоит включить сюда, скинуть ссылку на репозиторий проекта и по возможности страничку проекта. Как упороться по своему проекту, я напишу в будущем и приложу интересные ссылочки.

5. Дополнительная информация, которую вы считаете релевантной

Здесь может быть указан какой-нибудь уникальный интересный курс, который вы проходили (кроме баянистых курсер и подобного конечно). Возможно ваш опыт участия в олимпиадах, соревнованиях, спортивные достижения. Также неплохо будет указать опыт выступления на профильных конференциях.

В целом, здесь мы видим, что даже резюме требует достаточных вложений времени. И здесь это скорее такой универсальный способ выделиться среди остальных кандидатов за счет своих проектов, опыта и даже возможно образования. Если выразиться просто - это некий входной билет, который вы демонстрируете, чтобы дальше пройти на собеседования.

Успехов в оформлении резюме!

Если будет достаточный интерес, то могу выложить первую версию своего резюме, и во что оно превратилось после того, как я отредактировал вообще все, что в нем было согласно описанным тут пунктам.

Полезные ссылки:
1. Чек-лист для резюме
2. Валидация резюме (можно еще это сделать в сингулярисе)
3. "Идеальное резюме для разработчика"
4. Тагир про составление резюме (оригинал поста нашёлся)
5. Советы Бориса по составлению резюме
6. Краткий гайд по резюме для DS'а
7. Рома Васильев про правила составления резюме
8. Борис опять про оптимизацию резюме

#interview #resume
Forwarded from Information Retriever
Про ML соревнования.

Свои первые деньги, не связанные со студенческими стипендиями, я заработал ~шесть лет назад: занял второе место в ML соревновании и получил 200 тысяч. Собрал тогда мощный комп с 1080ti, чтобы нейроночки обучать и ведьмака проходить :)

Первые два года изучения ML меня очень сильно драйвили соревнования, вплоть до того, что я посвящал им почти все свободное время. Подозреваю, что от улучшения метрик и карабканья по лидерборду у меня выделяется довольно большое количество серотонина, потому что я тогда фигачил без отдыха месяцами, на энтузиазме :)

Мой первый контест — Sberbank Data Science Journey 2017; определение релевантности вопроса параграфу текста. Я тогда обогнал своего препода с кафедры, заняв 8-е место. Изучение мной NLP и классического ML происходило буквально по ходу соревнования, и такое изучение теории на практике для меня работало очень хорошо. Еще помню, что там часть вопросов была синтетическая, сгенерированная, и надо было научиться отличать их от настоящих, чтобы сразу ставить им нолики. Я тогда применил марковскую цепь как языковую модель и очень радовался, что это сработало :)

Основное, что я вынес с соревнований (и вспомнил во время написания этого поста):

1. Успех идеи очень сильно зависит от реализации. У контестов, как правило, были чаты, где участники активно общались по ходу соревнования. Я неоднократно наблюдал, как те же идеи, что давали много профита у меня, у других людей не срабатывали. И наоборот. Осталось ощущение, что почти из любой идеи можно выжать профит, если рассмотреть ее под правильным углом.

На работе с этим сложнее: конкретные эксперименты проводит один человек, и если эксперименты закончились неудачно, то всегда остается некоторая неопределенность, почему так получилось. Здесь помогают (1) статьи, по которым мы иногда точно понимаем, что что-то должно работать. (2) правильные формулировки задач, смещение акцента с оффлайн-метрик базового качества на интерпретируемые вопросы и гипотезы, и (3) перепроверки друг за другом, а также (4) возвращение к старым направлениям экспериментов.

2. Получил очень много опыта по ведению экспериментов. С одной стороны, оптимизировать какое-то не совсем интерпретируемое чиселко в отрыве от бизнеса — не очень продуктивно. Соревнования сильно разнятся по степени "осмысленности", это зависит от осознанности организаторов. С другой стороны — в отличие от работы, здесь ты соревнуешься с другими людьми, и есть возможность себя очень хорошо откалибровать относительно них. Насколько хорошо ты ставишь эксперименты, а именно: находишь правильные гипотезы, быстро их проверяешь, правильно реализуешь.

На работе все сильно зависит от самокритичности человека, это иногда и плохо, и хорошо. Из неудачной серии экспериментов можно сделать совсем разные выводы. Самый частый вывод — что гипотеза неудачная или задача нерешаемая; он особенно плох, если не получилось при этом сформировать правильную интуицию происходящего. В соревнованиях же если ты находишься низко по лидерборду, то у этого может быть только одна причина :)

Итого, плюсы соревнований:
* опыт экспериментирования
* возможность откалиброваться относительно других экспериментаторов
* доп. источник заработка

Минусы:
* осмысленность поставленных задач сильно зависит от осознанности организаторов
* прошлый пункт, на самом деле, еще иногда приводит к страшным эффектам по типу ликов в данных и к совсем необобщающимся на бизнес зависимостям, без которых высокую метрику не получишь
* если у вас хорошая работа, то на ней задачи интересней, и необходимость в соревнованиях отпадает. На работе у меня есть возможность самому формулировать задачи, и при этом мне доступны почти неограниченные ресурсы с т.з. данных и железа

На бустерс @boosters после долгого молчания платформы началось новое соревнование по рекомендашкам от hh. Вашего покорного слугу там в лидерборде тоже можно найти; решил тряхнуть стариной :)
👍2
#trading #aspiration

"The argument of many academics is that you can’t make money trading; your best bet is to put your money in a diversified fund and reap the baseline drift compounded over many years. (For most investors, this is not a bad plan for at least a portion of their portfolios.) Even large, professionally managed funds have a very difficult time beating the market, so why should you be able to do so, sitting at home or in your office without any competitive or informational advantage? You are certainly not the best-capitalized player in the arena, and, in a field that attracts some of the best and brightest minds in the world, you are unlikely to be the smartest."

Откуда ты, сука, знаешь?! )
😁2
Forwarded from kyrillic
Альтернативные новогодние обещания. У многих принято планировать изменения в жизни с первого января, обещая себе новые занятия и привычки. Обычно это что-то вроде “заниматься спортом”, “прочитать 30 книг”, “научиться играть на гитаре” и др. Это все прекрасно и полезно, но скорее всего не гарантирует качественных изменений этой самой жизни.

Но я хочу вам предложить new years resolutions, которые просто не могут не повлиять на жизнь! Особенно для релокантов, новоиспеченных или потенциальных.

1️⃣ Подавать заявки везде, где можно: на открытые интересные позиции с целью попасть на интервью, даже если не в поиске работы; в акселераторы, даже если стартап на уровне идеи; на конкурсы, в опенколлы, на обучение, даже если кажется, что мало шансов, и многое другое, в зависимости от сферы деятельности (пост про отказы). Каждое такое действие - это честная оценка самого себя на предмет производимой ценности (или своего потенциала ее производить!)

Никакие ежедневные медитации, новые практики продуктивности или изучение новых хобби не будут столь полезны.

2️⃣ Спрашивать совета у тех, кто поопытнее: есть идея стартапа? можно найти в линкедине 20 фаундеров и спросить, что они думают. Хочется расти в карьере, но непонятно, что изучать? Можно спросить 30 специалистов из индустрии - будут чрезвычайно полезные рекомендации.

Люди любят помогать! Если писать вежливо и win-win (пост), то на такие запросы совета очень предметно отвечают более половины.

Результаты усилий по этим двум пунктам можно оценивать объективно - ставить KPI, а также полуавтоматизировать, частично делегировать. И конечно многократно повторять! Каждое повторение будет занимать все меньше времени, так что не стоит бояться, если в первый раз что-то займет целый день.

Поверьте, результаты того стоят!


3️⃣ Сделать сайд-проект (пост): взгляд на мир изменится, если своими руками пощупать его реальную ткань - взаимовыгодное сотрудничество людей. Легко быть непризнанным гением с внешним локусом контроля! Но сделать что-то самому, пусть крошечное, чтобы это было кому-то нужно - задача намного сложнее, чем кажется теоретикам.

4️⃣ Если не выучен английский - начать блин наконец учить! ru-рынок настолько плохеет, что даже слабый английский вместе со славянским хмуром (пост) и непониманием культурного кода - статистически дают больше шансов на успех, чем жить надеждами на улучшение экономической ситуации. На это не хватит наших жизней.

5️⃣ Подумать про возможности вроде магистратуры - это лучшее, что могут сделать для своего будущего многие из вас (пост)

6️⃣ Не читать новости, совсем! Что я точно заметил среди нынешних ru-релокантов - так это прямую зависимость между отстраненностью от новостной повестки и уверенностью в своих силах и своем будущем. А значит и прогрессе - в карьере и жизни. “Медуза головного мозга” - это разрушительное явление для каждого, без исключения.

Вообще считаю, что обсуждать заголовки - это зашквар и признак очень поверхностного мышления. Но сейчас это еще и психологически разрушительно. Да, наш мир безвозвратно изменился, и в этой ситуации во-первых нужно смириться, во-вторых делать что-то для себя. Тут главное слово - ДЕЛАТЬ! Искать новые возможности намного полезнее, чем сидеть и страдать, наваливая еще больше груза из новостей.

Наше счастье и комфорт - в наших маленьких мирках. А формировать их - наша главная ответственность!

7️⃣ Ну и писать для других! Но не просто “челлендж 30 постов за 30 дней” (пост), а вдумчиво, по возможности полезно. О своем опыте, о возможностях для других, о найденных инсайтах и др. Тут качество намного важнее количества. Получается “превентивный win-win”! А все хорошее в виде пользы и добра всегда возвращается. Проверено на практике! 🙂

С новым годом! 🎄🪅🎉

@kyrillic
👍41🔥1
#music #poetry #allanpoe #soporaeternus

From childhood's hour I have not been
as others were; I have not seen
as others saw; I could not bring
my passions from a common spring.

From the same source I have not taken my sorrow,
I could not awaken my heart to joy at the same tone
and all I loved, I loved alone.

Then, in my childhood, in the dawn
of a most stormy life, was drawn
from every depth of good and ill
the mystery which binds me still.

From the torrent, or the fountain,
from the redcliff of the mountain,
from the sun that round me rolled
in its autumn tint of gold,

from the lightning in the sky
as it passed me flying by,
from the thunder and the storm,
and the cloud that took the form,
when the rest of Heaven was blue,
of a demon in my view.

https://www.youtube.com/watch?v=aZyDF49h_-Y
#prediction #forecast

The words predict and forecast are largely used interchangeably today, but in Shakespeare’s time, they meant different things. A prediction was what the soothsayer told you; a forecast was something more like Cassius’s idea. “Men at some time are masters of their fates,” says Cassius, hoping to persuade Brutus to partake in the conspiracy against Caesar.

The term forecast came from English’s Germanic roots, unlike predict, which is from Latin. Forecasting reflected the new Protestant worldliness rather than the otherworldliness of the Holy Roman Empire. Making a forecast typically implied planning under conditions of uncertainty. It suggested having prudence, wisdom, and industriousness, more like the way we now use the word foresight.
Говорят сейчас не модно подводить итоги года, но я это все же сделаю хотя бы по rusquant:

- очень много сделано в плане алготорговли на российском рынке - запустил аж 4 публичные стратегии на comon, которые полностью работают через мою библиотеку rusquant

https://www.comon.ru/users/arbuzov1989

- весь год пытался сообществу доказать, что R - это круто в инвестициях, а Python - это чаще всего оверфитинг. Как результат победа в хакатонах от

Финама
https://www.finam.ru/landings/hackathon-trade-api/

и Московской Биржи
https://goalgo.ru

- запустил свой авторский курс по алготорговле через R. Туда приходят самые крутые ученики и из них формируется классное закрытое сообщество
https://edu.rusquant.ru

- технологически очень прокачался за этот год, начиная от выгрузки библиотеки на кран и работы с гитхабом, до внедрения бессерверных вычисления на Яндекс.Облако и переезд на ClickHouse

- в декабре неожиданно для себя родился очень крутой проект GigaPack - это прорыв в том, что я до этого делал и сродни открытию какого-то важного закона физики. Даже сам еще до конца не осознал всей величины.
https://github.com/arbuzovv/GigaPack

- за этот очень сильно прокачал популяризацию библиотеки Rusquant - просто загуглите это название в поисковике☺️

Очень много всего не публиковал - ибо столкнулся с такой штукой как зависть. После определенных достижений - то машина ломается, то ребенок заболеет на 2 недели, то еще что-то. Я это подмечаю и чувствую (и часто даже догадываюсь от кого). Может кто оберег посоветует (смайлик там какой-нибудь или еще что-то).

А вообще всех с наступающим новый годом! А этот канал теперь решил сделать авторским, поэтому в 2024 ждите от меня здесь чаще личного контента.
👍1
#sport

Сегодня на качалке смотрю, интеллигентного вида мужчина лет под 50, в очках, чем-то похожий на шахматного чемпиона Крамника, качает веса побольше моих. Подошёл - мать честная, у него грудные мышцы как у быка, фигура квадратная. Думаю, подойдёшь к такому интеллигенту вечерком на остановочке, взять на гоп-стоп, он тебя самого до трусов разденет ))
#excel #microsoft #commonsense

Давно не работал в Экселе, пришлось вот открыть табличку сегодня. И снова меня поразило, что богатейшая корпорация в мире не способна нанять нормальных программистов, тестеров и менеджеров, чтобы ссука не интерпретировать число как дату "01.01.6445". тем более что все остальные значения в этом столбце явно числовые. Реально, окажись я там менеджером, погнал бы всех ссаными тряпками. Понанимали индусов, [censored].
😁4🤡1
#masters #scaling #preprocessing #robustscaler #timeseries

Перечитываю Мастерса, у него очень интересный подход к нормироваке и шкалированию временных рядов. Вместо общепринятых среднего и скв. отклонения в формуле (val-mean)/std, он использует медиану и межквартильное расстояние iqr. Идея очень резонная в плане устойчивости к выбросам. Я вот что подумал, в sklearn, конечно, есть RobustScaler, который делает вроде бы то же самое, но фишка в том, что Мастерс нормирующие показатели вычисляет не по всему train set, как RobustScaler, а по скользящему окну из последних T наблюдений. Надо бы попробовать модифицировать RobustScaler с учётом этой идеи.
👍1
#apple #management #ai

"Последний квартал прошлого года для Apple станет пятым подряд периодом снижения выручки, если негативные прогнозы сбудутся, но текущий год таит для компании трудности, не только связанные с отсутствием явного прогресса в функциональных возможностях iPhone. Как поясняет Марк Гурман со страниц Bloomberg, компания из Купертино буквально на годы отстаёт от основных конкурентов в сфере внедрения искусственного интеллекта."

Я же говорил!

https://3dnews.ru/1098416/apple-pozge-bolshinstva-konkurentov-vipustit-resheniya-s-poddergkoy-iskusstvennogo-intellekta
#outliers #anomaly #novelty #pyod #advicewanted

Уважаемые подписчики, кто работал с детекторами новизны в sklearn/pyod, подскажите. Вот обучились мы на геоданных из Москвы и Питера, и используем крайне простой детектор: если широта/долгота входов не попадает в диапазон train set, прогноз не делается. То есть по, к примеру, Парижу или Баку прогноз даже делаться не будет. А вот для городов типа Твери, Коломны такая простая защита уже не срабатывает, т.к. по одиночке их координаты попадают в допустимый диапазон. Какие детекторы можете посоветовать из своей практики для такого случая? Желательно с поддержкой категориальных признаков.