Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#salaries #management

"Согласно обновлённой статистике Forbes, состояние Кука, генерального директора Apple, оценивается в $2 млрд, что ставит его на 1583-е место в рейтинге самых богатых людей планеты. В его активы входят приблизительно 3,3 млн акций Apple, оцениваемых почти в $652 млн по текущей рыночной стоимости."

"Тим Кук вывел Apple на новый уровень, разработав и запустив такие продукты, как Apple Watch, перейдя от процессоров Intel к собственным чипам серии M для Mac и войдя в сегмент смешанной реальности с премиум-гарнитурой Apple Vision Pro. Ожидается, что поставки гарнитуры начнутся уже в феврале 2024 года. Эти шаги подтверждают значимость Кука для Apple и несомненно оправдывают его доходы."

А вот тут забавно вышло. Vision Pro ещё н вышла, а рынок уже уступили фейсбуку, HP, Sony, Varjio. Гонку ИИ эппл проиграла, непонятно, есть ли у них что-то подобное chatgpt. Apple Watch так себе достижение за столько лет. Кука реально не за что похвалить, или мне кажется? С другой стороны, капитализация растёт, может, на остальное можно не смотреть вообще?

https://3dnews.ru/1097941/tim-kuk-zanyal-1583e-mesto-v-reytinge-samih-bogatih-lyudey-planeti
#математика
Просто любопытный факт, который, как оказалось, мало кто знает. Можно ввести понятие beta-энтропии, частными случаями которой будут информационная энтропия и индекс Джини (ну, с точностью до константы).

beta-энтропию сложно гуглить:), но есть похожая энтропия Цалиса, которую в машинном обучении уже используют, но к нейросетям, вроде, пока не прикрутили;)
#poetry #rap #battle #celebrities #fun #gpt #information #entropy

Ну что, продолжаем рэп-битву титанов информатики?

"Verse 5 - Tsallis:

Hold up, let Tsallis step into the scene,
With a power so fierce, it's like nothing you've seen.
Turing and Shannon, your theories are neat,
But my entropy's the game-changer, can't be beat.

Non-extensive stats, breaking the mold,
In the realm of complexity, my story is told.
Turing, your universality is fine,
But Tsallis entropy brings a paradigm.

Shannon, entropy's not just your domain,
Tsallis q-entropy's here to reign.
I generalize, beyond your scope,
In the statistical world, I'm the new hope.

Verse 6 - Alan Turing:

Tsallis, your entropy's just a tweak,
In the world of computation, I'm the peak.
Universal computation, that's my claim,
Your q-entropy's just a fleeting flame.

Breaking codes, saving lives with precision,
While you play with parameters, in a theoretical vision.
I laid the groundwork for AI's inception,
Your entropy's just a mathematical perception.

Verse 7 - Claude Shannon:

Tsallis, your stats might have a twist,
But in the world of communication, I persist.
I ride the waves of information flow,
Your q-entropy, in comparison, is slow.

Entropy's dance, a symphony I conduct,
In the realm of signals, my theories erupt.
Turing, you may compute, Tsallis may tweak,
But in the real world, my information's what they seek.

Verse 8 - Tsallis:

In the dance of complexity, I bring the beat,
Tsallis entropy, making theories complete.
Turing and Shannon, take a back seat,
I transcend limits, my stats can't be beat.

Non-extensive, a paradigm shift,
In the rap battle of minds, my verses uplift.
So whether it's Turing, Shannon, or the rest,
Tsallis entropy reigns supreme, the best."
❤‍🔥1
Про x40 выигрыш в скорости SketchBoost-а трындят, поди?
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Anton Vakhrushev "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems"
⌚️ Monday 11 December 19.00 (Moscow time)

Add to Google Calendar

Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.

It easy to install: pip install py-boost

It easy to use - see tutorial notebooks: Kaggle Open problems notebook, Tutorial_1_Basics, Tutorial_2_Advanced_multioutput, Tutorial_3_Custom_features

Github

Paper: Iosipoi, Leonid, and Anton Vakhrushev. "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems." Advances in Neural Information Processing Systems 35 (2022): 25422-25435.

Gold medals on Kaggle: CAFA5 , Open problems - single cell perturbations 2023, Open problems 2022,
Lots of silver/bronze medals in recent Open problems 2023 were based on Pyboost.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://news.1rj.ru/str/sberlogacompete/10211, Poster: https://news.1rj.ru/str/sberlogacompete/10215
📹 Video: https://youtu.be/5xRxuDh_cGk
#byd #tesla #electrocars

"Двенадцать лет назад Илон Маск (Elon Musk) высмеял саму мысль, что китайская BYD сможет стать конкурентом для его Tesla. Сегодня автопроизводитель, которым управляет миллиардер Ван Чуаньфу (Wang Chuanfu), готов занять место нового лидера на рынке электромобилей.

BYD позиционирует себя как крупнейший автомобильный бренд, о котором вы не слышали. Возможно, скоро компании понадобится другой слоган: она намерена превзойти Tesla и оказаться мировым лидером по производству электромобилей. Есть вероятность, что это произойдёт уже в текущем квартале, став символическим поворотным моментом на рынке электромобилей и очередным подтверждением растущего влияния Китая в мировом автопроме."

https://3dnews.ru/1098075/kitayskaya-byd-gotova-otnyat-u-tesla-zvanie-samogo-populyarnogo-proizvoditelya-elektromobiley-v-mire
❤‍🔥1
#Tip42 #EDA #Pandas

На прошлой неделе поучаствовал в хакатоне GO ALGO, организованный Московской фондовой биржей.
Для решения задачи нужно было анализировать биржевую информацию. И наконец-то мне мне удалось применить на практике очень редкий вид графиков — Спарклайны (Sparkline).

Спарклайны — это небольшие немаркированные графики. Обычно они не содержат ни осей ни подписей, поэтому в основном предназначены для передачи какой-то общей идеи.

А т.к. спарклайны очень маленькие, то они отлично помещаются в ячейках Pandas'а :)
import base64
from io import BytesIO
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import HTML

def sparkline(data):
data = list(data)

fig, ax = plt.subplots(1, 1, figsize=(4, 0.25))
ax.plot(data)

# Убираем все лишнее с графика
ax.set_axis_off()

# Заливаем график
ax.fill_between(range(len(data)), data, len(data)*[min(data)], alpha=0.1)

# Выводим min/max
plt.plot(np.argmax(data), data[np.argmax(data)], 'r.')
plt.plot(np.argmin(data), data[np.argmin(data)], 'm.')

img = BytesIO()
plt.savefig(img)
img.seek(0)
plt.close()

return '<img src="data:image/png;base64,{}"/>'.format(base64.b64encode(img.read()).decode())

agg_df = df.groupby('tradedate', as_index=False)['pr_open'].agg(list)
agg_df['sparkline'] = agg_df['pr_open'].map(sparkline)

HTML(agg_df[['tradedate','sparkline']][-10:].to_html(escape=False))


Графики можно редактировать в определенных границах: менять их ширину/высоту, можно разукрасить на свое усмотрение. Также вы можете вывести другие типы графиков: барплоты, гистограммы и пр.

З.Ы. Сам хакатон проходил в интересном формате. С одной стороны это был обычный хактон - с чек-поинтами и общением с экспертами. С другой - он длился целых 10 дней (вместо обычных 2-3). А за это время можно было сделать неплохой продукт :)
1
#languages

Мечтаю найти время и запилить свою приложуху с AI для изучения языков. Фишкой должно быть расширение словарного запаса и одновременное изучение нескольких языков (в т.ч. одного иностранного через другой иностранный). Допустим, мы знаем какие-то слова на английском и немецком, но не на испанском. Идея в том, что зная на первых двух, нам будет легче выучить на 3-м. Повторялка слов должна быть не тупой, а с ML, чтобы тебе подсовывала слова которые ты скорей всего уже забыл ))
🔥5
Нашла канал журнала "КВАНТ":

https://news.1rj.ru/str/kvant_magazine

В основном там выкладываются новые номера журналов и делаются репосты из других каналов, связанных с математикой - чаще всего с школьной олимпиадной. Есть и объявления о новых конкурсах по решению олимпиадных задач.

Примеры постов:

🌟 Сентябрьский выпуск "КВАНТа" этого года в pdf - https://news.1rj.ru/str/kvant_magazine/135 . Не знала, что теперь pdf-ки так быстро выкладываются;
🌟 Декабрьский номер "Квантика" - https://news.1rj.ru/str/kvant_magazine/123 (это журнал, напоминающий "КВАНТ", но меньше по объему и с намного более простыми задачами и статьями);
🌟 Кратко о том, какие новые математические этюды появились в этом году https://news.1rj.ru/str/kvant_magazine/80 (репост);
🌟 Список избранных постов профессора Виктора Губы, собранных в его память (умер в этом месяце, к сожалению)  - https://news.1rj.ru/str/kvant_magazine/130 (репост). Там есть темы чуть посложнее; собираюсь почитать про Банаха-Тарского и трансцендентность.
🌟 Объявление о конкурсе для школьников (уже просроченное; привела для примера) - https://news.1rj.ru/str/kvant_magazine/101

---

Журнал КВАНТ был одним из тех источников информации, с которых началось мое увлечение математикой. Где-то лет пятнадцать-семнадцать назад, когда была подростком, я выписывала этот журнал по почте (не электронной) и была очень рада каждый раз, когда он приходил. А ещё время от времени решала задачи из "Задачника КВАНТа" и отправляла их в редакцию на проверку. Однажды в ответ мне даже прислали маленькую брошюрку по математике за мои решения. Это очень приятное воспоминание. Рада, что журнал продолжают выпускать (а ведь ему уже больше 50 лет).

#математика
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
Гайд
Как нравиться девочкам и производить на них хорошее впечатление
Итоги года
Издал «Предварительная подготовка данных» в 2 томах
Издал «Прогнозирование временных рядов»
Издал «Логистическая регрессия»
Перевел «Causal Inference для честных и храбрых»
Перевел «Streamlit для Data Science»
Перевел книжку сэра Дэвида Кокса по статистике (скоро узнаете, какую)
Перевел книжку по трансферному обучению (пойдет в следующем году в подписку «Сборник статей по ML»)
Внедрил единую методологию прогнозирования, классификации и кластеризации временных рядов на работе (подписка «Прикладной анализ временных рядов» из 4 томов - частичка этой методологии) – от зоопарка из 35 методов перешли к 8, цикл разработки сократился в 3,5 раза
Написал регламент для DBS Bank по скорингу редких событий и скорингу активов (для слияний/поглощений)
Обучил 30 учеников, 8 уехали из России и смогли найти работу, один в настоящее время в процессе перехода в Amazon (заниматься прогнозированием рядов).
Разработал систему из 16 подписок, ядро (платные подписчики/покупатели постов) -140 человек, суммарный объем 5000 страниц, 400 тыс. строк программного кода (работа небольшого института). Кстати, пописывайтесь. Шампанское и салат выйдут естественным образом, а знания останутся с вами.

P.S.
Обновил подписку GNN. Говорим о выразительности GNN, канонической форме графа, двух методологиях обеспечения выразительности – тесте Вайсфейлера-Лемана и GIN – графовой сети изоморфизма.
🔥1
1
1
#milestones #plans #2023

Итоги моего 2023-го года.

Бизнес-проекты

К сожалению, у меня трудности с доведением замыслов до готового продукта, даже если технически всё реализовать я могу - теряется как-то быстро интерес, что ли. В 2023-м я "технически сделал" 1 такой продукт/сервис для поиска подходящих облачных серверов, #opticloud, но никуда в паблик пока не вывел. Также за этот год появились идеи как минимум 6 интересных стартапов (от знакомств и обучения языкам до оптимизации СУБД), над некоторыми я даже неплохо поработал и добился начального прогресса. Благодаря неожиданно вышедшему на связь старому товарищу поработал над ML в оценке недвижимости. В планах на 2024-й продолжить работу над этими проектами, и, самое важное, зарелизить как минимум 1 общедоступный цифровой продукт.

Совместная работа

В очередной раз убедился, что люди неактивны, равнодушны, ничего не хотят делать. Была надежда, что в команде получится работать гораздо продуктивнее, но не получилось никого найти )

ML

За год удалось вернуться к многим своим старым идеям о взаимной информации и отборе признаков, переписать свою старую библиотечку с visual basic на python с многопроцессорностью и gpu, сформулировать идеи экспериментов и сравнений, которые надо провести. Начал писать свою FS-либу #diogenes, сейчас она включает в себя на 95% готовые модули filters и wrappers с кастомной реализацией SelectBest и #RFECV и превосходит по функциональности и качеству всё то, что я знаю из общедоступных решений. В планах на 2024-й её доведение до ума и интеграция со своей библиотекой оптимизации гиперпараметров.

Обучение

В основном я прокачивал знания в ML, просматривая/прослушивая ютуб-ролики, на эту тему (эффективного усваивания подобного материала) появились идеи ещё нескольких стартапов )

Соревнования

В очередной раз подтвердилось моё понимание, что ML-соревы - это бесполезная трата времени. Насколько я был воодушевлён, решив поучаствовать в #watersupply, настолько же оказался разочарован, увидев, какие тупые искусственные ограничения туда добавили организаторы. Ещё более меня разочаровали 350+ дата сайентистов, которые слова не сказали против таких правил, позволяющих пилить оверфитнутые решения, бессмысленные с точки зрения практики. В итоге, после препирания (моего и ещё 1 неравнодушного участника) с админами площадки, незадолго от дедлайна пришло уведомление, что идиотские ограничения убраны, что ещё более усилило, как это модно говорить, чувство кринжа.

Правда, в начале года я выиграл мини-сореву по предсказанию цен на электричество #electricity, но там каждому участнику была гарантирована компенсация в $2k независимо от места, и я ничего не терял. С тех пор, кстати, я сильно прокачал модуль генерации признаков для временных рядов, использованный в сореве.

Публицистика

Написал несколько статей на medium. Площадка - говно, но и хабр не лучше, а куда-то писать надо было.

Трейдинг

Это одна из тем, к которой я регулярно возвращаюсь со времён университета, и отступаю из-за нехватки знаний. В этот раз уже знаний, кажется, хватает, но завяз в тонкостях реализации. Проделана большая работа в нескольких поднаправлениях, в частности, сделано хорошее логирование экспериментов в MFlow, с ансамблями и стекнгом. Ожидается существенный прогресс от интеграции с Диогеном. Надо, как всегда, побыстрее делать простое работающее решение, и постепенно улучшать. В этом плане я решил попробвать сначала поработать с трейдером, предоставив ему информационную поддержку в виде веб-панельки с прогнозами, какие активы имеют высокую вероятность роста/падения в ближайшее время, посмотрим, будет ли она полезной. В планах на 2024-й, безусловно, полностью автоматизированная торговля на основе ML моделей.
#milestones #plans #2023

Политика, война, будущее

Я по-прежнему в ужасе о того, что происходит в моей стране, и как гадко себя ведут люди. Считаю, что всё плохое происходит от лжи и равнодушия. У нас одни врут, другие делают вид, что всё как и надо, прекрасное комбо. Я за правду, за инициативу, за мир. Считаю, что ресурсы (финансовые, технологические, умственные) люди должны направить на исследование и заселение других планет, создание космического зонтика вокруг Земли #astronomy, борьбу с болезнями, улучшение качества жизни всех людей и животных. Я против питекантропов, которые этого не понимают.

Религия

Продолжаю быть разочарован #religion. На поверку большинство верующих кажутся просто лжецами. В лучшем случае лгут другим, в худшем - себе.

ИИ

Очень вдохновлён прогрессом OpenAI и больших языковых моделей в целом, уже понятно, что за ними будущее и что именно через них люди смогут создать сильный ИИ. Разделяю точку зрения Курцвейла #futurology, что за этим последует эпоха "сингулярности", эра экспоненциального развития человечества и даже непредставимых пока открытий. Возможно, что это случится в ближайшие годы. Но не хотелось бы, чтобы ИИ оказался той самой причиной, которая уничтожает цивилизации по мере выхода на определённый уровень развития.


Заключение: год паршивый, людей я по-прежнему не понимаю, работал немало, а надо ещё больше и сфокусированнее, но ещё есть некоторая надежда. Надеюсь, 2024-й будет лучше. С Новым годом! )
🎄7🤡1
#trading #grimes

Осмелюсь порекомендовать трейдера-практика Adam Grimes. Наткнулся на его лекции в ютубе, много здравых идей, чувствуется понимание темы. Возможно, буду выкладывать видосы по мере освоения материала, а пока, вот его сайт.

Ещё у него есть бесплатный курс по трейдингу и две книги с хорошими отзывами.
1👀1
#featureengineering #gruzdev #pygeohash

Также порекламирую следующие мини-лекции по созданию признаков. Я потратил несколько долларов, чего и вам советую сделать )

Про геохэши вообще раньше не знал. Также ценным показался авторский опыт про манхэттенское расстояние в задачах оценки недвижимости, важность разнообразия MCC кодов и структуры deposits/withdrawals в задаче оттока. Ещё из необычного понравились:
- идея с округлением вещественных значений;
- идея с промежуточной моделью и формированием новых признаков - отношений между топовыми фичами (по важности) промежуточной модели (odd-even). Вообще данный подход кажется интересным для исследования на стадии feature improvement (название только что придумал). У меня по этому направлению будет отдельная работа, завязанная на теорию информации.

Интересно было отступление о методе EFB в lightgbm и связи с задачей раскраски карты.

Для DS со средним опытом лекции будут полезны. Ну и полнота охвата позволит не забыть некоторые очевидные вещи (типа включения курса доллара, индекса покупательной способности, и прочей макроэкономики) и потестить их в своём конкретном проекте. Я уже записал пару вещей в бэклог своих.

https://boosty.to/gewissta/posts/46a20bb7-3a49-43d3-b63c-1610c608e7fa
👍1
Хотя нет, уже не советую ) Иметь дела с такими токсичными людьми желания мало.
😁2