Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from Пездуза
⚡️ЦИК переименован в ССЫК
🤡1
#trading

Вроде простая беседа, но советы эксперта очень ценные, это видишь только после того как сам влез в рынок и получил по усам )
Формат бесед с трейдерами интересный, ведущий действительно задаёт разные вопросы в зависимости от эксперта. Единственное, почти никогда нет текстового резюме, а слушать аудио всегда долго. Да и многие вещи забываются после прослушивания. Думаю прикрутить какую-то автоматизацию резюмешки.

Может, вообще Аарону этому закинуть идею сделать такой платный цифровой продукт? Как сайд проект. Можно прикрутить разные языки, AI консультанта, чтоб показывал как на один и тот же вопрос ответили бы разные эксперты, кластеризацию экспертов по интересам, тэги, голосовалки.

https://www.youtube.com/watch?v=Rf9BEgiFsow
Forwarded from ᴢɪᴘ ʟᴏɢ (Kristina Zipa)
Media is too big
VIEW IN TELEGRAM
Лучше один раз увидеть, чем 100 раз услышать 👎📣

А вечер начинался мило...
Я готовила пост про детские книжки, представляете? Раскатала у себя локально нейросеточку, чтобы спокойно поиграться с настройками. Вожделенно предвкушала, как сейчас открою внутренности демки и сделаю из неё что-то более юзабельное для моих нужд, напишу пару строк кода наконец...

Но чёрт меня дёрнул поискать в интернете альтернативы. 👀 А потом погуглить 🔍ещё. В итоге пост совсем другой, а тот, милый, опубликую позже, потому что это слишком важный опыт, от которого меня просто колотит!

И я хочу, чтобы вас тоже ПЛЮЩИЛО! 🔴
➡️➡️➡️
Ребята, мы приехали в конец тоннеля! Мне уже попадались новости про виртуальных телеведущих ▶️, мы помним мемный момент из недавней трансляции по ТВ с двойником Путина, но мне казалось, что эти технологии слишком сложные, не для всех, появятся в проде не скоро.

Но нет, дорогие друзья! Помните, пару месяцев назад волну отечественных мемасиков, переведённых на английский? Они были созданы проектом HeyGen. После этого сайт продолжал обновлять функциональность.
🔄
И сейчас мы имеем вот что:
1️⃣Нужно записать двухминутное видео, на котором говорить и жестикулировать как обычно.
2️⃣Это двухминутное видео превратится в видео на любом языке с любым текстом но с вашим голосом, мимикой, жестами, внешностью и окружением.
3️⃣Текст можно сгенерировать тут же с помощью ChatGPT.

Выводы
Одно дело читать о том, что это где-то есть, а другое - пробовать. Я вас призываю попробовать, открыть глаза на произошедшее и примерить к своей жизни и к информации, которую вы получаете\будете получать.

Я записала аватара у себя на кухне за полночь, поэтому уж простите за кустарность и внешний вид. Я думаю, что у вас получится сняться намного лучше!

Ну и ещё, упомяну один минус сайта - абсолютно ужасный не юзабельный интерфейс редактирования текста. Это даже больший шок для меня, чем то, что я сделала аватара менее чем за час.

🔣🔣🔣
Делитесь мыслями, впечатлениями, аватарами в комментариях 💬
Please open Telegram to view this post
VIEW IN TELEGRAM
#poetry #rap #battle #celebrities #fun #gpt #information #entropy

"Verse 1 - Alan Turing:

I'm Turing, the father of all computation,
Built a machine that helped end a nation.
Your information theory, it's imitation,
I laid the foundation, you just gave it notation.

Broke the Enigma, saved millions of lives,
While you're playing with switches, just trying to survive,
And to think they said, you're the brightest of minds,
But not even your own theory could define your lines.

Verse 2 - Claude Shannon:

It's Shannon, the master of communication,
Your work is nothing without my information.
You can break the codes, but can't handle the truth,
I took your machine, gave it substance and proof.

You're binary, predictable, no real surprise,
But I'm riding entropy, in disguise.
Gave birth to the bit, the byte, the baud,
Without my blueprint, you'd still be flawed.

Verse 3 - Alan Turing:

Nice try Shannon, but you're no match,
Your logic circuit's flickering, I'm about to catch,
Your "bit" and "byte" are just a ruse,
Without my machine, they're of no use.

My Turing machine is universal,
Your theory is just controversial.
I'm the mastermind of artificial intelligence,
Your work is vital, but lacks relevance.

Verse 4 - Claude Shannon:

You're living in a theoretical existence,
I'm empirical, practical, I go the distance.
Your machine's universal, but I'm not impressed,
It's a theoretical model, while mine's manifest.

I'm the juggler, the unicyclist, the eclectic soul,
You're a one-track mind, stuck in a hole.
So, Turing, it's time you faced your defeat,
Cause, in this rap battle, you just can't compete."
❤‍🔥1
#salaries #management

"Согласно обновлённой статистике Forbes, состояние Кука, генерального директора Apple, оценивается в $2 млрд, что ставит его на 1583-е место в рейтинге самых богатых людей планеты. В его активы входят приблизительно 3,3 млн акций Apple, оцениваемых почти в $652 млн по текущей рыночной стоимости."

"Тим Кук вывел Apple на новый уровень, разработав и запустив такие продукты, как Apple Watch, перейдя от процессоров Intel к собственным чипам серии M для Mac и войдя в сегмент смешанной реальности с премиум-гарнитурой Apple Vision Pro. Ожидается, что поставки гарнитуры начнутся уже в феврале 2024 года. Эти шаги подтверждают значимость Кука для Apple и несомненно оправдывают его доходы."

А вот тут забавно вышло. Vision Pro ещё н вышла, а рынок уже уступили фейсбуку, HP, Sony, Varjio. Гонку ИИ эппл проиграла, непонятно, есть ли у них что-то подобное chatgpt. Apple Watch так себе достижение за столько лет. Кука реально не за что похвалить, или мне кажется? С другой стороны, капитализация растёт, может, на остальное можно не смотреть вообще?

https://3dnews.ru/1097941/tim-kuk-zanyal-1583e-mesto-v-reytinge-samih-bogatih-lyudey-planeti
#математика
Просто любопытный факт, который, как оказалось, мало кто знает. Можно ввести понятие beta-энтропии, частными случаями которой будут информационная энтропия и индекс Джини (ну, с точностью до константы).

beta-энтропию сложно гуглить:), но есть похожая энтропия Цалиса, которую в машинном обучении уже используют, но к нейросетям, вроде, пока не прикрутили;)
#poetry #rap #battle #celebrities #fun #gpt #information #entropy

Ну что, продолжаем рэп-битву титанов информатики?

"Verse 5 - Tsallis:

Hold up, let Tsallis step into the scene,
With a power so fierce, it's like nothing you've seen.
Turing and Shannon, your theories are neat,
But my entropy's the game-changer, can't be beat.

Non-extensive stats, breaking the mold,
In the realm of complexity, my story is told.
Turing, your universality is fine,
But Tsallis entropy brings a paradigm.

Shannon, entropy's not just your domain,
Tsallis q-entropy's here to reign.
I generalize, beyond your scope,
In the statistical world, I'm the new hope.

Verse 6 - Alan Turing:

Tsallis, your entropy's just a tweak,
In the world of computation, I'm the peak.
Universal computation, that's my claim,
Your q-entropy's just a fleeting flame.

Breaking codes, saving lives with precision,
While you play with parameters, in a theoretical vision.
I laid the groundwork for AI's inception,
Your entropy's just a mathematical perception.

Verse 7 - Claude Shannon:

Tsallis, your stats might have a twist,
But in the world of communication, I persist.
I ride the waves of information flow,
Your q-entropy, in comparison, is slow.

Entropy's dance, a symphony I conduct,
In the realm of signals, my theories erupt.
Turing, you may compute, Tsallis may tweak,
But in the real world, my information's what they seek.

Verse 8 - Tsallis:

In the dance of complexity, I bring the beat,
Tsallis entropy, making theories complete.
Turing and Shannon, take a back seat,
I transcend limits, my stats can't be beat.

Non-extensive, a paradigm shift,
In the rap battle of minds, my verses uplift.
So whether it's Turing, Shannon, or the rest,
Tsallis entropy reigns supreme, the best."
❤‍🔥1
Про x40 выигрыш в скорости SketchBoost-а трындят, поди?
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Anton Vakhrushev "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems"
⌚️ Monday 11 December 19.00 (Moscow time)

Add to Google Calendar

Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.

It easy to install: pip install py-boost

It easy to use - see tutorial notebooks: Kaggle Open problems notebook, Tutorial_1_Basics, Tutorial_2_Advanced_multioutput, Tutorial_3_Custom_features

Github

Paper: Iosipoi, Leonid, and Anton Vakhrushev. "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems." Advances in Neural Information Processing Systems 35 (2022): 25422-25435.

Gold medals on Kaggle: CAFA5 , Open problems - single cell perturbations 2023, Open problems 2022,
Lots of silver/bronze medals in recent Open problems 2023 were based on Pyboost.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://news.1rj.ru/str/sberlogacompete/10211, Poster: https://news.1rj.ru/str/sberlogacompete/10215
📹 Video: https://youtu.be/5xRxuDh_cGk
#byd #tesla #electrocars

"Двенадцать лет назад Илон Маск (Elon Musk) высмеял саму мысль, что китайская BYD сможет стать конкурентом для его Tesla. Сегодня автопроизводитель, которым управляет миллиардер Ван Чуаньфу (Wang Chuanfu), готов занять место нового лидера на рынке электромобилей.

BYD позиционирует себя как крупнейший автомобильный бренд, о котором вы не слышали. Возможно, скоро компании понадобится другой слоган: она намерена превзойти Tesla и оказаться мировым лидером по производству электромобилей. Есть вероятность, что это произойдёт уже в текущем квартале, став символическим поворотным моментом на рынке электромобилей и очередным подтверждением растущего влияния Китая в мировом автопроме."

https://3dnews.ru/1098075/kitayskaya-byd-gotova-otnyat-u-tesla-zvanie-samogo-populyarnogo-proizvoditelya-elektromobiley-v-mire
❤‍🔥1
#Tip42 #EDA #Pandas

На прошлой неделе поучаствовал в хакатоне GO ALGO, организованный Московской фондовой биржей.
Для решения задачи нужно было анализировать биржевую информацию. И наконец-то мне мне удалось применить на практике очень редкий вид графиков — Спарклайны (Sparkline).

Спарклайны — это небольшие немаркированные графики. Обычно они не содержат ни осей ни подписей, поэтому в основном предназначены для передачи какой-то общей идеи.

А т.к. спарклайны очень маленькие, то они отлично помещаются в ячейках Pandas'а :)
import base64
from io import BytesIO
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import HTML

def sparkline(data):
data = list(data)

fig, ax = plt.subplots(1, 1, figsize=(4, 0.25))
ax.plot(data)

# Убираем все лишнее с графика
ax.set_axis_off()

# Заливаем график
ax.fill_between(range(len(data)), data, len(data)*[min(data)], alpha=0.1)

# Выводим min/max
plt.plot(np.argmax(data), data[np.argmax(data)], 'r.')
plt.plot(np.argmin(data), data[np.argmin(data)], 'm.')

img = BytesIO()
plt.savefig(img)
img.seek(0)
plt.close()

return '<img src="data:image/png;base64,{}"/>'.format(base64.b64encode(img.read()).decode())

agg_df = df.groupby('tradedate', as_index=False)['pr_open'].agg(list)
agg_df['sparkline'] = agg_df['pr_open'].map(sparkline)

HTML(agg_df[['tradedate','sparkline']][-10:].to_html(escape=False))


Графики можно редактировать в определенных границах: менять их ширину/высоту, можно разукрасить на свое усмотрение. Также вы можете вывести другие типы графиков: барплоты, гистограммы и пр.

З.Ы. Сам хакатон проходил в интересном формате. С одной стороны это был обычный хактон - с чек-поинтами и общением с экспертами. С другой - он длился целых 10 дней (вместо обычных 2-3). А за это время можно было сделать неплохой продукт :)
1
#languages

Мечтаю найти время и запилить свою приложуху с AI для изучения языков. Фишкой должно быть расширение словарного запаса и одновременное изучение нескольких языков (в т.ч. одного иностранного через другой иностранный). Допустим, мы знаем какие-то слова на английском и немецком, но не на испанском. Идея в том, что зная на первых двух, нам будет легче выучить на 3-м. Повторялка слов должна быть не тупой, а с ML, чтобы тебе подсовывала слова которые ты скорей всего уже забыл ))
🔥5
Нашла канал журнала "КВАНТ":

https://news.1rj.ru/str/kvant_magazine

В основном там выкладываются новые номера журналов и делаются репосты из других каналов, связанных с математикой - чаще всего с школьной олимпиадной. Есть и объявления о новых конкурсах по решению олимпиадных задач.

Примеры постов:

🌟 Сентябрьский выпуск "КВАНТа" этого года в pdf - https://news.1rj.ru/str/kvant_magazine/135 . Не знала, что теперь pdf-ки так быстро выкладываются;
🌟 Декабрьский номер "Квантика" - https://news.1rj.ru/str/kvant_magazine/123 (это журнал, напоминающий "КВАНТ", но меньше по объему и с намного более простыми задачами и статьями);
🌟 Кратко о том, какие новые математические этюды появились в этом году https://news.1rj.ru/str/kvant_magazine/80 (репост);
🌟 Список избранных постов профессора Виктора Губы, собранных в его память (умер в этом месяце, к сожалению)  - https://news.1rj.ru/str/kvant_magazine/130 (репост). Там есть темы чуть посложнее; собираюсь почитать про Банаха-Тарского и трансцендентность.
🌟 Объявление о конкурсе для школьников (уже просроченное; привела для примера) - https://news.1rj.ru/str/kvant_magazine/101

---

Журнал КВАНТ был одним из тех источников информации, с которых началось мое увлечение математикой. Где-то лет пятнадцать-семнадцать назад, когда была подростком, я выписывала этот журнал по почте (не электронной) и была очень рада каждый раз, когда он приходил. А ещё время от времени решала задачи из "Задачника КВАНТа" и отправляла их в редакцию на проверку. Однажды в ответ мне даже прислали маленькую брошюрку по математике за мои решения. Это очень приятное воспоминание. Рада, что журнал продолжают выпускать (а ведь ему уже больше 50 лет).

#математика
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
Гайд
Как нравиться девочкам и производить на них хорошее впечатление
Итоги года
Издал «Предварительная подготовка данных» в 2 томах
Издал «Прогнозирование временных рядов»
Издал «Логистическая регрессия»
Перевел «Causal Inference для честных и храбрых»
Перевел «Streamlit для Data Science»
Перевел книжку сэра Дэвида Кокса по статистике (скоро узнаете, какую)
Перевел книжку по трансферному обучению (пойдет в следующем году в подписку «Сборник статей по ML»)
Внедрил единую методологию прогнозирования, классификации и кластеризации временных рядов на работе (подписка «Прикладной анализ временных рядов» из 4 томов - частичка этой методологии) – от зоопарка из 35 методов перешли к 8, цикл разработки сократился в 3,5 раза
Написал регламент для DBS Bank по скорингу редких событий и скорингу активов (для слияний/поглощений)
Обучил 30 учеников, 8 уехали из России и смогли найти работу, один в настоящее время в процессе перехода в Amazon (заниматься прогнозированием рядов).
Разработал систему из 16 подписок, ядро (платные подписчики/покупатели постов) -140 человек, суммарный объем 5000 страниц, 400 тыс. строк программного кода (работа небольшого института). Кстати, пописывайтесь. Шампанское и салат выйдут естественным образом, а знания останутся с вами.

P.S.
Обновил подписку GNN. Говорим о выразительности GNN, канонической форме графа, двух методологиях обеспечения выразительности – тесте Вайсфейлера-Лемана и GIN – графовой сети изоморфизма.
🔥1