Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from ᴢɪᴘ ʟᴏɢ (Kristina Zipa)
This media is not supported in your browser
VIEW IN TELEGRAM
Пробуем FAL - потоковую генерацию deep fake.

Промпт:
a picture of Ariana Grande, elegant, in a white top, with high ponytail, 8k, uhd

реальное время
видео
онлайн
бесплатно
есть артефакты
несоответствие промту: заменил только лицо, одежду и причёску не смог сделать согласно запросу

Эта технология в перспективе воспитает в нас неуверенность, с кем же мы имеем дело на видеосозвоне, и лишит Вована и Лексуса части их уникальности.😯
Представляю, насколько эффективнее мошенники будут разводить родственников с угнанного аккаунта! 👻

Скорее всего, нужно будет изменить наши протоколы коммуникации:
🔣только очные собеседования,
🔣лично и устно переданная секретная информация для идентификации в подозрительных ситуациях (например, мелкие детали общего прошлого).
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Thinking Clearly with Data: A Guide to Quantitative Reasoning and Analysis by Ethan Bueno de Mesquita, Anthony Fowler

An introduction to data science or statistics shouldn’t involve proving complex theorems or memorizing obscure terms and formulas, but that is exactly what most introductory quantitative textbooks emphasize. In contrast, Thinking Clearly with Data focuses, first and foremost, on critical thinking and conceptual understanding in order to teach students how to be better consumers and analysts of the kinds of quantitative information and arguments that they will encounter throughout their lives.

Among much else, the book teaches how to assess whether an observed relationship in data reflects a genuine relationship in the world and, if so, whether it is causal; how to make the most informative comparisons for answering questions; what questions to ask others who are making arguments using quantitative evidence; which statistics are particularly informative or misleading; how quantitative evidence should and shouldn’t influence decision-making; and how to make better decisions by using moral values as well as data.

- An ideal textbook for introductory quantitative methods courses in data science, statistics, political science, economics, psychology, sociology, public policy, and other fields
- Introduces the basic toolkit of data analysis―including sampling, hypothesis testing, Bayesian inference, regression, experiments, instrumental variables, differences in differences, and regression discontinuity
- Uses real-world examples and data from a wide variety of subjects
- Includes practice questions and data exercises

Link: https://www.amazon.com/Thinking-Clearly-Data-Quantitative-Reasoning/dp/0691214352

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #datascience #correlation #regression #causation #randomizedexperiments #statistics

@data_science_links
#conformal #mapie #crepes #timeseries

Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.

https://www.youtube.com/watch?v=--WcrDRtrYk
2
Forwarded from Пездуза
⚡️ЦИК переименован в ССЫК
🤡1
#trading

Вроде простая беседа, но советы эксперта очень ценные, это видишь только после того как сам влез в рынок и получил по усам )
Формат бесед с трейдерами интересный, ведущий действительно задаёт разные вопросы в зависимости от эксперта. Единственное, почти никогда нет текстового резюме, а слушать аудио всегда долго. Да и многие вещи забываются после прослушивания. Думаю прикрутить какую-то автоматизацию резюмешки.

Может, вообще Аарону этому закинуть идею сделать такой платный цифровой продукт? Как сайд проект. Можно прикрутить разные языки, AI консультанта, чтоб показывал как на один и тот же вопрос ответили бы разные эксперты, кластеризацию экспертов по интересам, тэги, голосовалки.

https://www.youtube.com/watch?v=Rf9BEgiFsow
Forwarded from ᴢɪᴘ ʟᴏɢ (Kristina Zipa)
Media is too big
VIEW IN TELEGRAM
Лучше один раз увидеть, чем 100 раз услышать 👎📣

А вечер начинался мило...
Я готовила пост про детские книжки, представляете? Раскатала у себя локально нейросеточку, чтобы спокойно поиграться с настройками. Вожделенно предвкушала, как сейчас открою внутренности демки и сделаю из неё что-то более юзабельное для моих нужд, напишу пару строк кода наконец...

Но чёрт меня дёрнул поискать в интернете альтернативы. 👀 А потом погуглить 🔍ещё. В итоге пост совсем другой, а тот, милый, опубликую позже, потому что это слишком важный опыт, от которого меня просто колотит!

И я хочу, чтобы вас тоже ПЛЮЩИЛО! 🔴
➡️➡️➡️
Ребята, мы приехали в конец тоннеля! Мне уже попадались новости про виртуальных телеведущих ▶️, мы помним мемный момент из недавней трансляции по ТВ с двойником Путина, но мне казалось, что эти технологии слишком сложные, не для всех, появятся в проде не скоро.

Но нет, дорогие друзья! Помните, пару месяцев назад волну отечественных мемасиков, переведённых на английский? Они были созданы проектом HeyGen. После этого сайт продолжал обновлять функциональность.
🔄
И сейчас мы имеем вот что:
1️⃣Нужно записать двухминутное видео, на котором говорить и жестикулировать как обычно.
2️⃣Это двухминутное видео превратится в видео на любом языке с любым текстом но с вашим голосом, мимикой, жестами, внешностью и окружением.
3️⃣Текст можно сгенерировать тут же с помощью ChatGPT.

Выводы
Одно дело читать о том, что это где-то есть, а другое - пробовать. Я вас призываю попробовать, открыть глаза на произошедшее и примерить к своей жизни и к информации, которую вы получаете\будете получать.

Я записала аватара у себя на кухне за полночь, поэтому уж простите за кустарность и внешний вид. Я думаю, что у вас получится сняться намного лучше!

Ну и ещё, упомяну один минус сайта - абсолютно ужасный не юзабельный интерфейс редактирования текста. Это даже больший шок для меня, чем то, что я сделала аватара менее чем за час.

🔣🔣🔣
Делитесь мыслями, впечатлениями, аватарами в комментариях 💬
Please open Telegram to view this post
VIEW IN TELEGRAM
#poetry #rap #battle #celebrities #fun #gpt #information #entropy

"Verse 1 - Alan Turing:

I'm Turing, the father of all computation,
Built a machine that helped end a nation.
Your information theory, it's imitation,
I laid the foundation, you just gave it notation.

Broke the Enigma, saved millions of lives,
While you're playing with switches, just trying to survive,
And to think they said, you're the brightest of minds,
But not even your own theory could define your lines.

Verse 2 - Claude Shannon:

It's Shannon, the master of communication,
Your work is nothing without my information.
You can break the codes, but can't handle the truth,
I took your machine, gave it substance and proof.

You're binary, predictable, no real surprise,
But I'm riding entropy, in disguise.
Gave birth to the bit, the byte, the baud,
Without my blueprint, you'd still be flawed.

Verse 3 - Alan Turing:

Nice try Shannon, but you're no match,
Your logic circuit's flickering, I'm about to catch,
Your "bit" and "byte" are just a ruse,
Without my machine, they're of no use.

My Turing machine is universal,
Your theory is just controversial.
I'm the mastermind of artificial intelligence,
Your work is vital, but lacks relevance.

Verse 4 - Claude Shannon:

You're living in a theoretical existence,
I'm empirical, practical, I go the distance.
Your machine's universal, but I'm not impressed,
It's a theoretical model, while mine's manifest.

I'm the juggler, the unicyclist, the eclectic soul,
You're a one-track mind, stuck in a hole.
So, Turing, it's time you faced your defeat,
Cause, in this rap battle, you just can't compete."
❤‍🔥1
#salaries #management

"Согласно обновлённой статистике Forbes, состояние Кука, генерального директора Apple, оценивается в $2 млрд, что ставит его на 1583-е место в рейтинге самых богатых людей планеты. В его активы входят приблизительно 3,3 млн акций Apple, оцениваемых почти в $652 млн по текущей рыночной стоимости."

"Тим Кук вывел Apple на новый уровень, разработав и запустив такие продукты, как Apple Watch, перейдя от процессоров Intel к собственным чипам серии M для Mac и войдя в сегмент смешанной реальности с премиум-гарнитурой Apple Vision Pro. Ожидается, что поставки гарнитуры начнутся уже в феврале 2024 года. Эти шаги подтверждают значимость Кука для Apple и несомненно оправдывают его доходы."

А вот тут забавно вышло. Vision Pro ещё н вышла, а рынок уже уступили фейсбуку, HP, Sony, Varjio. Гонку ИИ эппл проиграла, непонятно, есть ли у них что-то подобное chatgpt. Apple Watch так себе достижение за столько лет. Кука реально не за что похвалить, или мне кажется? С другой стороны, капитализация растёт, может, на остальное можно не смотреть вообще?

https://3dnews.ru/1097941/tim-kuk-zanyal-1583e-mesto-v-reytinge-samih-bogatih-lyudey-planeti
#математика
Просто любопытный факт, который, как оказалось, мало кто знает. Можно ввести понятие beta-энтропии, частными случаями которой будут информационная энтропия и индекс Джини (ну, с точностью до константы).

beta-энтропию сложно гуглить:), но есть похожая энтропия Цалиса, которую в машинном обучении уже используют, но к нейросетям, вроде, пока не прикрутили;)
#poetry #rap #battle #celebrities #fun #gpt #information #entropy

Ну что, продолжаем рэп-битву титанов информатики?

"Verse 5 - Tsallis:

Hold up, let Tsallis step into the scene,
With a power so fierce, it's like nothing you've seen.
Turing and Shannon, your theories are neat,
But my entropy's the game-changer, can't be beat.

Non-extensive stats, breaking the mold,
In the realm of complexity, my story is told.
Turing, your universality is fine,
But Tsallis entropy brings a paradigm.

Shannon, entropy's not just your domain,
Tsallis q-entropy's here to reign.
I generalize, beyond your scope,
In the statistical world, I'm the new hope.

Verse 6 - Alan Turing:

Tsallis, your entropy's just a tweak,
In the world of computation, I'm the peak.
Universal computation, that's my claim,
Your q-entropy's just a fleeting flame.

Breaking codes, saving lives with precision,
While you play with parameters, in a theoretical vision.
I laid the groundwork for AI's inception,
Your entropy's just a mathematical perception.

Verse 7 - Claude Shannon:

Tsallis, your stats might have a twist,
But in the world of communication, I persist.
I ride the waves of information flow,
Your q-entropy, in comparison, is slow.

Entropy's dance, a symphony I conduct,
In the realm of signals, my theories erupt.
Turing, you may compute, Tsallis may tweak,
But in the real world, my information's what they seek.

Verse 8 - Tsallis:

In the dance of complexity, I bring the beat,
Tsallis entropy, making theories complete.
Turing and Shannon, take a back seat,
I transcend limits, my stats can't be beat.

Non-extensive, a paradigm shift,
In the rap battle of minds, my verses uplift.
So whether it's Turing, Shannon, or the rest,
Tsallis entropy reigns supreme, the best."
❤‍🔥1
Про x40 выигрыш в скорости SketchBoost-а трындят, поди?
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Anton Vakhrushev "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems"
⌚️ Monday 11 December 19.00 (Moscow time)

Add to Google Calendar

Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.

It easy to install: pip install py-boost

It easy to use - see tutorial notebooks: Kaggle Open problems notebook, Tutorial_1_Basics, Tutorial_2_Advanced_multioutput, Tutorial_3_Custom_features

Github

Paper: Iosipoi, Leonid, and Anton Vakhrushev. "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems." Advances in Neural Information Processing Systems 35 (2022): 25422-25435.

Gold medals on Kaggle: CAFA5 , Open problems - single cell perturbations 2023, Open problems 2022,
Lots of silver/bronze medals in recent Open problems 2023 were based on Pyboost.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://news.1rj.ru/str/sberlogacompete/10211, Poster: https://news.1rj.ru/str/sberlogacompete/10215
📹 Video: https://youtu.be/5xRxuDh_cGk
#byd #tesla #electrocars

"Двенадцать лет назад Илон Маск (Elon Musk) высмеял саму мысль, что китайская BYD сможет стать конкурентом для его Tesla. Сегодня автопроизводитель, которым управляет миллиардер Ван Чуаньфу (Wang Chuanfu), готов занять место нового лидера на рынке электромобилей.

BYD позиционирует себя как крупнейший автомобильный бренд, о котором вы не слышали. Возможно, скоро компании понадобится другой слоган: она намерена превзойти Tesla и оказаться мировым лидером по производству электромобилей. Есть вероятность, что это произойдёт уже в текущем квартале, став символическим поворотным моментом на рынке электромобилей и очередным подтверждением растущего влияния Китая в мировом автопроме."

https://3dnews.ru/1098075/kitayskaya-byd-gotova-otnyat-u-tesla-zvanie-samogo-populyarnogo-proizvoditelya-elektromobiley-v-mire
❤‍🔥1
#Tip42 #EDA #Pandas

На прошлой неделе поучаствовал в хакатоне GO ALGO, организованный Московской фондовой биржей.
Для решения задачи нужно было анализировать биржевую информацию. И наконец-то мне мне удалось применить на практике очень редкий вид графиков — Спарклайны (Sparkline).

Спарклайны — это небольшие немаркированные графики. Обычно они не содержат ни осей ни подписей, поэтому в основном предназначены для передачи какой-то общей идеи.

А т.к. спарклайны очень маленькие, то они отлично помещаются в ячейках Pandas'а :)
import base64
from io import BytesIO
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import HTML

def sparkline(data):
data = list(data)

fig, ax = plt.subplots(1, 1, figsize=(4, 0.25))
ax.plot(data)

# Убираем все лишнее с графика
ax.set_axis_off()

# Заливаем график
ax.fill_between(range(len(data)), data, len(data)*[min(data)], alpha=0.1)

# Выводим min/max
plt.plot(np.argmax(data), data[np.argmax(data)], 'r.')
plt.plot(np.argmin(data), data[np.argmin(data)], 'm.')

img = BytesIO()
plt.savefig(img)
img.seek(0)
plt.close()

return '<img src="data:image/png;base64,{}"/>'.format(base64.b64encode(img.read()).decode())

agg_df = df.groupby('tradedate', as_index=False)['pr_open'].agg(list)
agg_df['sparkline'] = agg_df['pr_open'].map(sparkline)

HTML(agg_df[['tradedate','sparkline']][-10:].to_html(escape=False))


Графики можно редактировать в определенных границах: менять их ширину/высоту, можно разукрасить на свое усмотрение. Также вы можете вывести другие типы графиков: барплоты, гистограммы и пр.

З.Ы. Сам хакатон проходил в интересном формате. С одной стороны это был обычный хактон - с чек-поинтами и общением с экспертами. С другой - он длился целых 10 дней (вместо обычных 2-3). А за это время можно было сделать неплохой продукт :)
1
#languages

Мечтаю найти время и запилить свою приложуху с AI для изучения языков. Фишкой должно быть расширение словарного запаса и одновременное изучение нескольких языков (в т.ч. одного иностранного через другой иностранный). Допустим, мы знаем какие-то слова на английском и немецком, но не на испанском. Идея в том, что зная на первых двух, нам будет легче выучить на 3-м. Повторялка слов должна быть не тупой, а с ML, чтобы тебе подсовывала слова которые ты скорей всего уже забыл ))
🔥5