Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#wisdom

The greatest value of a picture is when it forces us to notice what we never expected to see.

John Tukey
#wisdom

There are two kinds of fools: one says, “This is old, therefore it is good”; the other says, “This is new, therefore it is better.”

William Ralph Inge (1931)
#toboml #boosting #anns #deepgbm

Ну и вот пример пассажа из оранжевой книги, с которым я не согласен, о бесполезности нейросетей в табличных данных.

When it comes to tabular data it has been found that artificial neural networks (ANN) are, quite literally, a waste of time.
In Figure 11.1, which plots performance against time (on a logarithmic scale), to the left we can see our linear and decision tree models and on the RHS are neural network estimators which at best on par with the Random Forest, and none achieving the SoTA performance of XGBoost or CatBoost seen at the very top of the plot. This is potentially because tabular data does not form a smooth continuous hypersurface, due to noisy data, missing values, categorical features, features with disparate ranges (for example salary and age, etc.) all working against the manifold hypothesis which neural networks make use of. In view of these performance and computational cost issues, unless one has a very good reason for wanting to use neural networks for tabular data I would be very much inclined to suggest sticking to the classical techniques we have seen earlier.

Карл, кажется, смешивает всё в одну кучу, коней, людей. Указывать как причину features with disparate ranges - это уже днище полное. Самое главное - нет ведь ограничений на "базовых учеников" в градиентном бустинге, ими вполне могут быть нейронки. Просто это почему-то не получило распространения.
Хотя, если погуглить, находится deepgbm, авторы которого в сравнении прямо побивают всех и вся. Надо бы самому его попробовать ) Хотя нет, там не бустинг над нейронками, там гибрид.

Короче, с таким деревянным шовинизмом я не согласен, Карл! ) Ты же сам рассказывал в предыдущих главах о No Free Lunch theorem.
Можно ли за 10 минут заполнить бэклог свободного рисерча на месяц?
Изи подумал я, засек время и начал это писать:

1) натренировать графовую нейронку на данных логов пользователей с таргетом - бизнес-метриках, чтобы использовать ускорения AB (типо matching с использованием сессий, но без нарушения sutva)

2) ту же нейронку проверить в сегментации (эмбединги + кластеризация)

3) её же использовать для поиска aha момента (ищем подграф с наибольшим приростом в метрике, чем-то типо имитаций shap)

4) кластеризовать товары потребительские корзины по БЖУ, времени сборки и составу (не состав = продукты в корзине, а состав = то из чего продукты состоят)

5) Научиться предиктить LTV по первым сессиям и вывести отсюда ключевые факторы успешного удержания в продукте

6) Вывести в отчетик "авто-факторный анализ" - тупо перегруппировать метрику по всем разумным атрибутам и отсортировать по приросту значимости изменений (DSensei это и делали на старте)

7) Исследовать есть ли сетевые эффекты в приложениях для заказа еды

8) Научиться считать стат. значимость shapley значений и ускорить любой ручной анализ "факторов успеха" в 10-100 раз

9-10) за 10 минут не успел зато честно 🗿

за 10 минут после написания нагуглил проекты только для 3 из 8 идей (aha моменты, прогноз ltv, автооанализ KPI), так что 5 - свободны, можно тестить.
Please open Telegram to view this post
VIEW IN TELEGRAM
12 выводов за 12 недель работы с GPT моделями:

1) на малых проектах 3-4 своих кастомных функции-обертки api сделать лучше, чем ковыряться в массивном langchain с 100 уровнями абстракций.

2) прокси для аналитики запросов лучше чем логирование в функциях и методах

3) модель пишет промпты для себя кратно лучше человека

4) базу знаний для RAG модель тоже лучше составит сама для себя из сырых данных

5) RAG с 4-20 примерами пока что сильно кост эффективнее запроса с огромным контекстом

6) для поиска по контексту в RAG может залететь попросить GPT сформулировать из сообщений и истории вопрос в базу знаний и искать новый контекст по этому вопросу.

7) RAG с цепочкой валидации в 2-3 шага улучшает ответы в 2-3 раза.

8) увеличение глубины шагов валидации дальше 3 не улучшает ответы в большинстве задач общения с клиентами

9) модели плохо понимают контекст отрицания, пишем только в прямолинейной логике.

10) подзадачи обработки лучше выносить в цепочку диалога, например, сначала просим ответить, потом проверить ответ на валидность, потом улучшить, потом отформатировать.

11) RAG + fine-tuning в свой GPTs работает сильно лучше просто RAG

12) в fine-tuning своего GPTs лучше передавать базовую инфу и руководства к стилю ответа, а не пытаться запихнуть часть инфы для QA

NB все субъективно, выводы из небольшого количества продовых продуктов (<20 Шт) и вообще все вокруг - галлюцинация SORA 😮‍💨
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Впечатлили меня истории про то, как фаундеры добыли денег для старта компаний, мои любимые:

Apple - Джобс продал машину, Возняк калькулятор (тык)
Airbnb (W09) - продавали хлопья с прикольным дизайном за 40$ (тык)
Palta - написали книжки про фотошоп (тык)

Теперь к практике:
stdin:
аналитик-разработчик - 1 шт
страсть к аналитическим темкам - ∞

stdout:
пишу книгу по стат. проверке гипотез
каждый день создаю по теме не менее 1 единицы контента на любую платформу
в конце недели подвожу traction
This media is not supported in your browser
VIEW IN TELEGRAM
"Познавая море — познаешь себя"
Автора не нашел, но звучит красиво

Немного выпал из-за переезда, зато собрал бинго проверенных способов как продуктивно сменить обстановку (брал из YC интервью и проверял):

1) поменять место пребывания. От лайтового - снять квартиру в другом районе, до переезда на другой континент

2) поменять сферу доп. исследований. Просто читать/слушать/смотреть несколько дней про новую для себя сферу. NB - кажется, что это может размывать фокус, но можно за час найти 100+ историй, как люди получали пользу от кросс-информационных исследований.

3) вносить изменения в привычные дела. Тут все, на что только хватит фантазии, посыл в том, чтобы расшатать привычные установки, e.g. идти домой новой дорогой, купить необычные продукты, чистить зубы другой рукой. Звучит странно, но если делать регулярно и разнообразно, то заговор рептилоидов (aka день сурка) рушится и кажется, что жизнь дает больше шансов.

Зачем все это?
Как минимум - чтобы пернатый зверь не покинул границы кальциевую коробочку от однообразия жизни
Как максимум - задействовать спрятанные силы своего жизненного strategic vision
#100дневка
29.1

stdin: найти телефон Сэма Альтмана, позвонить
stdout: + 1 - (650) - 906 - 6810, запись действа

Ощущения:
У меня сейчас нет конкретного вопроса к Sam Altman, поэтому опишу ощущения за время выполнения:
1) как блин найти его вообще, это топ-1 человек в AI мире (первые 10 минут)
2) штош, попробуем стандартный путь поиск в google и smm
3) такс, кажется что-то есть, а если углубиться, пошарить по сайтикам позаходить с разных сторон (тут tempmail, tempnumber и vpn в помощь)
4) как же я хорош, как мощны мои поисковые лапища, я теперь вообще любого могу найти и связаться
5) немного успокоился, это скорее всего не 100/10 по качеству, т.к. На телефона автоответчик (хоть и представляется сэмом), наверняка есть и личный телефон и в будущих коммуникациях может быть полезно целиться в него.
#music #smokie

A summer evening on Les Champs-Élysées
A secret rendezvous they planned for days
A sea of faces in a crowded café
A sound of laughter as the music plays

Jean-Claude was a student at the University
Louise-Marie is just a world away
He recall the night they met was warm with laughter
The words were music as she turned away

I′ll meet you at midnight,
Under the moonlight
I'll meet you at midnight
But Jean-Claude, Louise-Marie will never be

Each cigarette would light a thousand faces
Each hour that pass seem like a thousand years
Midnight was turning into empty spaces
The sound of laughter disappeared

I′ll meet you at midnight
Under the moonlight
I'll meet you at midnight
Oh, but Jean-Claude, Louise-Marie will never be

A summer morning on Les Champs-Élysées
The empty table in the street café
The sunlight melting through an open doorway
Jean-Claude has left to face another day

I'll meet you at midnight
Under the moonlight...

https://www.youtube.com/watch?v=WoTLnaI1NEY
30 Python libraries .pdf
9.3 MB
#frameworks #utilities

YellowBrick, Missingno, DuckDB, Faker хорошие. Parallel-Pandas, Numexpr любопытно попробовать. Наподобие PyCaret, Lazy Predict я сам что-то своё пишу.
#trading #pelosi

Удивило, что многие из американских политиков оказались крутыми инвесторами. Ну или пользуются услугами хороших специалистов.

"Nancy Pelosi is an interesting woman.

She was the first female speaker of the House of Representatives, making her one of the most influential women in American political history. She’s also an avid baseball fan, and has thrown the ceremonial first pitch at a few different Major League baseball games.

She’s also a better stock trader than almost all of Wall Street.

According to the Independent, Pelosi had earned 71% on her portfolio in 2024. This is more than three times the S&P500."

https://medium.datadriveninvestor.com/im-building-an-algorithmic-copy-trading-platform-the-easiest-way-for-traders-to-earn-a-living-eb96c539f11c
#crypto #trading

"Запущенный Дональдом Трампом (Donald Trump) в пятницу мемкоин в воскресенье взлетел до $74,59, а сегодня зафиксировался на $52,71. Это обеспечило новому токену рыночную капитализацию около $10,7 млрд долларов, поставив его на 18-е место среди крупнейших криптовалют. 24-часовой объем торговли $TRUMP достиг $52,5 млрд. На этом фоне биткоин достиг рекордного максимума в $109 072 всего за несколько часов до возвращения избранного президента США в Белый дом.

За два дня до вступления в должность избранный президент США Дональд Трамп (Donald Trump) опубликовал в соцсети X «официальный мем» — криптовалюту, посвящённую своей победе на выборах. Из общего числа в почти 1 млрд токенов 80 % принадлежат CIC Digital LLC, которая является филиалом The Trump Organization, и ещё одному бизнесу Трампа под названием Fight LLC. Таким образом на момент подготовки данного материала состояние Трампа в его собственных мемкоинах оценивается примерно в $40 млрд.

Токен $TRUMP, выпущенный на блокчейне Solana, значительно обогатил Трампа лично, позволил криптоиндустрии перекачивать ему деньги и создала нестабильный финансовый актив, который даёт возможность любому человеку в мире финансово спекулировать на политических состояниях Трампа. Официальный сайт монеты GetTrumpMemes.com призывает посетителей покупать монеты за доллары или криптовалюту, чтобы «отпраздновать нашу победу и повеселиться!».

В воскресенье по примеру супруга Мелания Трамп (Melania Trump) запустила собственную криптовалюту на блокчейне Solana, которая также быстро взлетела в цена и достигла $9,6 за монету, а её рыночная капитализация перевалила за $1,85 млрд.

Трамп пообещал стать «криптопрезидентом» и, как ожидается, издаст указы, направленные на сокращение препятствий для регулирования криптовалют и содействие широкому внедрению цифровых активов. Перспектива смягчения регулирования политики в отношении криптовалют была встречена отраслью с энтузиазмом и спровоцировала рост биткоина после победы Трампа на выборах в ноябре.

Статья Конституции США о вознаграждениях, написанная в 1787 году, вряд ли предполагала мир, в котором президент мог бы из ничего создавать миллиарды долларов личного состояния. В настоящее время невозможно отследить, кто будет покупать эту монету в течение следующих трёх лет и тем самым направлять свои деньги непосредственно Трампу. Учитывая обширный взгляд Верховного суда на президентский иммунитет, есть большая вероятность, что любые подобные действия будут признаны законными.

Трамп только что провёл мастер-класс по способности президента превращать власть в богатство."

https://3dnews.ru/1117007/prezidentskiy-masterklass-za-dva-vihodnih-dnya-tramp-sdelal-sebya-kriptomilliarderom