Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#wordsofwisdom


"Penny-wise, pound foolish."

Прямо день открытий какой-то. Так бы я описал некоторых руководителей в некоторых компаниях, где довелось работать.
😁1
"Помимо экспансии ускорителей вычислений семейства Hopper, стимулировать рост выручки NVIDIA в серверном сегменте в текущем году должен и спрос на компоненты, пригодные для создания систем генеративного искусственного интеллекта, как считают представители KeyBanc Capital Markets. Прогноз по курсу акций NVIDIA они поднимают до $280 за штуку. Morgan Stanley в своих прогнозах более осторожен, называя ориентир в виде $255 за акцию, поскольку представители этого инвестиционного банка видят признаки сохранения на серверном рынке некоторых проблем со спросом в краткосрочной перспективе, вызванных общей слабостью экономики."

https://3dnews.ru/1082445/kurs-aktsiy-nvidia-podskochil-na-12-investori-poverili-v-perspektivi-iskusstvennogo-intellekta
#sklearn #mutualinfo

Разработчики sklearn предпочли каждый раз обделываться на малых выборках, вместо того чтобы заменить 3 на 2 по дефолту. При это ни одного аргумента в пользу сохранения 3, или объяснения, почему 3 было выбрано изначально, не привели. Это прям напоминает поведение разрабов matplotlib-а, которые в течение 1 минуты перевели issue в статус Закрыто, даже не вникая в проблему (когда в полярных координатах вместо окружности рисовалась хрень). Разве что тут выдержали паузу в недельку, но результат один. Лишь бы не было висящих issues, а что программный продукт некачественный, это ничего. И уж упаси Боже их что-то реально сделать... Будут до смерти отписываться лучше.

https://github.com/scikit-learn/scikit-learn/issues/25580#issuecomment-1439971979
😁2
#python #debugging #vba #vb6

Вопрос к специалистам Python: почему в этом самом распространённом в мире языке программирования, который рекламируется как лёгкий для изучения, так затруднена отладка? Я начинал кодить в Visual Basic 6 и VBA, и я вам скажу, после среды отладки VB6/VBA работать в Питоне - это примерно как плыть со связанными руками. Вот написал ты скрейпер для сложных неструктурированных данных, запустил его, через два дня в середине сложного процесса он падает на непредусмотренном пустом поле, к примеру.

Дай Бог, ты запустил скрипт с параметрами -m pdb, тогда ты хоть сможешь посмотреть, на каком куске данных упало и какие были переменные. Но внести простую правку в код и продолжить с того же места ты не сможешь. Какого хрена, спрашивается? Мне этого особого места в коде опять 2 дня ждать? Это же интерпретируемый язык, какого черта? В VB6/VBA я мог спокойно в режиме отладки подправить код текущей строки, процедуры, да хоть полмодуля новых написать, поменять порядок выполнения строк, выполнить строки повторно, заменить содержимое памяти как мне надо, и продолжить выполнение уже нового кода по F5, не завершая программы.

Почему Питон такой кастрированный, кто знает? Ладно бы он был хотя бы быстрым, типизированным и компилируемым, но это же самое медленное, что сейчас есть, наверное. Я чего-то не знаю, и все как-то эту проблему решают пайчармом или какими-то другими средами? Ведь сам по себе отладчик pdb может только показать стек, и бессильно завершиться?

P.S. Это удивительный пример того, как софтверная компания (Microsoft) задушила собственного одарённого ребёнка (VB6). VB6 должен был стать тем, чем стал Python, но вместо развития (кросс-платформенности, x64) его похоронили мелкософтовские манагеры.
👍1😢1
Constructing_long_short_stock_portfolio_with_a_new_listwise_learn.pdf
960.1 KB
Constructing long-short stock portfolio with a new listwise learn-to-rank algorithm

"A crucial difference lies in that for IR we only care about the accuracy at the top, but for longshort strategy we want both the top and the bottom to be accurate. To bridge this gap, we need a learn-to-rank method that emphasizes both the top and the bottom. In Song et al. (2017), the authors reverse the rank labels and fit the model twice, in the hope that the two models can predict the top and bottom respectively. In this paper, instead of the absolute stock returns, we focus on predicting the relative rank of the returns. This preference is explained not only by portfolio manager’s task to beat a relative index, but also by the difficulty of making value prediction. This difficulty mainly arises from the blurry boundary of the input information and the low information-noise ratio of financial data."
👍1
"Для обучения ИИ требуется обработать огромное количество данных, и использование большого количества высокопроизводительных графических процессоров помогает сократить время обучения. В случае ChatGPT, количество используемых параметров обучения выросло со 120 миллионов в 2018 году до 180 миллиардов в 2020 году и потребовало 20 000 графических процессоров для обработки данных. Для дальнейшего коммерческого использования ChatGPT количество графических процессоров понадобится увеличить минимум до 30 000 штук. В этих расчётах для оценки использовались чипы уровня NVIDIA A100.

NVIDIA, вероятно, выиграет от развития генеративного ИИ сильнее всех. A100 — универсальная система для рабочих нагрузок, связанных с ИИ. Чип обеспечивает производительность 5 петафлопс и на сегодняшний день является лучшим выбором для анализа больших данных и ускорения ИИ. AMD, в свою очередь, выпустила серверные чипы серий MI00, MI200 и MI300, которые тоже широко используются для приложений на базе ИИ. TSMC продолжит играть ключевую роль в связанной цепочке поставок, наряду с Nan Ya PCB, Kinsus и Unimicron, которые тоже смогут воспользоваться растущей волной спроса. Разработчики ИИ-чипов из Тайваня, такие, как GUC, AIchip, Faraday Technology и eMemory также выиграют от бума генеративного ИИ"

https://3dnews.ru/1082747/gonka-voorugeniy-ii-privedyot-k-burnomu-rostu-sprosa-na-graficheskie-chipi
🔥2
https://www.youtube.com/watch?v=tDJnwc8Hioc&ab_channel=AlexanderD%27yakonov
#pytorch #dyakonov

Вдруг кто не знает, Александр Дьяконов - один из лучших специалистов и преподавателей по ML в России и мире, доктор ФМН, профессор, победитель ML соревов на каггл и много где ещё.

его ютуб-канал рекомендуется к полному просмотру, а блог к прочтению )
ещё есть телеграм-канал.
🔥2
"Хотя многие компании уже прибегли к обходным путям для включения чат-ботов в свои программы и применяют API общедоступных моделей GPT, появление официального API ChatGPT, похоже, совершит революцию на рынке ПО. Над собственными ИИ-моделями работают многие компании, однако ChatGPT остаётся самым популярным и развитым вариантом."

https://3dnews.ru/1082768/openai-anonsirovala-reliz-api-dlya-integratsii-chatgpt-i-drugih-instrumentov-v-prilogeniya-storonnih-razrabotchikov
"Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей."

https://3dnews.ru/1082777/publikatsiya-1082777
#timeseriesforecasting #competition #electricityprice

Угадайте, чья модель из 4 дата-сайентистов пока что лучше предсказывает цену на электричество в Техасе на сл 24 часа? )
1
Forwarded from partially unsupervised
Самая неинтутивная вещь про работу программиста: на каком-то уровне сеньорности чем больше времени ты пишешь код, тем хуже. И дело не в том, что надо уметь писать быстрее, а в том, что написание кода становится прокрастинацией, а максимальную пользу для компании человек мог бы наносить другими, более "менеджерскими" способами: планирование, дизайн, уточнение требований, поиск корнер кейсов, ревью, фидбеки, приоритизация, обучение менее опытных коллег etc. Но такая работа часто сложнее и менее комфортна, и потому эскапизм в родную IDE - как глоток свежего воздуха.

Кстати, про IDE - утащу из одного чатика инсайд от сотрудника Jetbrains:
> В JB было сделано внутреннее исследование, сколько кодят разработчики - и выяснилось, что почти по всем языкам это порядка 10 строк кода в день в среднем; потом это исследование решили не публиковать.

(Не знаю, насколько этому исследованию можно доверять, но сойдет как иллюстрация того, что не кодом единым).

Когда именно с этим парадоксом сталкивается конкретный IC, зависит от окружения. Эвристика простая: чем более ты сеньорный относительно прочих в своей команде/организации, тем меньше кода нужно писать. И потому на каком-то этапе карьеры надо либо осознанно перековываться в человеки-которые-[почти]-не-пишут-код, либо целенаправленно идти в такой орг, где личная максимальная полезность оказывается именно в написании кода, обычно это какие-то сложные специфические системы, и такого в индустрии маловато.

Еще, конечно, всегда можно вырулить в соседнюю область, которая дисконтирует предыдущую сеньорность, но это только временное решение.
🔥1
#books #fantasy #zhelazny #donnerjack #tanatos

"Он обитал в Непостижимых Полях, но присутствие его простиралось и за их пределы, проникая в самые дальние уголки Вирту. И являлся он, в некотором смысле. Властелином Всего Сущего, хотя у других также имелись основания претендовать на сей титул. Впрочем, его права были ничуть не менее прочными и обоснованными, чем у остальных, поскольку никто не мог отрицать факта существования его владений.

Он двигался среди обломков разбитых фигур - в прошлом обитателей Вирту. Те приходили сюда, подчиняясь его призыву или по собственной воле, когда конец их существования становился неопровержимым фактом. Порой он использовал определенные части для своих целей, но многие оставались лежать, пока не сровняются с землей; впрочем, некоторые их компоненты сохранялись достаточно долго. И когда он шагал мимо, обломки поднимались - в человеческом обличье или каком-нибудь ином, - чтобы пройти несколько шагов,произнести какие-то слова, сделать характерный жест, а затем вновь превратиться в мусор и пыль. Порой - как сейчас - он шевелил груды хлама посохом и смотрел, что будет. Если ему удавалось натолкнуться на какой-нибудь фокус или обрывочную информацию, ключ или код, имеющие некий интерес, он забирал их в свою обитель-лабиринт. Он мог превратиться в мужчину или женщину, отправиться в любое место, но неизменно предпочитал черный плащ с капюшоном, скрывающий поразительно хрупкую фигуру - мельтешение белого в мрачных тенях.

Обычно в Непостижимых Полях царило величественное молчание. Иногда возникали диковинные, невнятные звуки, исходившие словно из самых глубин огромных куч мусора - стоны энтропии; а когда они затихали, тишина становилась еще глубже. Чаще всего он покидал свои владения, чтобы услышать что-нибудь осмысленное - музыку, например. Вселенная не знала подобного существа. Ему давали тысячи имен и прозвищ, однако самым распространенным стало Танатос."

http://lib.ru/ZELQZNY/donnerdzhek.txt
1