Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#politics

Посмотрел вчера лекцию Соловья о политической ситуации в России в 2024-м году. Он и его источники дают очень конкретные и легко проверяемые расклады вплоть до того, на какие должности в новом правительстве назначат Мишустина, Медведева, дочерей тирана, кого выставят на мороз (Володин, Кириенко). Как я понял, перемены начнут проводиться с декабря 2023го. Исполнение или неисполнение этих прогнозов автоматически изменит степень доверия к этому источнику, поскольку это уникальная информация, которую никто другой пока не даёт и не подтверждает. В целом, согласно Соловью, россиян в следующем году ждёт карательная психиатрия, чекистизация экономики (и, как следствие, экономический кризис), национализация крупных активов "в правильные руки", передел сфер влияния. Ах да, якобы по результатам переговоров между влиятельными людьми на выборы президента всё же пойдёт нынешняя набившая оскомину фигура, но через полгода она скажет "я устал, я ухожу", и назначит и.о. сельского министра, который и унаследует трон. Доживём - увидим. Неужели на мнение наших граждан можно вот так откровенно плевать? Хотя... А есть ли вообще у нас мнение?
🤡2
Forwarded from По сути
Американский исследовательский институт RLI (институт Роберта Лансинга): Новая война возможна в Латинской Америке

Венесуэла может вскоре вторгнуться в маленькую южноамериканскую страну Гайану, чтобы аннексировать ее регион Эсекибо, который составляет более 60% территории страны. В случае успеха этого сценария вероятен крупный региональный конфликт, в который могут вовлечься не только Гайана и Венесуэла, но и Бразилия, другие соседние страны, а также США.

3 декабря Венесуэла планирует провести так называемый референдум о своих "правах" на Эсекибо. Гражданам Венесуэлы предложат пять вопросов, один из которых будет звучать так: "Согласны ли вы противостоять, всеми законными средствами, одностороннему захвату Гайаной моря, ожидающего разграничения, незаконно и в нарушение международного права".

Территориальный спор между Венесуэлой и Гайаной восходит к колониальным временам и усилился после обнаружения Гайаной запасов нефти и газа возле морской границы.

Венесуэльский режим начал агрессивную пропагандистскую кампанию в контролируемых им СМИ. Ожидается, что в референдуме будет подавляющее большинство голосов "за", так как даже оппоненты Мадуро либо воздержались от критики референдума, либо фактически его поддержали.

Министр обороны Венесуэлы Владимир Падрино Лопес сказал, что спор с Гайаной "пока не является вооруженной войной. Идите и голосуйте". Он также отметил, что Вооруженные силы Венесуэлы (FANB) будут "постоянно бдительны".

По сути. Подпишись на самые важные новости.
#spotify

Нафига там ТАК МНОГО сотрудников вообще работает, начнём с этого?!

"В обращении к сотрудникам основатель и глава Spotify Даниэль Эк (Daniel Ek) заявил, что правильное определение численности персонала имеет решающее значение для компании, чтобы справиться с «предстоящими вызовами». Необходимость сокращения штата сотрудников он связал с медленным экономическим ростом и увеличением капитальных затрат. «Я понимаю, что это повлияет на некоторых людей, которые внесли ценный вклад. Откровенно говоря, компанию покинет много умных, талантливых и трудолюбивых людей», — говорится в сообщении главы Spotify, которое было опубликовано в блоге компании.

В настоящее время в Spotify работают около 10 тыс. человек. Это означает, что новый этап увольнений затронет более 1,5 тыс. человек. Согласно имеющимся данным, сотрудники, которым придётся покинуть компанию, будут уведомлены об этом своевременно. Напомним, в июне этого года Spotify провела сокращение около 6 % персонала, а ещё несколько сотен сотрудников покинули компанию в январе"

https://3dnews.ru/1096920/spotify-sokratit-17-sotrudnikov-na-fone-rosta-kapitalnih-zatrat
1
Forwarded from Д-р Соловей
Благотворительная ярмарка в пользу бездомных животных! 9-17 декабря. Проводит фонд "Возьми счастье в дом".
Посетите и участвуйте!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА СОЛОВЬЯ ВАЛЕРИЯ ДМИТРИЕВИЧА. 18+

https://takehappiness.ru/ng-yarmarka/news/
#compression #pandas

Часто бывает, что приходится джойнить много файлов: всякие там csv, parquet, feather, pickle, с текстом и без, разные типы столбцов, и не всегда понятно, какой формат выбрать для промежуточного и финального хранения данных. Уже второй раз сталкиваюсь с КРАТНОЙ разницей по времени обработки (записи, чтения) и размеру итоговых файлов, а также по использованию CPU и RAM. А значит, пришло время написать утилитку быстрого тестирования. Идея в том, чтобы отдать ей небольшой кусок основного файла, посмотреть сравнительную таблицу каждой комбинации формата/сжатия, и принять решение, в каком же формате и с какими параметрами сжатия его хранить.

https://www.youtube.com/watch?v=u4rsA5ZiTls
#fun #poetry

Кстати, ребят. Минутка поэзии. + выяснилось, что это не просто шутка, видос глубже, чем я думал.
#pandas #conventions

Нахрена такое делать? Неужели нельзя параметр path одинаково назвать было?

pandas.read_pickle(filepath_or_buffer, compression='infer', storage_options=None)

DataFrame.to_pickle(
path, compression='infer', protocol=5, storage_options=None)
#pandas #compression

Итак, результаты бенчмарка на фрейме пандас с широким текстовым столбцом. Код в комментах.

benchmark_dataframe_compression(df=df, head=1000, benchmark_dir_path=r"R:\Data", nrepeats=10, verbose=True)


Pandas: 2.0.3, DF size: 7.15Mb, Dtypes: {dtype('O'): 17, dtype('float64'): 2, dtype('float32'): 2, dtype('<M8[ns]'): 1}


Лучшие результаты показал пикл+xz сжатие. Наименьший итоговый размер файла, очень быстрое чтение, правда, за счёт долгой записи.

Паркетный brotli ошарашил своим экстремально долгим архивированием. Но только в реализации fastparquet! В версии pyarrow brotli оказался лучшим паркетным вариантом для моей конкретной задачи.
1
#pyhon #conda

Хотел потестить сохранение в hdf. Пандас попросил установить через conda pytables. Уже часов 6 конда мне устанавливает. И такое не впервые. Я что-то делаю не так, или оно всегда такое?
#gcp #cloud #tpu #hardware

"Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.

Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.

Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.

Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p."

https://3dnews.ru/1097088/google-anonsirovala-svoy-samiy-bistriy-uskoritel-iskusstvennogo-intellekta-cloud-v5p
Forwarded from New Yorko Times (Yury Kashnitsky)
Фэйлы на собесах: 2023 edition
#career #interviews

Тут в описании канала говорится, про фэйлы. Так что надо поддерживать темп фэйлов.

Картинка – авторства Бори Зубарева (placement: проверьте его X-LLM для файнтюнинга LLM, вдруг зайдет), которую он мне скинул после поста про неудачные собесы в 2022.

Погнали:

- Uber, Senior Applied Scientist – прошел один собес, сказали, закрыли саму вакансию (и правда, звучало подозрительно, что это синьор без подчиненных);

- eBay, Principal Applied Scientist (Gen AI) – прошел HM, а вот миддл решил меня погонять по своей боевой задаче – всякие bi-encoders, cross-encoders в задаче предсказания ключевых слов для объявлений. Причем копал глубоко. Я в теме про семантический поиск, слежу за проектом коллег, но тут прям реально глубоко... если сам не ковырял, не ответишь. Ну да, и хотел production-опыт RLHF 😳 Удачи! Надеюсь, нашли такого.

- LLM researcher в устоявшийся стартап – команда крутая, много GM-ов, все прошел, услышал много комплиментов, а дальше отмазу, что “мне у них будет не интересно”, расстался с довольно странным ощущением, как будто не знают, что хотят (еще один сильный чел то же самое от них услышал)

- 2 хардкорных HFT-фонда - в одном домашка на дебаггинг PyTorch-кода не зашла, в другом почти идеально решил алгоритмическую задачу, но к концу 4-го часа начал тупить с ML-ной задачей. Денег там, конечно, море, но и work-life balance хромает, и C++… В-общем, тут я сам не дотягиваю.

- наконец, Amazon, да в Амстере, прошел снова всю хурмомятню из 7 собесов. В этот раз, в отличие от 2022 года, до матча с командой не дошло, услышал стандартный минимальный фидбек, что bar raiser-у что-то не понравилось в одном из ответов.

Ну, как Би-2 поет, “Я двигаюсь дальше”, благо текущие задачи очень интересные, да что-то из сторонних проектов тоже заходит. По собесам из “успехов” на данный момент только отклик другого бигтеха на мой холодный заброс резюме, готовимся к еще одной мясорубке из семи собесов.

Жду ехидные комментарии с отсылками к этому посту про менторство. Делаю шаг на опережение: у моих менти дела идут отлично, лучше, чем у меня 🙂 Один менти устроился так, что сам меня собеседовал 😂, второй, мой друг, скоро переезжает в Нидерланды, третий – на финальных этапах с тем же Амазоном, четвертый получил оффер в долине. Еще четверо в процессе. А сапожник пока без сапог, беру откровенностью (а новых менти все равно пока не ищу).

Хороших вам фэйлов, таких чтоб с градиентами. Ну и любая череда фэйлов когла-то заканчивается, чего всем и желаю. Если очень упорно подкидывать монетку, она таки упадет нужной стороной.
Please open Telegram to view this post
VIEW IN TELEGRAM
#china

"В Китае начала работать самая глубокая лаборатория в мире, сообщает информагентство «Синьхуа». Рабочее помещение объёмом 300 тыс. м3 создано на глубине 2400 м под горным массивом Цзиньпин. На такую глубину проникает чрезвычайно мало частиц из космоса, что позволит ставить там уникальные физические эксперименты и даже искать неуловимую тёмную материю."

Я, кажется, знаю, какая страна совершит научный прорыв, а какая скатится в 19 век.

https://3dnews.ru/1097169/v-kitae-nachala-rabotat-samaya-glubokaya-laboratoriya-v-mire-tam-budut-iskat-tyomnuyu-materiyu-i-ne-tolko
1
#openai #salaries

"В OpenAI базовая зарплата начинается с $300 000, а пакет акций на сумму в $2 млн выдаётся за четыре года работы, хотя некоторые сотрудники получают ещё больше. Несмотря на то, что Microsoft согласилась нанять всех сотрудников OpenAI на тех же условиях, это обещание было лишь устным и не имело юридической силы. Один из сотрудников OpenAI выразил сомнения в том, что Microsoft выплатила бы компенсацию за потерянные акции OpenAI."

https://3dnews.ru/1097173/perspektiva-poteri-finansovih-vigod-udergala-sotrudnikov-openai-ot-perehoda-v-microsoft
#timeseries #anomalydetection #nabscore #autoencoders

Странноватое сравнение, либо не так что-то я понял. Но я не верю, что детектор ЛИШЬ на текущих точках (пусть и тысячи сенсоров) может отработать на порядок лучше рекуррентного, который располагает ДОПОЛНИТЕЛЬНО окном данных. И непонятно, почему наличие окна должно как-то снижать оперативность детекции. Закрадывается подозрение, что ряд нарубили неперекрывающимися окнами вместо перекрывающихся, и это искусственно уменьшило скорость реакции и, соответственно, nab score.

https://www.youtube.com/watch?v=B6r20LBrvYw
#gpt #agi #lazyrobot #raiseofmachines

О-оу. Something wicked this way comes.

"В ответ на просьбу предоставить фрагмент кода, он мог просто дать небольшой фрагмент и предложить пользователю доделать остальное самостоятельно. Причём, по словам некоторых пользователей, это делалось самым дерзким образом, например, иногда бот просто заявлял, что они вполне могли бы выполнить всю работу самостоятельно — без обращения к ИИ.

В многочисленных постах на сайте Reddit и сообщениях на форумах разработчиков OpenAI, начавших появляться ещё в конце ноября, пользователи жаловались, что система становится менее полезной.

В OpenAI сообщили, что осведомлены о жалобах на ИИ-бот и отметили, что никаких изменений в модель не вносили. «Мы просмотрели все ваши отзывы о том, что GPT4 становится более ленивым! — написала компания в соцсети X. — Мы не обновляли модель с 11 ноября, и это определённо не намеренно. Поведение модели может быть непредсказуемым, и мы пытаемся это исправить»."

https://3dnews.ru/1097245/openai-rassleduet-galobi-na-to-chto-iibot-chatgpt-oblenilsya