Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#polars #parquet #arrow

Практическое наблюдение: не надо категорийные столбцы с высокой кардинальностью сохранять в паркетный формат именно в виде категориек. Кто-то из цепочки polars-arrow-parquet жёстко лажает, и без причины может раздуть размер файла в сотни раз.

используйте хотя бы

df=df.with_columns(pl.col(pl.Categorical).cast(pl.Utf8))


перед сохранением на диск.
#nvidia #stocks

Офигеть.

"Nvidia была основана в 1993 году. Первоначально она занималась разработкой видеокарт для игровых компьютеров, но впоследствии стала специализироваться и на создании ИИ-ускорителей — на этом рынке она является ведущим производителем в мире. Отметку в $2 трлн она впервые преодолела в феврале 2024 года и достигла показателя в $3 трлн в июне того же года. До этого ближе всех к отметке $4 трлн удалось подобраться Apple, рыночная капитализация которой в декабре 2024 года составила $3,915 трлн.

На текущий момент рыночную капитализацию более $1 трлн имеют следующие технологические компании: Microsoft ($3,756 трлн), Apple ($3,137 трлн), Amazon ($2,369 трлн), Alphabet ($2,151 трлн), Meta ($1,842 трлн), Broadcom ($1,304 трлн) и TSMC ($1,199 трлн). Рыночная капитализация Tesla, которую традиционно причисляют к «клубу триллионеров», сейчас составляет $961,89 млрд."

https://3dnews.ru/1125697/nvidia-pervoy-kompaniey-v-istorii-s-kapitalizatsiey-4-trilliona
#healthcare #medicine #cancer

"В 2021 году из DeepMind была выделена компания Isomorphic Labs. Она подхватила эстафету AlphaFold и, от предсказания отдельных белковых структур, перешла к моделированию процессов взаимодействия белков с другими молекулами, такими как ДНК и лекарственные препараты.

В 2024 году, когда был выпущен пакет AlphaFold 3, Isomorphic Labs подписала соглашение о крупном исследовательском сотрудничестве с фармацевтическими компаниями Novartis и Eli Lilly. Год спустя, в апреле 2025 года, Isomorphic Labs привлекла $600 млн в рамках первого в истории раунда внешнего финансирования, проведённого под руководством Thrive Capital."

https://3dnews.ru/1125686/ii-sozdal-pervoe-v-mire-lekarstvo-ot-raka-kotoroe-ispitayut-na-givih-lyudyah
#astronomy

"Галактика Млечный Путь может находиться внутри гигантской космической пустоты диаметром около 2 млрд световых лет. Об этом свидетельствуют барионные акустические колебания — остаточные следы звуковых волн, которые перестали распространяться спустя 380 тыс. лет после Большого взрыва, но сохранились в крупномасштабной структуре вещества во Вселенной. Эта гипотеза может объяснить расхождение между локальными и космологическими оценками скорости её расширения."


https://3dnews.ru/1125726/echo-bolshogo-vzryva-ukazyvaet-na-vozmozhnoe-raspolozhenie-mlechnogo-puti-vnutri-kosmicheskoy-pustoty
Арнольд, конечно, был знаком в группе не только со мной, но мы как-то оказались за одной партой, в ряду у окна, по-моему, второй сзади или последней. Вскоре Арнольд стал для меня Димкой, что, впрочем, не уменьшило ореола вокруг него в моих глазах. Однако этот ореол не давил на меня, не мешал мне в общении с ним, хотя Димка и не скрывал своих математических достоинств. Открытость Арнольда, его весёлость, эмоциональная искренность привлекали к нему и делали отношения лёгкими в хорошем смысле слова. Иногда я узнавал от Димки неожиданные для меня вещи, не имеющие прямого отношения к математике. Так, зашла между нами речь об утренней зарядке и о том, что делать её надо, но трудно, так как лекции и занятия начинаются так рано, а ещё надо около часа добираться до университета. На это Димка заметил, что у него есть особенные трудности в этом отношении, так как его утренняя зарядка включает несколько (кажется, пять) обязательных компонент. Не помню порядка, в котором они были названы Арнольдом, но они включали следующее: прослушивание музыкального произведения, чтение стихотворения, чтение отрывка из философского произведения, собственно физическая зарядка и душ с растиранием. Я был сильно впечатлён этим сообщением. Мне такое и в голову не приходило и было не под силу. Вскоре, всё ещё под впечатлением от этого разговора, я подарил Арнольду небольшую книжку высказываний Марка Аврелия, дореволюционное издание, подаренное мне Марией Александровной Скрябиной. Я тогда недавно её прочёл, она произвела на меня большое впечатление, и мне захотелось разделить это впечатление с Димкой. Он поблагодарил, взял книгу, но о своих впечатлениях от Аврелия не рассказывал.


воспоминания А.В. Архангельского о В.И. Арнольде (из статьи "Вспоминая об Арнольде (Мои студенческие годы в МГУ, книга "Мы — математики с Ленинских гор")
1🔥1😁1
#facebook #bollocks

Захотелось мне найти свой старый пост на фэйсе. Казалось бы, естественное желание, по ключевым словам быстро найти свой пост. В ВК это сделано ну буквально одним полем поиска. Казалось бы, то же самое и в огромной международной соцсети с миллиардами пользователей?

Хер там.

How do I search within my Facebook posts?
Use activity log to find something specific

Tap Menu in the top right of Facebook, then tap your name. Tap Options below your profile picture, then tap Activity Log. From here, you can tap to review activities like: Your Posts to review things like photos, videos, text and status updates you've shared on Facebook.


Блять. И то там поиска нету, посты надо перебирать либо вручную, либо поиском браузера.

В своей мете сидят на мете, видно.
Forwarded from AvitoTech
Наука + бизнес = идеальный мэтч в ИИ ❤️

Наука помогает понять, как всё работает, и находит новые решения. А бизнес даёт ресурсы, чтобы эти решения стали реальностью.

Но это если кратко и в теории. Реальные кейсы такой синергии и возможности для молодых исследователей обсудим на паблик-толке 17 июля в нашем офисе на Лесной и онлайн.

Вместе с Иваном Оселедцем, генеральным директором Института ИИ AIRI и Андреем Рыбинцевым, старшим директором по ИИ Авито разберём:

☑️что такое RnD в компании, и как это работает;
☑️может ли бизнес без фундаментальных исследований и могут ли они приносить прибыль;
☑️какие новые задачи появятся у учёных в эпоху ИИ;
☑️как не ошибиться в выборе — научной карьере или развитии в бизнесе.

Встреча будет особенно полезна начинающим исследователям и тем, кто хочет развиваться в RnD. Зарегистрироваться можно тут*.

*
Количество мест на встречу ограничено, поэтому рекомендуем не откладывать. Также внимательно заполняйте форму: приглашение участникам будем рассылать исходя из темы паблик-толка.

#ds
Please open Telegram to view this post
VIEW IN TELEGRAM
How to avoid machine learning pitfalls by Michael A. Lones

Mistakes in machine learning practice are commonplace, and can result in a loss of confidence in the findings and products of machine learning.

This guide outlines common mistakes that occur when using machine learning, and what can be done to avoid them.

Whilst it should be accessible to anyone with a basic understanding of machine learning techniques, it focuses on issues that are of particular concern within academic research, such as the need to do rigorous comparisons and reach valid conclusions.

It covers five stages of the machine learning process:
- What to do before model building
- How to reliably build models
- How to robustly evaluate models
- How to compare models fairly
- How to report results

Link: arXiv

Navigational hashtags: #armarticles
General hashtags: #ml #machinelearning #mlsystemdesign

@data_science_weekly
#hardware #cpu

"Флагманом линейки стал Ryzen Threadripper PRO 9995WX с 96 ядрами, 192 потоками и 384 Мбайт кеша L3. Компания оценила его в $11 699. Модель Ryzen Threadripper PRO 9985WX (64 ядра, 128 потоков, частота от 3,2 до 5,4 ГГц, 256 Мбайт кеша L3) AMD оценила в $7999. С остальными моделями серии и их ценами можно ознакомиться в таблице ниже. Самая доступная 16-ядерная модель оценивается в $1649."

https://3dnews.ru/1126141/amd-raskrila-tseni-samih-dorogih-protsessorov-dlya-pk-threadripper-pro-9000wx-viydut-23-iyulya
#polars #deltalake #orjson #codegems

Попробовал deltalake в решении по сбору данных. отстой, лучше бы любую СУБД заюзал типа постгре или даже монго. Некоторые выводы из мини-проекта:

1) orjson is x20 faster than json

2) xxhash.xxh128 is x6 faster than hashlib.sha256

3) deltalake package is (at least so far) the toy solution. does not support concurrent writes, I had to use manual locking. with many small updates, requires frequent tables "re-optimizing". i just needed a "primary key" functionality from it - and it's slow, while spending LOTS of CPU. I should have better used any RDBMS, or mongo, instead.

В каком случае deltalake можно использовать: когда записываете данные редко, и с таблицей работает один поток. Либо хочется хостить данные в облачном хранилище типа gcp напрямую в паркете. Еще можно воспользоваться полуручным локом на время операций с дельта таблицей:

import os
import logging
from urllib.parse import urlparse
from filelock import FileLock, Timeout

logger = logging.getLogger(__name__)


def is_local_path(path: str) -> bool:
parsed = urlparse(path)
# If there's no scheme or it's explicitly "file"
if parsed.scheme in ("", "file"):
return not path.startswith(("s3://", "azure://"))

# Special case: Windows drive letter (e.g., "R:\...")
if os.name == "nt" and len(parsed.scheme) == 1 and parsed.scheme.isalpha():
return True

return False


def safe_delta_write(path: str, delta_op_func, *, lock_timeout: int = 120, lock_suffix=".lock"):
"""
Wraps any Delta Lake operation (write_deltalake, merge+execute) with local file locking.

Parameters:
path (str): Delta table path.
delta_op_func (callable): A function that performs the actual Delta operation.
lock_timeout (int): How many seconds to wait for the lock before skipping.
lock_suffix (str): Suffix for the lock filename.

Usage Examples
🔁 For .merge().when_not_matched_insert_all().execute():

def merge_ads_static():
return DeltaTable(ADS_STATIC_PATH).merge(
static_df,
predicate="t.id = s.id",
source_alias="s",
target_alias="t",
writer_properties=DELTALAKE_OPTIONS.get("writer_properties")
).when_not_matched_insert_all().execute()

safe_delta_write(ADS_STATIC_PATH, merge_ads_static)

📝 For write_deltalake() appends:

def write_market_ads():
return write_deltalake(
MARKET_ADS_PATH,
market_df,
mode="append",
partition_by=["date"],
**DELTALAKE_OPTIONS
)

safe_delta_write(MARKET_ADS_PATH, write_market_ads)
"""
if is_local_path(path):
lock_file = os.path.join("/tmp", f"{os.path.basename(path).replace('/', '_')}{lock_suffix}")
lock = FileLock(lock_file)

try:
with lock.acquire(timeout=lock_timeout):
logger.debug(f"Acquired lock for local Delta path: {path}")
return delta_op_func()
except Timeout:
logger.warning(f"Timeout while waiting for lock on {path}. Skipping operation.")
except Exception as e:
logger.exception(f"Delta operation failed on {path}: {e}")
raise (e)
else:
logger.warning(f"Delta operation on non-local path: {path}. Proceeding without lock.")
try:
return delta_op_func()
except Exception as e:
logger.exception(f"Delta operation failed on {path}: {e}")
#physics

Я всё думал, как же связаны гравитон и бозон Хиггса - ведь последний даёт (некоторым) частицам массу, а первый в теории является квантом гравитационного поля. Ну должна же быть связь?
Но вот современный ИИ мне всё разъяснил:

"Таким образом, связь между ними скорее косвенная: поле Хиггса создает массу, масса является источником гравитации, а гравитон (в квантовой теории) переносил бы гравитационное взаимодействие. Но прямой специальной связи между бозоном Хиггса и гравитоном нет - гравитон "видел" бы поле Хиггса как один из многих источников энергии-импульса."