NEW BOT Телеграм, страница

Aspiring Data Science

#postgres

"pg_repack is a PostgreSQL extension which lets you remove bloat from tables and indexes, and optionally restore the physical order of clustered indexes. Unlike CLUSTER and VACUUM FULL it works online, without holding an exclusive lock on the processed tables during processing. pg_repack is efficient to boot, with performance comparable to using CLUSTER directly."

https://github.com/reorg/pg_repack/

GitHub

GitHub - reorg/pg_repack: Reorganize tables in PostgreSQL databases with minimal locks

Reorganize tables in PostgreSQL databases with minimal locks - reorg/pg_repack

40 views20:20

Aspiring Data Science

#db #tuning #postgres

Любопытная ситуация. За много лет DBA-шное сообщество, кажется, ничего так и не придумало для оптимизации параметров СУБД. Уж на примере Постгре точно. Разрабам ядра PG положить с прибором на это, они слишком старомодны и консервативны, до сих пор считают, что рабочую память, да и все остальные параметры, сисадмин должен ручками прописывать. Есть pg_bench, но неясно, как его толком применить к настройке. Ведь параметры СУБД взаимодействуют с настройками ОС и ФС, причем зачастую нелинейно. А есть же ещё параметры железа. А еще версии ОС, ФС, СУБД. А еще разные запросы и разное распределение данных в таблицах, поэтому универсальные рекомендации дать трудно. Надо или брутфорсить сотни тысяч комбинаций pgbench-ем (на сервере близком к боевому), или оверпровижинить, или забивать на оптимальность. Почему я один в этом вижу проблему? PostgresPro, возможно, как-то над этим работают, но с их ценником в миллион за ядро я их даже не рассматриваю.

42 viewsedited 21:08

Aspiring Data Science

#zfs #slog

https://klarasystems.com/articles/what-makes-a-good-time-to-use-openzfs-slog-and-when-should-you-avoid-it/#:~:text=It%20does%20not%20need%20to,16GB%20to%2064GB%20is%20sufficient.

Klara Inc

What Makes a Good Time to Use OpenZFS Slog and When Should You Avoid It

Learn all about the OpenZFS SLOG and ensure new ways to support your data better with ZFS.

39 views21:40

Aspiring Data Science

#postgres #tuning

Отличное руководство по параметрам постгре, в логической разбивке по группам (память, планировщик, безопасность, подключения, репликация, итд.)

https://www.youtube.com/watch?v=13d4BDYSYyM&ab_channel=EDB

YouTube

How to use postgresql.conf to configure and tune the PostgreSQL server

Tuning your PostgreSQL server plays an important role in making sure you get the most out of your server resources, and running with default parameters is not always enough. Using the PostgreSQL server configuration file postgresql.conf, we can tune the right…

65 views23:29

Aspiring Data Science

Forwarded from Kali Novskaya (Tatiana Shavrina)

#nlp #про_nlp #nlp_papers

Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers

Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.

Vote'n'Rank: Revision of Benchmarking with Social Choice Theory

Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.

🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?

🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).

Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.

Feel free использовать в своих пайплайнах оценки моделей!

🖥Paper: https://arxiv.org/abs/2210.05769v3
🖥Github: https://github.com/PragmaticsLab/vote_and_rank
🌸Accepted EACL 2023

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - PragmaticsLab/vote_and_rank: Novel aggregation methods for multi-task NLP benchmarking

Novel aggregation methods for multi-task NLP benchmarking - PragmaticsLab/vote_and_rank

❤1

40 views08:03

Aspiring Data Science

#postgres #tuning

Отличный рассказ про тюнинг параметров СУБД.

https://www.youtube.com/watch?v=IFIXpm73qtk&ab_channel=HighLoadChannel

YouTube

PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)

HighLoad++ 2017

Тезисы:
http://www.highload.ru/2017/abstracts/3096.html

PostgreSQL is the world’s most advanced open source database. Indeed! With around 270 configuration parameters in postgresql.conf, plus all the knobs in pg_hba.conf, it is definitely…

48 views08:12

Aspiring Data Science

#business

Меня разрывает между десятком проектов и идей. Все хорошие, классные, интересные, сложные. По итогу не успеваю ни один довести до ума. Смотрю на список из 13 стартапов и понимаю, что это уже не программерская, а управленческая задача.

Варианты решения:
1) продолжить долбаться самому. типа дёшево-бесплатно, но ничего не сделаешь и за годы, с моим темпом.
2) найти инвестирование и начать найм фрилансеров на решение небольших, четко сформулированных подзадач, затем по мере появления решений интегрировать их в прод везде, где смогут быть полезны. Типа придется делиться шкурой неубитого медведя, но так есть шанс хоть что-то довести до релиза.

47 viewsedited 10:39

Aspiring Data Science

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Записали, наконец, с https://news.1rj.ru/str/boris_again видео-разбор статьи Adam: A Method for Stochastic Optimization ( https://arxiv.org/abs/1412.6980 ). Получилось, конечно, не так, как задумывалось изначально, но все равно интересно.

По итогу, в первой части видео рассказывается про общие принципы того, как устроен градиентный спуск с моментом и интуицию, стоящую за методом Adam. Во второй части видео докладчик проходится по самой статье, и мы постепенно переключаемся в режим свободного обсуждения формул и теорем. Поскольку мы не являемся специалистами по теории оптимизации, правильность всего сказанного в видео не гарантируется. А если вы нашли ошибку или можете дополнить обсуждение, не забудьте рассказать об этом в комментариях!

Ссылка на демонстрацию и статью, показанную в первом видео: https://distill.pub/2017/momentum/ .

————————————————————

Ссылки на видео:

https://www.youtube.com/watch?v=vqIwkVQnq4w&ab_channel=WMax (1 часть)

https://www.youtube.com/watch?v=ZnKmWDKBlGg&ab_channel=WMax (2 часть)

————————————————————

Спасибо большое @btseytlin за рассказ, а @unfinity - за загрузку на YouTube!
#объяснения_статей

Борис опять

life = curiosity + irreducible noise

Whois: https://news.1rj.ru/str/boris_again/3400

Лс: @btseytlin

25 views11:38

Aspiring Data Science

Forwarded from Neural Info

⁉️ Today I will be interviewing Boris aka @boris_again about AI.

INTERVIEW PART 1.

❓Introduce yourself.
Hello. My name is Boris. I work at Planet Farms, an agrotech company making vertical farms. I am an ML teamlead, building ML from scratch, from infra to models. Previously I was a Researcher at Toloka among other things.

I might be known for teaching ML at HSE and OTUS, a telegram channel about all things life @boris_again and consulting people on job search in ML and IT in general.

❓Tell me about your education.
I graduated from the Data Science program at Faculty of Computer Science HSE. Highly recommended.

❓What about your work experience?
It’s hard to gauge, but I guess full-time is about 8 years now.

❓Top-3 articles you would recommend reading.
A Metric Learning Reality Check – personal favorite. A great story how the whole metric learning community was not making any progress for 10 years due to bad experiments, a great showcase of how ML benchmarks and publishing culture fail and how they don’t, a solid work on finding a better solution to the metric learning problem that is also easy to read.

An Industrial-Strength Audio Search Algorithm – the paper about Shazam. Just check this quote: “This procedure reduces the search problem to a kind of “astronavigation”... ”. This is so awesome: explaining hard stuff with metaphors in a research paper. Very easy to read.

Deep learning is robust to massive label noise – just an excellent work.

❓What do you think about Kaggle competitions?
Personally, I'm not interested in participating.

Often the large ensemble of models wins and most top results use similar ensembles. It seems that whoever is lucky with the seed wins. It's very rare to find a situation where the most creative solution wins. On the other hand, competitions are increasingly taking place in narrow areas such as medical images and bioinformatics.

After all, Kaggle is now a whole industry. There are people winning gold medals for money. There are entire teams with fleets of servers full of GPUs solving competitions on a full-time basis. All in all, to me, this creates an atmosphere where the expectation of money and interest on Kaggle is less than it is at work.

❓What is the specialty of MLOps?
MLOps is backend + ML.

One day people realized that models are not useful if they are not implemented in the product. It turned out that ML models have some peculiarities in terms of implementation.

So MLOps was born as a term to describe everything related to the infrastructure around deploying ML models in production: how data goes into the model, how models are trained, how predictions are made, how it all scales under load, how to retrain and monitor models.

The industry is now moving to the point where a Data Scientist without knowledge of MLOps is becoming increasingly rare.

👍1

41 views11:41

Aspiring Data Science

Forwarded from Neural Info

INTERVIEW PART 2.

❓The mathematical gap between ML and DL How effective do you think you can be in DL if you only know the basics?
To be honest, the mathematics in the DL is far from being the most complicated, especially at the level of practical applications. Take the derivative? Write the likelihood function? Understand how the chain rule works in mathematical analysis? It's not easy, but it's within everyone's reach.

But mathematics helps a lot at the level of intuition. Especially probability and information theory. I don't have a mathematical background myself and I'm always catching up. You can do without deep mathematics, but every time I dive deeper, my capabilities are greatly expanded.

Of course, a deep knowledge of mathematics is necessary if you want to do research.

❓Let's talk about your articles.
I have several articles. Two of them are my coursework and my master's thesis. They are about metric learning: search, where the input is an image, and the output is other, similar images.

There's an article from Toloka where I used our original method of learning on crowdsourced markup , where for each example you get several noisy labels from markups are given to solve a scientific competition.

There is also a special article. After the first wave of the coronavirus epidemic, I came across information that there was a "British strain" that could cause a second wave. I decided to check this information and found that it was almost certainly true. It took me three months to write the article on my own. I had no previous experience of epidemiology, so it was very difficult to research the literature on the subject. It was particularly difficult because I was doing it alone. However, I persevered and wrote an article in which I used a predictive model to show that a strain with a virality coefficient like the British coronavirus strain would cause a wave of disease. I wanted to show that this was not the time to relax and remove restrictions.

There was a funny episode: In the middle of my research, I ran into a dead end and asked friends for help. They put me in touch with specialists from the Gamaleya Institute, real epidemiologists. I showed them my research and they said: "Great, that's what we do". I was shocked that in two months, with no experience in the field, I had done something that looked like real work.

After posting the article on arxiv, I contacted journalist friends, made a presentation, and started sending it out to the mass media. In the result, it turned out that the coronavirus was no longer a hot topic.

In the end, it was only possible to publish it on mail.ru news. You can read the publication on mail.ru here and a more technical version in this habr post.

👍 Thanks.
I would like to express special thanks to Boris for his answers and especially for his time.

🆒1

41 views11:45

Aspiring Data Science

Aspiring Data Science pinned «#business Меня разрывает между десятком проектов и идей. Все хорошие, классные, интересные, сложные. По итогу не успеваю ни один довести до ума. Смотрю на список из 13 стартапов и понимаю, что это уже не программерская, а управленческая задача. Варианты…»

12:41

Aspiring Data Science

#pandas

https://www.youtube.com/watch?v=cSLPyRI_ZD8&ab_channel=RobMulla

YouTube

Pandas 2.0 : Everything You Need to Know

In this video I give an overview of pandas 2.0 and the main changes related to the apache arrow backend.

Marc Garcia's Article: https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i

Timeline:
00:00 Intro
01:04 Legacy Numpy
02:49 Arrow…

55 views16:40

Aspiring Data Science

Смешно. Цукер наблюдал за Маском, наблюдал, да вдруг спохватился.

"Месяц назад пользователи Facebook* и Instagram* из Австралии и Новой Зеландии получили возможность участвовать в программе Meta* Verified — речь идёт о платной верификации аккаунтов в этих соцсетях. В зависимости от способа оплаты галочка около ника оценивается от $11,99 до $14,99 в месяц. Теперь опция стала доступной и пользователям из США."

https://3dnews.ru/1083633/zapushchena-platnaya-podpiska-meta-verified-dlya-polzovateley-instagram-i-facebook-iz-ssha

3DNews - Daily Digital Digest

Запущена платная подписка Meta✴ Verified для пользователей Instagram✴ и Facebook✴ из США

Месяц назад пользователи Facebook и Instagram из Австралии и Новой Зеландии получили возможность участвовать в программе Meta Verified — речь идёт о платной верификации аккаунтов в этих соцсетях.

😁2

51 views05:39

Aspiring Data Science

#dating

66 views12:04

Aspiring Data Science

#timescaledb

Datatype-aware compression algos. Integer: Delta-encoding, Simple-8b, Run-length encoding (RLE). Float: Gorilla encoding. Dictionary compression (in particular, LZ-based compression) is the ancestor of many compression schemes used today, including LZW (used in GIF) and DEFLATE (used in PNG, gzip).

https://www.timescale.com/blog/time-series-compression-algorithms-explained/

TigerData Blog

Time-series compression algorithms, explained

These algorithms aren't magic – but combined they can save over 90% of storage costs and speed up queries. Here’s how 5 common ones work.

41 viewsedited 21:47

Aspiring Data Science

#timescaledb

"A relational database can be quite powerful for time-series data. Yet, the costs of swapping in/out of memory significantly impacts their performance. But NoSQL approaches that implement Log Structured Merge Trees have only shifted the problem, introducing higher memory requirements and poor secondary index support.

By recognizing that time-series data is different, we are able to organize data in a new way: adaptive time/space chunking. This minimizes swapping to disk by keeping the working data set small enough to fit inside memory, while allowing us to maintain robust primary and secondary index support (and the full feature set of PostgreSQL). And as a result, we are able to scale up PostgreSQL significantly, resulting in a 15x improvement on insert rates."

https://www.timescale.com/blog/time-series-data-why-and-how-to-use-a-relational-database-instead-of-nosql-d0cd6975e87c/

Timescale Blog

Time-series data: Why to use a relational database instead of NoSQL

We take a somewhat heretical stance: relational databases are powerful for time-series data *if* you solve the scaling problem. That's what we do with TimescaleDB.

👍1

46 viewsedited 22:26

Aspiring Data Science

#umap #trustworthiness #geometry

https://towardsdatascience.com/on-the-validating-umap-embeddings-2c8907588175

Medium

On the Validation of UMAP

There is not a large body of practical work on validating Uniform Manifold Approximation and Projection (UMAP). In this blog post, I will show you a real example, in hopes to provide an additional…

👍1

42 viewsedited 13:15

Aspiring Data Science

#architecture #highload #exchange #moex

https://habr.com/en/company/moex/blog/444300/

https://habr.com/en/company/moex/blog/444302/

Habr

Эволюция архитектуры торгово-клиринговой системы Московской биржи. Часть 1

Всем привет! Меня зовут Сергей Костанбаев, на Бирже я занимаюсь разработкой ядра торговой системы. Когда в голливудских фильмах показывают Нью-Йоркскую фондовую биржу, это всегда выглядит так: толпы...

83 viewsedited 20:32

Aspiring Data Science

"HR-платформа «Пульс» со встроенными ИИ-моделями оценки рисков оттока персонала ежегодно сохраняет на 10% больше сотрудников, подсчитали аналитики «Сбера». Самой массовой причиной увольнения по собственному желанию эксперты компании называют выгорание (свыше 50%). При этом потери бизнеса из-за необходимости повторного замещения позиции могут составлять от 1 до 3 окладов сотрудника.

ИИ-модели «Пульса» анализируют состояние каждого сотрудника: время начала и окончания рабочего дня, нагрузку, болезни, отпуска, настроение участников команды. Система в реальном времени реагирует на отклонения показателей от нормы. Получив в «Пульсе» автоматическую задачу или уведомление, руководитель может принять меры по удержанию работника до того, как выгорание привело к решению сотрудника покинуть организацию. Эксперты «Сбера» уверяют, что ИИ-модели оценки рисков оттока распознает сигналы выгорания, незаметные человеку."

https://servernews.ru/1083695

ServerNews - все из мира больших мощностей

ИИ от «Сбера» научился отслеживать выгорание сотрудников и заранее предупреждать о нём

HR-платформа «Пульс» со встроенными ИИ-моделями оценки рисков оттока персонала ежегодно сохраняет на 10% больше сотрудников, подсчитали аналитики «Сбера». Самой массовой причиной увольнения по собственному желанию эксперты компании называют выгорание (свыше…

47 views22:26

Aspiring Data Science

"Анонсированная волна сокращений станет не первой для компании. Ранее в этом году рабочих мест лишились 18 тыс. сотрудников Amazon преимущественно из подразделения розничной торговли и кадровой службы. Ожидается, что новая волна сокращений поможет компании оптимизировать расходы.

«Основной принцип нашего ежегодного планирования в этом году заключается в том, чтобы быть более компактным, но при этом позволять нам продолжить активно инвестировать в ключевые долгосрочные проекты, которые, по нашему мнению, могут значительно улучшить жизнь клиентов Amazon», — говорится в сообщении Энди Джесси.

На этот раз увольнения затронут сотрудников облачного направления AWS, видеосервиса Twitch, рекламного подразделения, а также отдела, занимающегося кадровыми вопросами и разработкой HR-инструментов. Отметим, что Amazon переживает самые масштабные увольнения в истории компании."

https://3dnews.ru/1083702/amazon-prodolgit-massovie-uvolneniya-mest-lishatsya-eshchyo-9-tis-sotrudnikov-kompanii

3DNews - Daily Digital Digest

Amazon уволит 9 тыс. сотрудников из Twitch, AWS, отделов рекламы и кадров

Стало известно, что компания Amazon в ближайшие несколько недель уволит 9 тыс.

47 views22:27

Aspiring Data Science

Forwarded from DevFM

Где бы ещё сохранить данные?

Greenplum – распределённая база данных на основе postgres с открытым исходным кодом.

Статья Introduction To Greenplum Architecture будет отличным введением для понимания, что это за зверь такой.

Автор начинает с довольно скучного введения, так что сразу переходите к разделу Greenplum Overall Architecture.

По сути, Greenplum – это кластер баз данных, состоящий из отдельных Postgres. Кластер состоит из:
– master-ноды, которая является входной точкой для всей БД и обеспечивает единый интерфейс для взаимодействия с кластером
– standby-ноды – резервного мастера для обеспечения высокой доступности
– нескольких segment-нод – рабочих лошадок, где хранятся и обрабатываются данные

Статья расскажет, как это всё вместе взаимодействует. Затрагиваются вопросы:
– физической организации хранения данных
– порядка и способов взаимодействия всех участников кластера
– выполнения запросов с различными джоинами
– обеспечения атомарности и изоляции
– механизма двухфазного коммита для подтверждения распределённых транзакций

Вводная статья, конечно, не расскажет о практическом применении гринплама и не подсветит проблемные места. Чтобы изучить, как эта махарайка применяется на практике, рекомендуем прочитать статью Как мы используем Greenplum в платформе данных Тинькофф

#skills #database

❤2

41 views14:07

About

Blog

Apps

Platform