DE – Telegram
524 subscribers
320 photos
81 videos
15 files
410 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Channel created
Авторы разработали новый метод для генерирования синтетических табличных данных на основе авторегрессивных языковых моделей и назвали его - GReaT ( Generation of Realistic Tabular data).

Показали, что:
1⃣ табличные данные могут быть трансформированы в текст, например есть три фичи “Age”, “Gender”, “Salary”, и какое-то кол-во строк. Тогда, можно сформировать следующее предложение: “Age is 42, Gender is Female, Salary is 100k”.
2⃣ эти предложения можно будет использовать с pre-trained large language models (LLMs) для генерации синтетических данных.
3⃣ Так как столбцы в табличных данных не имеют порядка (все равно с какой фичи начинать), а для LLMs последовательность слов важна, авторы предложили рандомно перемешивать фичи, чтобы LLM поняла порядок не важен и для тогда открывается другая способность авторского метода.
4⃣ Полностью арбитарное сэмплирование - можно будет использовать любые комбинации фич, чтобы получить распределение.

Результаты: Авторский метод на определенных метриках показал на 20% лучше результат чем всем известный CTGAN.

Статья 📖 https://arxiv.org/abs/2210.06280
Код 🌟 https://github.com/kathrinse/be_great

pip install be-great
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
SQL vs. NoSQL
#cheatsheet
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
minibatch stream processing
😁1
👍1
#regex #cheatsheet

Quantifiers
#regex #cheatsheet

More Characters
#regex #cheatsheet

More White-Space
#regex #cheatsheet

More Quantifiers
#regex #cheatsheet

Characters Classes
#regex #cheatsheet

Ancors and Boundaries
#regex #cheatsheet

POSIX Classes
#regex #cheatsheet

Inline Modifiers