Авторы разработали новый метод для генерирования синтетических табличных данных на основе авторегрессивных языковых моделей и назвали его - GReaT ( Generation of Realistic Tabular data).
Показали, что:
1⃣ табличные данные могут быть трансформированы в текст, например есть три фичи “Age”, “Gender”, “Salary”, и какое-то кол-во строк. Тогда, можно сформировать следующее предложение: “Age is 42, Gender is Female, Salary is 100k”.
2⃣ эти предложения можно будет использовать с pre-trained large language models (LLMs) для генерации синтетических данных.
3⃣ Так как столбцы в табличных данных не имеют порядка (все равно с какой фичи начинать), а для LLMs последовательность слов важна, авторы предложили рандомно перемешивать фичи, чтобы LLM поняла порядок не важен и для тогда открывается другая способность авторского метода.
4⃣ Полностью арбитарное сэмплирование - можно будет использовать любые комбинации фич, чтобы получить распределение.
Результаты: Авторский метод на определенных метриках показал на 20% лучше результат чем всем известный CTGAN.
Статья 📖 https://arxiv.org/abs/2210.06280
Код🌟 https://github.com/kathrinse/be_great
Показали, что:
1⃣ табличные данные могут быть трансформированы в текст, например есть три фичи “Age”, “Gender”, “Salary”, и какое-то кол-во строк. Тогда, можно сформировать следующее предложение: “Age is 42, Gender is Female, Salary is 100k”.
2⃣ эти предложения можно будет использовать с pre-trained large language models (LLMs) для генерации синтетических данных.
3⃣ Так как столбцы в табличных данных не имеют порядка (все равно с какой фичи начинать), а для LLMs последовательность слов важна, авторы предложили рандомно перемешивать фичи, чтобы LLM поняла порядок не важен и для тогда открывается другая способность авторского метода.
4⃣ Полностью арбитарное сэмплирование - можно будет использовать любые комбинации фич, чтобы получить распределение.
Результаты: Авторский метод на определенных метриках показал на 20% лучше результат чем всем известный CTGAN.
Статья 📖 https://arxiv.org/abs/2210.06280
Код
pip install be-greatPlease open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - kathrinse/be_great: A novel approach for synthesizing tabular data using pretrained large language models
A novel approach for synthesizing tabular data using pretrained large language models - kathrinse/be_great
👍1