RU Dataset | Датасеты – Telegram
RU Dataset | Датасеты
3.17K subscribers
25 links
ℹ️ Собираем датасеты! Есть что добавить?!

Пишите @dataset_chat 💬

@daniilak
Download Telegram
Недвижимость

Дата
сеты от Росреестра
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Ссылка (https://files.kadastr.ru/s/RXcEoq2gqfKJRRF)

Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года

Публичная кадастровая карта России

Реформа ЖКХ.

Около 11 миллионов объявлений недвижимости в России за 2021 год

Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.

API для доступа к объявлениям с avito.ru

Парсер объявлений недвижимости России

Данные от NextGis


@dataset_ru
Анализ сцен по фото

Набор данных ADE20K
sceneparsing.csail.mit.edu

Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu

LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun

Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation

House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset

Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html

@dataset_ru
Фотографии людей

Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos

Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/

People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt

github.com/BathVisArtData/PhotoArt50

Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/

Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49

@dataset_ru
Социальные сети

2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
Московские пользователи Tinder
Московские пользователи Telegram
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus

Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:

Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset

Каталог пользователей ВКонтакте
https://vk.com/catalog.php

2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom

Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data

Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info

Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity

Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews

InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/

Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions

@dataset_ru
Текстовые данные

Датасет с анекдотами
t.me/NeuralShit/2321

Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv

Датасет с цитатами
t.me/NeuralShit/2202

Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus

Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries

Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset

Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase

Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora

RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt

Фамилии
t.me/dataset_chat/40

Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro

Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets

Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset

Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset

Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh

Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon

Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems

Русские романы
https://github.com/JoannaBy/RussianNovels

Мемы с текстовыми описаниями
https://news.1rj.ru/str/lovedeathtransformers/4792

@dataset_ru
Фотографии

Размеченная капча (20 тыс)
https://news.1rj.ru/str/lovedeathtransformers/4771

Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data

xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset

@dataset_ru
Музыка

Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html

База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/

Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset

M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/

Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c

Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset

Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com



@dataset_ru