RU Dataset | Датасеты – Telegram
RU Dataset | Датасеты
3.17K subscribers
25 links
ℹ️ Собираем датасеты! Есть что добавить?!

Пишите @dataset_chat 💬

@daniilak
Download Telegram
Недвижимость

Дата
сеты от Росреестра
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Ссылка (https://files.kadastr.ru/s/RXcEoq2gqfKJRRF)

Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года

Публичная кадастровая карта России

Реформа ЖКХ.

Около 11 миллионов объявлений недвижимости в России за 2021 год

Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.

API для доступа к объявлениям с avito.ru

Парсер объявлений недвижимости России

Данные от NextGis


@dataset_ru
Анализ сцен по фото

Набор данных ADE20K
sceneparsing.csail.mit.edu

Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu

LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun

Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation

House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset

Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html

@dataset_ru
Фотографии людей

Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos

Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/

People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt

github.com/BathVisArtData/PhotoArt50

Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/

Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49

@dataset_ru
Социальные сети

2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
Московские пользователи Tinder
Московские пользователи Telegram
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus

Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:

Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset

Каталог пользователей ВКонтакте
https://vk.com/catalog.php

2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom

Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data

Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info

Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity

Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews

InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/

Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions

@dataset_ru
Текстовые данные

Датасет с анекдотами
t.me/NeuralShit/2321

Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv

Датасет с цитатами
t.me/NeuralShit/2202

Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus

Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries

Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset

Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase

Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora

RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt

Фамилии
t.me/dataset_chat/40

Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro

Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets

Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset

Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset

Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh

Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon

Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems

Русские романы
https://github.com/JoannaBy/RussianNovels

Мемы с текстовыми описаниями
https://news.1rj.ru/str/lovedeathtransformers/4792

@dataset_ru
Фотографии

Размеченная капча (20 тыс)
https://news.1rj.ru/str/lovedeathtransformers/4771

Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data

xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset

@dataset_ru
Музыка

Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html

База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/

Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset

M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/

Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c

Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset

Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com



@dataset_ru
Видеозаписи

Старый Телевизор - архив старых теле- и радиозаписей. Отдельное внимание уделено теме телевизионного дизайна и рекламы.
staroetv.su

Датасет состоит из видеозаписей людей, произносящих различные фразы. Данный датасет был сформирован на базе НИУ ВШЭ Нижний Новгород
github.com/avenaki/speech-recognition-dataset

@dataset_ru
Мода

База данных крупномасштабной моды
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html

@dataset_ru
Федеральные порталы открытых данных

Портал открытых данных России
Открытые данные Министерства Финансов
Открытые данные Федерального Казначейства
Открытые данные Министерства Культуры
Открытые данные Министерства внутренних дел
Открытые данные Министерства Здравоохранения
Открытые данные Министерства науки и высшего образования
Открытые данные Министерства просвещения
Открытые данные Министерства Спорта
Открытые данные Министерства транспорта
Открытые данные Министерства энергетики
Открытые данные Центральной избирательной комиссии
Портал Безопасные дороги
Портал Работа в России
Портал ГИС ЖКХ
Портал Вся.Культура.РФ
Связанные микроданные переписи населения 2002 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам
Связанные микроданные переписи населения 2010 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам

@dataset_ru