Недвижимость
Датасеты от Росреестра
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Ссылка (https://files.kadastr.ru/s/RXcEoq2gqfKJRRF)
Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года
Публичная кадастровая карта России
Реформа ЖКХ.
Около 11 миллионов объявлений недвижимости в России за 2021 год
Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.
API для доступа к объявлениям с avito.ru
Парсер объявлений недвижимости России
Данные от NextGis
@dataset_ru
Датасеты от Росреестра
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Ссылка (https://files.kadastr.ru/s/RXcEoq2gqfKJRRF)
Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года
Публичная кадастровая карта России
Реформа ЖКХ.
Около 11 миллионов объявлений недвижимости в России за 2021 год
Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.
API для доступа к объявлениям с avito.ru
Парсер объявлений недвижимости России
Данные от NextGis
@dataset_ru
Анализ сцен по фото
Набор данных ADE20K
sceneparsing.csail.mit.edu
Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu
LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun
Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation
House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html
@dataset_ru
Набор данных ADE20K
sceneparsing.csail.mit.edu
Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu
LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun
Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation
House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html
@dataset_ru
Адреса России
Адресный классификатор: объединённые географические данные ФИАС и Почты России с детализацией до дома
Города
Открытый слой геоданных по детским учреждениям (детским домам)
Публичная кадастровая карта
Федеральная информационная адресная система
Около 960 тысяч уникальных адресов в разных написаниях
Частотности улиц
Выгруженные данные Публичной кадастровой карты (май, 2022)
@dataset_ru
Адресный классификатор: объединённые географические данные ФИАС и Почты России с детализацией до дома
Города
Открытый слой геоданных по детским учреждениям (детским домам)
Публичная кадастровая карта
Федеральная информационная адресная система
Около 960 тысяч уникальных адресов в разных написаниях
Частотности улиц
Выгруженные данные Публичной кадастровой карты (май, 2022)
@dataset_ru
Фотографии людей
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/
Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49
@dataset_ru
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/
Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49
@dataset_ru
Социальные сети
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
Московские пользователи Tinder
Московские пользователи Telegram
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus
Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:
Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset
Каталог пользователей ВКонтакте
https://vk.com/catalog.php
2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom
Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data
Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info
Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity
Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews
InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/
Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions
@dataset_ru
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
Московские пользователи Tinder
Московские пользователи Telegram
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus
Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:
Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset
Каталог пользователей ВКонтакте
https://vk.com/catalog.php
2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom
Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data
Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info
Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity
Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews
InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/
Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions
@dataset_ru
Еда | Продукты питания
Open Food Facts gathers information and data on food products from around the world.
Сентимент-анализ отзывов на еду с Amazon
Recipe Ingredients Dataset (отсутствуют пропорции для ингредиентов)
Recipe1M+ (большое количество рецептов, но необходимо регистрироваться, чтобы скачать данные)
Epicurious — Recipes with Rating and Nutrition (около ~20000 рецептов)
Recipe box (около ~125,000 рецептов с ингредиентами и инструкциями по приготовлению)
#еда #отзывы #рецепты
@dataset_ru
Open Food Facts gathers information and data on food products from around the world.
Сентимент-анализ отзывов на еду с Amazon
Recipe Ingredients Dataset (отсутствуют пропорции для ингредиентов)
Recipe1M+ (большое количество рецептов, но необходимо регистрироваться, чтобы скачать данные)
Epicurious — Recipes with Rating and Nutrition (около ~20000 рецептов)
Recipe box (около ~125,000 рецептов с ингредиентами и инструкциями по приготовлению)
#еда #отзывы #рецепты
@dataset_ru
Текстовые данные
Датасет с анекдотами
t.me/NeuralShit/2321
Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv
Датасет с цитатами
t.me/NeuralShit/2202
Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus
Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries
Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset
Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase
Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora
RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt
Фамилии
t.me/dataset_chat/40
Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro
Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets
Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset
Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset
Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh
Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon
Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems
Русские романы
https://github.com/JoannaBy/RussianNovels
Мемы с текстовыми описаниями
https://news.1rj.ru/str/lovedeathtransformers/4792
@dataset_ru
Датасет с анекдотами
t.me/NeuralShit/2321
Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv
Датасет с цитатами
t.me/NeuralShit/2202
Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus
Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries
Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset
Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase
Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora
RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt
Фамилии
t.me/dataset_chat/40
Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro
Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets
Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset
Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset
Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh
Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon
Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems
Русские романы
https://github.com/JoannaBy/RussianNovels
Мемы с текстовыми описаниями
https://news.1rj.ru/str/lovedeathtransformers/4792
@dataset_ru
Фотографии
Размеченная капча (20 тыс)
https://news.1rj.ru/str/lovedeathtransformers/4771
Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data
xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset
@dataset_ru
Размеченная капча (20 тыс)
https://news.1rj.ru/str/lovedeathtransformers/4771
Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data
xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset
@dataset_ru
Музыка
Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html
База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/
Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset
M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/
Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c
Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset
Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com
@dataset_ru
Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html
База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/
Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset
M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/
Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c
Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset
Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com
@dataset_ru