Недвижимость
Датасеты от Росреестра
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Ссылка (https://files.kadastr.ru/s/RXcEoq2gqfKJRRF)
Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года
Публичная кадастровая карта России
Реформа ЖКХ.
Около 11 миллионов объявлений недвижимости в России за 2021 год
Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.
API для доступа к объявлениям с avito.ru
Парсер объявлений недвижимости России
Данные от NextGis
@dataset_ru
Датасеты от Росреестра
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Ссылка (https://files.kadastr.ru/s/RXcEoq2gqfKJRRF)
Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года
Публичная кадастровая карта России
Реформа ЖКХ.
Около 11 миллионов объявлений недвижимости в России за 2021 год
Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.
API для доступа к объявлениям с avito.ru
Парсер объявлений недвижимости России
Данные от NextGis
@dataset_ru
Анализ сцен по фото
Набор данных ADE20K
sceneparsing.csail.mit.edu
Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu
LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun
Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation
House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html
@dataset_ru
Набор данных ADE20K
sceneparsing.csail.mit.edu
Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu
LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun
Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation
House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html
@dataset_ru
Адреса России
Адресный классификатор: объединённые географические данные ФИАС и Почты России с детализацией до дома
Города
Открытый слой геоданных по детским учреждениям (детским домам)
Публичная кадастровая карта
Федеральная информационная адресная система
Около 960 тысяч уникальных адресов в разных написаниях
Частотности улиц
Выгруженные данные Публичной кадастровой карты (май, 2022)
@dataset_ru
Адресный классификатор: объединённые географические данные ФИАС и Почты России с детализацией до дома
Города
Открытый слой геоданных по детским учреждениям (детским домам)
Публичная кадастровая карта
Федеральная информационная адресная система
Около 960 тысяч уникальных адресов в разных написаниях
Частотности улиц
Выгруженные данные Публичной кадастровой карты (май, 2022)
@dataset_ru
Фотографии людей
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/
Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49
@dataset_ru
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/
Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49
@dataset_ru
Социальные сети
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
Московские пользователи Tinder
Московские пользователи Telegram
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus
Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:
Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset
Каталог пользователей ВКонтакте
https://vk.com/catalog.php
2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom
Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data
Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info
Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity
Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews
InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/
Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions
@dataset_ru
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
Московские пользователи Tinder
Московские пользователи Telegram
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus
Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:
Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset
Каталог пользователей ВКонтакте
https://vk.com/catalog.php
2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom
Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data
Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info
Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity
Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews
InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/
Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions
@dataset_ru
Еда | Продукты питания
Open Food Facts gathers information and data on food products from around the world.
Сентимент-анализ отзывов на еду с Amazon
Recipe Ingredients Dataset (отсутствуют пропорции для ингредиентов)
Recipe1M+ (большое количество рецептов, но необходимо регистрироваться, чтобы скачать данные)
Epicurious — Recipes with Rating and Nutrition (около ~20000 рецептов)
Recipe box (около ~125,000 рецептов с ингредиентами и инструкциями по приготовлению)
#еда #отзывы #рецепты
@dataset_ru
Open Food Facts gathers information and data on food products from around the world.
Сентимент-анализ отзывов на еду с Amazon
Recipe Ingredients Dataset (отсутствуют пропорции для ингредиентов)
Recipe1M+ (большое количество рецептов, но необходимо регистрироваться, чтобы скачать данные)
Epicurious — Recipes with Rating and Nutrition (около ~20000 рецептов)
Recipe box (около ~125,000 рецептов с ингредиентами и инструкциями по приготовлению)
#еда #отзывы #рецепты
@dataset_ru
Текстовые данные
Датасет с анекдотами
t.me/NeuralShit/2321
Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv
Датасет с цитатами
t.me/NeuralShit/2202
Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus
Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries
Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset
Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase
Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora
RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt
Фамилии
t.me/dataset_chat/40
Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro
Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets
Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset
Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset
Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh
Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon
Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems
Русские романы
https://github.com/JoannaBy/RussianNovels
Мемы с текстовыми описаниями
https://news.1rj.ru/str/lovedeathtransformers/4792
@dataset_ru
Датасет с анекдотами
t.me/NeuralShit/2321
Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv
Датасет с цитатами
t.me/NeuralShit/2202
Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus
Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries
Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset
Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase
Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora
RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt
Фамилии
t.me/dataset_chat/40
Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro
Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets
Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset
Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset
Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh
Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon
Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems
Русские романы
https://github.com/JoannaBy/RussianNovels
Мемы с текстовыми описаниями
https://news.1rj.ru/str/lovedeathtransformers/4792
@dataset_ru
Фотографии
Размеченная капча (20 тыс)
https://news.1rj.ru/str/lovedeathtransformers/4771
Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data
xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset
@dataset_ru
Размеченная капча (20 тыс)
https://news.1rj.ru/str/lovedeathtransformers/4771
Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data
xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset
@dataset_ru
Музыка
Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html
База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/
Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset
M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/
Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c
Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset
Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com
@dataset_ru
Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html
База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/
Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset
M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/
Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c
Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset
Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com
@dataset_ru
Видеозаписи
Старый Телевизор - архив старых теле- и радиозаписей. Отдельное внимание уделено теме телевизионного дизайна и рекламы.
staroetv.su
Датасет состоит из видеозаписей людей, произносящих различные фразы. Данный датасет был сформирован на базе НИУ ВШЭ Нижний Новгород
github.com/avenaki/speech-recognition-dataset
@dataset_ru
Старый Телевизор - архив старых теле- и радиозаписей. Отдельное внимание уделено теме телевизионного дизайна и рекламы.
staroetv.su
Датасет состоит из видеозаписей людей, произносящих различные фразы. Данный датасет был сформирован на базе НИУ ВШЭ Нижний Новгород
github.com/avenaki/speech-recognition-dataset
@dataset_ru
Мода
База данных крупномасштабной моды
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
@dataset_ru
База данных крупномасштабной моды
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
@dataset_ru
Федеральные порталы открытых данных
Портал открытых данных России
Открытые данные Министерства Финансов
Открытые данные Федерального Казначейства
Открытые данные Министерства Культуры
Открытые данные Министерства внутренних дел
Открытые данные Министерства Здравоохранения
Открытые данные Министерства науки и высшего образования
Открытые данные Министерства просвещения
Открытые данные Министерства Спорта
Открытые данные Министерства транспорта
Открытые данные Министерства энергетики
Открытые данные Центральной избирательной комиссии
Портал Безопасные дороги
Портал Работа в России
Портал ГИС ЖКХ
Портал Вся.Культура.РФ
Связанные микроданные переписи населения 2002 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам
Связанные микроданные переписи населения 2010 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам
@dataset_ru
Портал открытых данных России
Открытые данные Министерства Финансов
Открытые данные Федерального Казначейства
Открытые данные Министерства Культуры
Открытые данные Министерства внутренних дел
Открытые данные Министерства Здравоохранения
Открытые данные Министерства науки и высшего образования
Открытые данные Министерства просвещения
Открытые данные Министерства Спорта
Открытые данные Министерства транспорта
Открытые данные Министерства энергетики
Открытые данные Центральной избирательной комиссии
Портал Безопасные дороги
Портал Работа в России
Портал ГИС ЖКХ
Портал Вся.Культура.РФ
Связанные микроданные переписи населения 2002 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам
Связанные микроданные переписи населения 2010 г.: двадцатипроцентная выборка по частным домохозяйствам и индивидам
@dataset_ru
Региональные порталы открытых данных
Портал открытых данных Москвы
Портал открытых данных Санкт-Петербурга
Портал открытых данных Вологодской области
Портал открытых данных Республики Коми
Портал открытых данных Московской области
Портал открытых данных Ярославской области
Портал открытых данных Республики Тыва
Портал открытых данных Ульяновской области
Портал открытых данных Чувашской республики
Портал открытых данных Правительства Тульской области
Портал открытых данных Пермского края
Портал открытых данных Тюменской области
@dataset_ru
Портал открытых данных Москвы
Портал открытых данных Санкт-Петербурга
Портал открытых данных Вологодской области
Портал открытых данных Республики Коми
Портал открытых данных Московской области
Портал открытых данных Ярославской области
Портал открытых данных Республики Тыва
Портал открытых данных Ульяновской области
Портал открытых данных Чувашской республики
Портал открытых данных Правительства Тульской области
Портал открытых данных Пермского края
Портал открытых данных Тюменской области
@dataset_ru