Если вас интересуют датасеты на всякий случай жизни, то гляньте сюда 👇🏼
Пожалуйста 🙂
Пожалуйста 🙂
Forwarded from RU Dataset | Датасеты
↕️↘️ Содержание
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология
Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология
Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com
👍2
Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.
Если вам не пригодится, то себе оставлю 😝
Если вам не пригодится, то себе оставлю 😝
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Woland-10
Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.
〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁
Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.
Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.
Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.
〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁
Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.
Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.
🇷🇺 Вино какой страны предпочитаете в это время дня?👉 GitHub
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒?
Ребята сами создают свою СУБД.
Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.
Что же, желаю успеха этому мероприятию 🦾🔥
Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.
Что же, желаю успеха этому мероприятию 🦾🔥
👍1🔥1
Forwarded from SQLpedia | Базы данных
Используйте "железо" эффективно с СУБД SoQoL!
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.
А вот тут статейка на тему того, как открыть большой датасет, и ещё сохранить его в более меньшем размере.
То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.
Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.
Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.
То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.
Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.
Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.
Medium
How did I convert the 33 GB Dataset into a 3 GB file Using Pandas?
Optimizing the dataset memory is the first and critical step in any data science project. A dataset may contain thousand to millions of…
👍2
Обучение с подкреплением?
Вот, изучайте среды.
Вот, изучайте среды.
Medium
15 awesome reinforcement learning environments you must know
1. Neural MMO
Немного годноты вам сюда.
Здесь речь об алгоритмах сжатия, современного состояния и перспектив.
Вообще, я считаю, что крутой алгоритм искусственного интеллекта безусловно будет классно и без потерь сжимать и разжимать любую информацию.
Поэтому, как минимум, для общего развития, прочитайте ☺️
Здесь речь об алгоритмах сжатия, современного состояния и перспектив.
Вообще, я считаю, что крутой алгоритм искусственного интеллекта безусловно будет классно и без потерь сжимать и разжимать любую информацию.
Поэтому, как минимум, для общего развития, прочитайте ☺️
Хабр
Как развитие алгоритмов сжатия остановилось 20 лет назад, или о новом конкурсе на 200 тысяч евро
В октябре прошлого года я опубликовал статью «О талантах, деньгах и алгоритмах сжатия данных» , где с юмором описал, как «изобретают» новые алгоритмы сжатия люди, не имеющие достаточно навыков для...
Вот ещё статья на тему оптимизации пандас.
Что-то уже давно избито, но особый интерес тут в применении библиотеки pandarallel. Ваши любимые apply можно будет раскидывать по потокам, что значительно ускорит работу применения функций.
Что-то уже давно избито, но особый интерес тут в применении библиотеки pandarallel. Ваши любимые apply можно будет раскидывать по потокам, что значительно ускорит работу применения функций.
Medium
The Top 5 Pandas Optimization Methods You Should Know!
Things get messy if we don’t employ memory optimization techniques when dealing with high-dimensional data. You don't want the pop-up…
👍3
Forwarded from Small Data Science for Russian Adventurers
#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).
Я считаю, что это гениальное применение машинного обучения ☺️
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиаст собрал настоящую водяную турель против соседских куриц, которые портят ему газон
Всё на основе Raspberry Pi 3b+, Python, OpenCV, китайского телефона и Deep Learning. Подробнее о процессе разработки он рассказал в своём аккаунте da.hell.is.this.
Достойный проект для портфолио.
#кек #diy
Всё на основе Raspberry Pi 3b+, Python, OpenCV, китайского телефона и Deep Learning. Подробнее о процессе разработки он рассказал в своём аккаунте da.hell.is.this.
Достойный проект для портфолио.
#кек #diy
👍2
Чудесная статья про современные подходы к разработке программного обеспечения.
Кому нужна абстрактная картина (и даже небольшая история) того, как строится архитектура ПО - заглядывайте))
Кому нужна абстрактная картина (и даже небольшая история) того, как строится архитектура ПО - заглядывайте))
Medium
Современные подходы к разработке программного обеспечения
В октябре прошлого года я выступал на DevFest с докладом на тему, вынесенную в заголовок статьи. Само выступление доступно на Youtube, а…
Во время занятий со студентами вспомнил о замечательном русскоязычном курсе про обработку сигналов.
Зачем? Спросите вы...
А затем, чтобы на другом уровне понимать временные ряды, и самое необходимое для вхождения в область обработки аудио.
Зачем? Спросите вы...
А затем, чтобы на другом уровне понимать временные ряды, и самое необходимое для вхождения в область обработки аудио.
GitHub
GitHub - hukenovs/dsp-theory: Theory of digital signal processing (DSP): signals, filtration (IIR, FIR, CIC, MAF), transforms (FFT…
Theory of digital signal processing (DSP): signals, filtration (IIR, FIR, CIC, MAF), transforms (FFT, DFT, Hilbert, Z-transform) etc. - hukenovs/dsp-theory
👍2