NEW BOT Телеграм, страница

Если вас интересуют датасеты на всякий случай жизни, то гляньте сюда 👇🏼

Пожалуйста 🙂

99 views21:04

↕️↘️ Содержание
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология

Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com

👍2

96 views21:04

Магия данных | Артур Сапрыкин

Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.

Если вам не пригодится, то себе оставлю 😝

99 views09:17

Магия данных | Артур Сапрыкин

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Woland-10

Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.

〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁

Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.

Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.

🇷🇺 Вино какой страны предпочитаете в это время дня?
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒？

👉 GitHub

99 views09:17

Магия данных | Артур Сапрыкин

Ребята сами создают свою СУБД.

Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.

Что же, желаю успеха этому мероприятию 🦾🔥

👍1🔥1

103 views08:42

Магия данных | Артур Сапрыкин

Forwarded from SQLpedia | Базы данных

Используйте "железо" эффективно с СУБД SoQoL!
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.

112 views08:42

Магия данных | Артур Сапрыкин

А вот тут статейка на тему того, как открыть большой датасет, и ещё сохранить его в более меньшем размере.

То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.

Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.

Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.

Medium

How did I convert the 33 GB Dataset into a 3 GB file Using Pandas?

Optimizing the dataset memory is the first and critical step in any data science project. A dataset may contain thousand to millions of…

👍2

109 viewsedited 08:04

Магия данных | Артур Сапрыкин

Обучение с подкреплением?
Вот, изучайте среды.

Medium

15 awesome reinforcement learning environments you must know

1. Neural MMO

111 views14:44

Магия данных | Артур Сапрыкин

Любимое число ☺️

112 views16:01

Магия данных | Артур Сапрыкин

😂

111 views08:42

Магия данных | Артур Сапрыкин

Forwarded from Sberloga

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

125 views08:42

Магия данных | Артур Сапрыкин

Немного годноты вам сюда.

Здесь речь об алгоритмах сжатия, современного состояния и перспектив.

Вообще, я считаю, что крутой алгоритм искусственного интеллекта безусловно будет классно и без потерь сжимать и разжимать любую информацию.

Поэтому, как минимум, для общего развития, прочитайте ☺️

Хабр

Как развитие алгоритмов сжатия остановилось 20 лет назад, или о новом конкурсе на 200 тысяч евро

В октябре прошлого года я опубликовал статью «О талантах, деньгах и алгоритмах сжатия данных» , где с юмором описал, как «изобретают» новые алгоритмы сжатия люди, не имеющие достаточно навыков для...

143 views23:00

Магия данных | Артур Сапрыкин

Вот ещё статья на тему оптимизации пандас.

Что-то уже давно избито, но особый интерес тут в применении библиотеки pandarallel. Ваши любимые apply можно будет раскидывать по потокам, что значительно ускорит работу применения функций.

Medium

The Top 5 Pandas Optimization Methods You Should Know!

Things get messy if we don’t employ memory optimization techniques when dealing with high-dimensional data. You don't want the pop-up…

👍3

155 views14:32

Магия данных | Артур Сапрыкин

Поддерживаю. Такое работает годно, если с умом применить 🦾

138 views21:31

Магия данных | Артур Сапрыкин

Forwarded from Small Data Science for Russian Adventurers

#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

139 views21:31

Магия данных | Артур Сапрыкин

Я считаю, что это гениальное применение машинного обучения ☺️

137 views12:13

Магия данных | Артур Сапрыкин

Forwarded from Типичный программист

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

Энтузиаст собрал настоящую водяную турель против соседских куриц, которые портят ему газон

Всё на основе Raspberry Pi 3b+, Python, OpenCV, китайского телефона и Deep Learning. Подробнее о процессе разработки он рассказал в своём аккаунте da.hell.is.this.

Достойный проект для портфолио.

#кек #diy

👍2

139 views12:13

Магия данных | Артур Сапрыкин

Forwarded from QApedia | Тестирование

😁2

138 views13:53

Магия данных | Артур Сапрыкин

Чудесная статья про современные подходы к разработке программного обеспечения.

Кому нужна абстрактная картина (и даже небольшая история) того, как строится архитектура ПО - заглядывайте))

Medium

Современные подходы к разработке программного обеспечения

В октябре прошлого года я выступал на DevFest с докладом на тему, вынесенную в заголовок статьи. Само выступление доступно на Youtube, а…

157 views13:02

Магия данных | Артур Сапрыкин

Сегодня на вебе по тематическому моделированию мой пёс не оценил моего желания сидеть на полу.

Вы бы видели, как он пытался меня вытолкнуть 😂

😁13

164 views17:20

Магия данных | Артур Сапрыкин

Во время занятий со студентами вспомнил о замечательном русскоязычном курсе про обработку сигналов.

Зачем? Спросите вы...

А затем, чтобы на другом уровне понимать временные ряды, и самое необходимое для вхождения в область обработки аудио.

GitHub

GitHub - hukenovs/dsp-theory: Theory of digital signal processing (DSP): signals, filtration (IIR, FIR, CIC, MAF), transforms (FFT…

Theory of digital signal processing (DSP): signals, filtration (IIR, FIR, CIC, MAF), transforms (FFT, DFT, Hilbert, Z-transform) etc. - hukenovs/dsp-theory

👍2

239 views17:14

About

Blog

Apps

Platform