NEW BOT Телеграм, страница

Магия данных | Артур Сапрыкин

Периодически задают вопросы про выбор СУБД.

Их много, и каждая из них со своими плюсами и минусами.

Вот здесь небольшая статья, которая коротко поясняет про каждую из популярных СУБД.

Medium

Top Databases to Use in 2022: What is The Right Database for Your Use Case?

Here’s everything you need to know about databases

109 views15:53

Магия данных | Артур Сапрыкин

Неплохие однострочники тут

Medium

10 Powerful Python One-Liners

Python one-liners can be just as powerful as a long and tedious program written in another language designed to do the same thing.

110 views17:29

Магия данных | Артур Сапрыкин

Forwarded from N + 1

Если в вашу жизнь ворвался стихийный потоп, от которого не убежать и не спрятаться, можно запаниковать. Но красные муравьи в этой ситуации не паникуют: они держатся рядом, карабкаются друг дружке на плечи и плывут единой конструкцией. Ученые выяснили, что слипаться им помогает еще и физика — ради их спасения работает тот же эффект, что слепляет хлопья в молочном завтраке

https://nplus1.ru/news/2022/09/23/fire-ants-raft-stable

N + 1 — главное издание о науке, технике и технологиях

Для строительства надежного живого плота хватило 10 муравьев

Физики выяснили, что живой плот будет стабильным, если состоит из 10 и более муравьев

102 views13:24

Магия данных | Артур Сапрыкин

Тем, кто нейросетки обучает, может пригодиться. Пользуйтесь на здоровье 🙏🏼

94 views09:44

Магия данных | Артур Сапрыкин

Forwarded from DL in NLP (Vlad Lialin)

Ускоряем нейросетки с помощью PyTorch 1.2 и nvFuser

Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm

Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).

А вот тут официальный туториал от PyTorch

95 views09:44

Магия данных | Артур Сапрыкин

Если вас интересуют датасеты на всякий случай жизни, то гляньте сюда 👇🏼

Пожалуйста 🙂

99 views21:04

Магия данных | Артур Сапрыкин

Forwarded from RU Dataset | Датасеты

↕️↘️ Содержание
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология

Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com

👍2

96 views21:04

Магия данных | Артур Сапрыкин

Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.

Если вам не пригодится, то себе оставлю 😝

99 views09:17

Магия данных | Артур Сапрыкин

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Woland-10

Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.

〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁

Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.

Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.

🇷🇺 Вино какой страны предпочитаете в это время дня?
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒？

👉 GitHub

99 views09:17

Магия данных | Артур Сапрыкин

Ребята сами создают свою СУБД.

Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.

Что же, желаю успеха этому мероприятию 🦾🔥

👍1🔥1

103 views08:42

Магия данных | Артур Сапрыкин

Forwarded from SQLpedia | Базы данных

Используйте "железо" эффективно с СУБД SoQoL!
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.

112 views08:42

Магия данных | Артур Сапрыкин

А вот тут статейка на тему того, как открыть большой датасет, и ещё сохранить его в более меньшем размере.

То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.

Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.

Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.

Medium

How did I convert the 33 GB Dataset into a 3 GB file Using Pandas?

Optimizing the dataset memory is the first and critical step in any data science project. A dataset may contain thousand to millions of…

👍2

109 viewsedited 08:04

Магия данных | Артур Сапрыкин

Обучение с подкреплением?
Вот, изучайте среды.

Medium

15 awesome reinforcement learning environments you must know

1. Neural MMO

111 views14:44

Магия данных | Артур Сапрыкин

Любимое число ☺️

112 views16:01

Магия данных | Артур Сапрыкин

😂

111 views08:42

Магия данных | Артур Сапрыкин

Forwarded from Sberloga

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

125 views08:42

Магия данных | Артур Сапрыкин

Немного годноты вам сюда.

Здесь речь об алгоритмах сжатия, современного состояния и перспектив.

Вообще, я считаю, что крутой алгоритм искусственного интеллекта безусловно будет классно и без потерь сжимать и разжимать любую информацию.

Поэтому, как минимум, для общего развития, прочитайте ☺️

Хабр

Как развитие алгоритмов сжатия остановилось 20 лет назад, или о новом конкурсе на 200 тысяч евро

В октябре прошлого года я опубликовал статью «О талантах, деньгах и алгоритмах сжатия данных» , где с юмором описал, как «изобретают» новые алгоритмы сжатия люди, не имеющие достаточно навыков для...

143 views23:00

Магия данных | Артур Сапрыкин

Вот ещё статья на тему оптимизации пандас.

Что-то уже давно избито, но особый интерес тут в применении библиотеки pandarallel. Ваши любимые apply можно будет раскидывать по потокам, что значительно ускорит работу применения функций.

Medium

The Top 5 Pandas Optimization Methods You Should Know!

Things get messy if we don’t employ memory optimization techniques when dealing with high-dimensional data. You don't want the pop-up…

👍3

155 views14:32

Магия данных | Артур Сапрыкин

Поддерживаю. Такое работает годно, если с умом применить 🦾

138 views21:31

Магия данных | Артур Сапрыкин

Forwarded from Small Data Science for Russian Adventurers

#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

139 views21:31

Магия данных | Артур Сапрыкин

Я считаю, что это гениальное применение машинного обучения ☺️

137 views12:13

About

Blog

Apps

Platform