NEW BOT Телеграм, страница - 749072913

Магия данных | Артур Сапрыкин

892 subscribers

330 photos

58 videos

9 files

316 links

Канал Артура Сапрыкина.
- Основатель и CEO Maglosya (@maglosya)
- Создаю со своей командой AI/ML-проекты
- Преподаватель, автор курсов
- Исследователь ML и AI.

Сайт: https://arthursaprykin.ru/

По вопросам сотрудничества пишите мне: @arthur_saprykin

Download Telegram

About

Blog

Apps

Platform

Магия данных | Артур Сапрыкин

892 subscribers

Магия данных | Артур Сапрыкин

Forwarded from N + 1

Если в вашу жизнь ворвался стихийный потоп, от которого не убежать и не спрятаться, можно запаниковать. Но красные муравьи в этой ситуации не паникуют: они держатся рядом, карабкаются друг дружке на плечи и плывут единой конструкцией. Ученые выяснили, что слипаться им помогает еще и физика — ради их спасения работает тот же эффект, что слепляет хлопья в молочном завтраке

https://nplus1.ru/news/2022/09/23/fire-ants-raft-stable

N + 1 — главное издание о науке, технике и технологиях

Для строительства надежного живого плота хватило 10 муравьев

Физики выяснили, что живой плот будет стабильным, если состоит из 10 и более муравьев

102 views13:24

Магия данных | Артур Сапрыкин

Тем, кто нейросетки обучает, может пригодиться. Пользуйтесь на здоровье 🙏🏼

94 views09:44

Магия данных | Артур Сапрыкин

Forwarded from DL in NLP (Vlad Lialin)

Ускоряем нейросетки с помощью PyTorch 1.2 и nvFuser

Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm

Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).

А вот тут официальный туториал от PyTorch

95 views09:44

Магия данных | Артур Сапрыкин

Если вас интересуют датасеты на всякий случай жизни, то гляньте сюда 👇🏼

Пожалуйста 🙂

99 views21:04

Магия данных | Артур Сапрыкин

Forwarded from RU Dataset | Датасеты

↕️↘️ Содержание
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология

Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com

👍2

96 views21:04

Магия данных | Артур Сапрыкин

Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.

Если вам не пригодится, то себе оставлю 😝

99 views09:17

Магия данных | Артур Сапрыкин

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Woland-10

Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.

〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁

Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.

Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.

🇷🇺 Вино какой страны предпочитаете в это время дня?
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒？

99 views09:17

Магия данных | Артур Сапрыкин

Ребята сами создают свою СУБД.

Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.

Что же, желаю успеха этому мероприятию 🦾🔥

👍1🔥1

103 views08:42

Магия данных | Артур Сапрыкин

Forwarded from SQLpedia | Базы данных

Используйте "железо" эффективно с СУБД SoQoL!
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.

112 views08:42

Магия данных | Артур Сапрыкин

А вот тут статейка на тему того, как открыть большой датасет, и ещё сохранить его в более меньшем размере.

То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.

Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.

Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.

How did I convert the 33 GB Dataset into a 3 GB file Using Pandas?

Optimizing the dataset memory is the first and critical step in any data science project. A dataset may contain thousand to millions of…

👍2

109 viewsedited 08:04

Магия данных | Артур Сапрыкин

Обучение с подкреплением?
Вот, изучайте среды.

15 awesome reinforcement learning environments you must know

111 views14:44

Магия данных | Артур Сапрыкин

Любимое число ☺️

112 views16:01

Магия данных | Артур Сапрыкин

😂

111 views08:42

Магия данных | Артур Сапрыкин

Forwarded from Sberloga

This media is not supported in your browser

VIEW IN TELEGRAM

125 views08:42

Магия данных | Артур Сапрыкин

Немного годноты вам сюда.

Здесь речь об алгоритмах сжатия, современного состояния и перспектив.

Вообще, я считаю, что крутой алгоритм искусственного интеллекта безусловно будет классно и без потерь сжимать и разжимать любую информацию.

Поэтому, как минимум, для общего развития, прочитайте ☺️

Как развитие алгоритмов сжатия остановилось 20 лет назад, или о новом конкурсе на 200 тысяч евро

В октябре прошлого года я опубликовал статью «О талантах, деньгах и алгоритмах сжатия данных» , где с юмором описал, как «изобретают» новые алгоритмы сжатия люди, не имеющие достаточно навыков для...

143 views23:00

Магия данных | Артур Сапрыкин

Вот ещё статья на тему оптимизации пандас.

Что-то уже давно избито, но особый интерес тут в применении библиотеки pandarallel. Ваши любимые apply можно будет раскидывать по потокам, что значительно ускорит работу применения функций.

The Top 5 Pandas Optimization Methods You Should Know!

Things get messy if we don’t employ memory optimization techniques when dealing with high-dimensional data. You don't want the pop-up…

👍3

155 views14:32

Магия данных | Артур Сапрыкин

Поддерживаю. Такое работает годно, если с умом применить 🦾

138 views21:31

Магия данных | Артур Сапрыкин

Forwarded from Small Data Science for Russian Adventurers

#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

139 views21:31

Магия данных | Артур Сапрыкин

Я считаю, что это гениальное применение машинного обучения ☺️

137 views12:13

Магия данных | Артур Сапрыкин

Forwarded from Типичный программист

This media is not supported in your browser

VIEW IN TELEGRAM

Энтузиаст собрал настоящую водяную турель против соседских куриц, которые портят ему газон

Всё на основе Raspberry Pi 3b+, Python, OpenCV, китайского телефона и Deep Learning. Подробнее о процессе разработки он рассказал в своём аккаунте da.hell.is.this.

Достойный проект для портфолио.

#кек #diy

👍2

139 views12:13

Магия данных | Артур Сапрыкин

Forwarded from QApedia | Тестирование

😁2

138 views13:53