Магия данных | Артур Сапрыкин – Telegram
Магия данных | Артур Сапрыкин
906 subscribers
329 photos
57 videos
9 files
316 links
Канал Артура Сапрыкина.
- Основатель и CEO Maglosya (@maglosya)
- Создаю со своей командой AI/ML-проекты
- Преподаватель, автор курсов
- Исследователь ML и AI.

Сайт: https://arthursaprykin.ru/

По вопросам сотрудничества пишите мне: @arthur_saprykin
Download Telegram
Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.

Если вам не пригодится, то себе оставлю 😝
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Woland-10

Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.

〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁

Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.

Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.

🇷🇺 Вино какой страны предпочитаете в это время дня?
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒?


👉 GitHub
Ребята сами создают свою СУБД.

Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.

Что же, желаю успеха этому мероприятию 🦾🔥
👍1🔥1
Используйте "железо" эффективно с СУБД SoQoL!
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.
А вот тут статейка на тему того, как открыть большой датасет, и ещё сохранить его в более меньшем размере.

То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.

Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.

Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.
👍2
Любимое число ☺️
Немного годноты вам сюда.

Здесь речь об алгоритмах сжатия, современного состояния и перспектив.

Вообще, я считаю, что крутой алгоритм искусственного интеллекта безусловно будет классно и без потерь сжимать и разжимать любую информацию.

Поэтому, как минимум, для общего развития, прочитайте ☺️
Вот ещё статья на тему оптимизации пандас.

Что-то уже давно избито, но особый интерес тут в применении библиотеки pandarallel. Ваши любимые apply можно будет раскидывать по потокам, что значительно ускорит работу применения функций.
👍3
Поддерживаю. Такое работает годно, если с умом применить 🦾
#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).
Я считаю, что это гениальное применение машинного обучения ☺️
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиаст собрал настоящую водяную турель против соседских куриц, которые портят ему газон

Всё на основе Raspberry Pi 3b+, Python, OpenCV, китайского телефона и Deep Learning. Подробнее о процессе разработки он рассказал в своём аккаунте da.hell.is.this.

Достойный проект для портфолио.

#кек #diy
👍2
Чудесная статья про современные подходы к разработке программного обеспечения.

Кому нужна абстрактная картина (и даже небольшая история) того, как строится архитектура ПО - заглядывайте))
Сегодня на вебе по тематическому моделированию мой пёс не оценил моего желания сидеть на полу.

Вы бы видели, как он пытался меня вытолкнуть 😂
😁13
Во время занятий со студентами вспомнил о замечательном русскоязычном курсе про обработку сигналов.

Зачем? Спросите вы...

А затем, чтобы на другом уровне понимать временные ряды, и самое необходимое для вхождения в область обработки аудио.
👍2
Пришло время для очень-очень интересных для вас вещей.

Не сомневаюсь, что все вы слышали о том, как по текстовому описанию генерировались красивые картинки. Это даже выдвигают на отдельное направление в искусстве 🤔

Так вот, дело в их начинке. А именно, диффузионных моделях.

Мне попалась под руку очень классная статья, которая простыми словами описывает, что же содержится под капотом этих моделей, и, собственно, почему им удаётся такую красоту делать.

Приятного чтения ☀️😉
👍2🔥1