Магия данных | Артур Сапрыкин – Telegram
Магия данных | Артур Сапрыкин
906 subscribers
329 photos
57 videos
9 files
316 links
Канал Артура Сапрыкина.
- Основатель и CEO Maglosya (@maglosya)
- Создаю со своей командой AI/ML-проекты
- Преподаватель, автор курсов
- Исследователь ML и AI.

Сайт: https://arthursaprykin.ru/

По вопросам сотрудничества пишите мне: @arthur_saprykin
Download Telegram
Вот и хорошо забытоеновинка подошла ☺️
​​RuLeanALBERT — крупнейшая BERT-like нейросеть в опенсорсе для русского языка

Это разработка Yandex Research, исследовательской группы в Яндексе, которая занимается фундаментальным ML. Модель обучали на большой вычислительной платформе, но запустить её можно даже дома на мощном компьютере. RuLeanALBERT справляется с множеством NLP-задач, не требущих генерации, и показывает результаты, близкие к state-of-the-art (или даже более высокие — в зависимости от задачи).

Читать…
👍2
Немного новостей на фоне «замены ИИ человека».

Спойлер: спите спокойно, возможно, эволюция ИИ будет благодаря вам
Forwarded from Robotics Channel
Тучи над головой Илона Маска

На Tesla снова подали в суд за враньё относительно возможностей автопилота. В этот раз, к счастью, с компанией судятся не из-за фатального инцидента. Производитель вызвал недовольство жителя Сан Франциско, который в 2018 году переплатил $5000 за Tesla Model X, чтобы получить доступ к технологии усовершенствованного автопилотирования. Он обвиняет Tesla в том, что компания годами давала обманчивые обещания относительно безопасности и надёжности технологии и вводила в заблуждение покупателей ради увеличения продаж. Это коллективный иск, к которому присоединились и другие владельцы автомобилей компании.

В июле этого года Калифорнийский департамент транспортных средств (DMV) подал жалобу на Tesla по этой же причине — за введение в заблуждение относительно возможностей автономного вождения. Чиновники пытаются добиться отзыва лицензии автодилера или релокации в другой штат.

В Германии суд Мюнхена заставил компанию вернуть покупательнице полную стоимость кроссовера Model X (€112 000), потому что автопилот оказался неспособен к навигации по улицам города.

По данным Национальной службы безопасности дорожного движения США (National Highway Traffic Safety Administration), с 2018 года водители Tesla, которые пользовались Tesla Autopilot или функцией Traffic Aware Cruise Control, сообщили об 11 случаях столкновения с припаркованными и движущимися автомобилями. В прошлом году департамент начал расследование этих инцидентов.

Одно из давних судебных разбирательств, о котором широко известно, также ещё не закончено. В 2018 году по виде автопилота компании погиб инженер Apple Уолтер Хуанг, отец двух детей. Компания утверждает, что водитель убрал руки с руля, что категорически запрещено делать даже при использовании автопилота. Также известно, что Уолтер несколько раз ловил баг системы и сообщил об этом родственникам: в одном и том же месте автопилот пытался повернуть влево и съехать с дороги. Именно там и произошла фатальная авария. Не очень ясно, почему Уолтер проигнорировал опасность, о которой знал. Одна из версий — включённая в момент аварии игра Three Kingdoms на айфоне.

В 2020 году Кристофер Хинз из Вашингтона получил катастрофические травмы во время аварии, случившийся под управлением автопилота Tesla. Он также пытается отсудить неизвестную сумму у компании.

Летом этого года Tesla закрыла свой офис по разработке автопилота в Сан Матео, уволив 200 специалистов. Андрей Карпаты, главный по тарелочкам по ИИ в Tesla, подал в отставку. Кстати, Андрей до сих пор в свободном плавании. Ну, может себе позволить и вовсе на пенсию уйти после стольких лет на топовой должности в Кремниевой Долине. Если, конечно, Tesla вдруг не решит повесить на него всех набросившихся на автопилот собак.

На фоне всего этого Илан Макс надеется, что его инженеры смогут создать то, что он называет Real World AI уже в этом году. Именно эта система должна стать “мозгами” будущего робота компании.

Источники

🧑‍⚖Про нынешнее судебное разбирательство

Про судебную тяжбу семьи убитого Уолтера Хуанга

🧠Илон Маск даёт интервью TED
Заходите в гости ☀️
Forwarded from Data Science by REBRAIN
Открытый практикум Data Analyst by Rebrain: Рекомендательные системы и их реализация

Успевайте зарегистрироваться. Количество мест строго ограничено!

👉Регистрация

Время проведения:

20 Сентября (Вторник) в 19:00 по МСК

Программа практикума:

🔹Где мы встречаем рекомендательные системы, их роль в нашей жизни
🔹Какие виды их бывают
🔹Построим несколько разных моделей рекомендательных систем на данных просмотра кино

Кто ведет?

Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Веду свой проект, со своей командой создаём проекты в области машинного обучения и анализа данных.
👍1
Периодически задают вопросы про выбор СУБД.

Их много, и каждая из них со своими плюсами и минусами.

Вот здесь небольшая статья, которая коротко поясняет про каждую из популярных СУБД.
Forwarded from N + 1
Если в вашу жизнь ворвался стихийный потоп, от которого не убежать и не спрятаться, можно запаниковать. Но красные муравьи в этой ситуации не паникуют: они держатся рядом, карабкаются друг дружке на плечи и плывут единой конструкцией. Ученые выяснили, что слипаться им помогает еще и физика — ради их спасения работает тот же эффект, что слепляет хлопья в молочном завтраке

https://nplus1.ru/news/2022/09/23/fire-ants-raft-stable
Тем, кто нейросетки обучает, может пригодиться. Пользуйтесь на здоровье 🙏🏼
Forwarded from DL in NLP (Vlad Lialin)
Ускоряем нейросетки с помощью PyTorch 1.2 и nvFuser

Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm

Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).

А вот тут официальный туториал от PyTorch
Если вас интересуют датасеты на всякий случай жизни, то гляньте сюда 👇🏼

Пожалуйста 🙂
Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.

Если вам не пригодится, то себе оставлю 😝
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Woland-10

Сделал параллельный корпус на 10 языков (ru, be, uk, en, de, it, fr, es, hu, zh) из различных редакций романа Мастер и Маргарита. Всего получилось ~7.5k параллельных групп строк.

〰️ Выровнял при помощи своей выравнивалки Lingtrain (а это, напомню, проект открытый). Получилось довольно быстро, особенно с новой картой, — со своей GPU жизнь действительно заиграла новыми красками 😁

Сначала нашел и разметил 10 текстов на разных языках, потом выровнял каждую пару с оригиналом. Потом все выравнивания совместно. Могу описать подробней, если интересно.

Могут встречаться шероховатости, так как все равно надо дополнительно проверять качество, но в целом выглядит пристойно (если что — пишите), буду ещё улучшать.

🇷🇺 Вино какой страны предпочитаете в это время дня?
🇧🇾 Вiно з якое краiны вы любiце ў гэтую пару дня?
🇺🇦 Вино якої країни вам більше до вподоби цієї пори дня?
🇬🇧 What country's wine do you prefer at this time of day?'
🇩🇪 Den Wein welches Landes bevorzugen Sie zu dieser Tageszeit?"
🇫🇷 Du vin de quel pays préférez-vous, à cette heure de la journée ?
🇮🇹 Il vino di quale paese preferisce a quest'ora del giorno?
🇪🇸 ¿De qué país lo prefiere a esta hora del día?
🇭🇺 Milyen bort szeret a legjobban ilyenkor déltájban?
🇨🇳 平常在这个时间您喜欢喝哪国产的葡萄酒?


👉 GitHub
Ребята сами создают свою СУБД.

Как я понимаю, это не очередной перепил Postgres, а что-то действительно свежее.

Что же, желаю успеха этому мероприятию 🦾🔥
👍1🔥1
Используйте "железо" эффективно с СУБД SoQoL!
НЕТ ОГРАНИЧЕНИЙ НА РАЗМЕР БД.
СУБД SoQoL – в три и более раз быстрее конкурентов по результатам теста TCP-C.
Переходите на канал https://news.1rj.ru/str/soqol_dbms и будьте в курсе новостей о CУБД SoQoL и ее разработке 🎉.
А вот тут статейка на тему того, как открыть большой датасет, и ещё сохранить его в более меньшем размере.

То есть, тут про оптимизацию и те форматы данных, про которые (почему-то) я вам не рассказывал.

Сразу оговорюсь, что оптимизация изменением типа данных на более компактный опасна тем, что в процессе работы можете выйти за пределы чисел. Поэтому способ действенный, но думайте головой.

Также этот подход не сработает на монолитных данных, типа текста. Преобразование типов тут не уместно, хотя перезапись в другой формат спасает. Действительно, файл будет меньше весить на жёстком диске, но в оперативку по прежнему не поместится целиком.
👍2
Любимое число ☺️