NEW BOT Телеграм, страница

Магия данных | Артур Сапрыкин

И вот ещё вам почитать на сегодня.
Узнаете, какие алгоритмы и структуры многомерных индексов есть.

Не то, чтобы специалисту по DS это пригодится на 100%, но мало ли. По крайней мере, поймёте, что под капотом БД 😉

Хабр

Гильберт, Лебег … и пустота

Под катом исследуется вопрос, как должен быть устроен хороший алгоритм многомерной индексации. На удивление, вариантов не так уж и много. Одномерные индексы, B-деревья Мерилом успеха поискового...

🔥2

81 views16:31

Магия данных | Артур Сапрыкин

Всего лишь метод where и select из numpy, а делают нашу жизнь проще и красивей 🙂

Подробнее...

Medium

2 Highly Useful NumPy Functions for Pandas

That will help you write more efficient Pandas code.

🤔1

87 viewsedited 14:19

Магия данных | Артур Сапрыкин

Краткий, но полезный гайд по SQLAchemy.

Для тех, кто не знает. Это чудесный инструмент для построения ORM-моделей данных.

Больше полезно для бэкендеров, чем для аналитиков, но возникали случаи, когда мне приходилось взаимодействовать с данными в своём сервисе.

Хабр

Крадущийся тигр, затаившийся SQLAlchemy. Основы

Доброго дня. Сегодня хочу рассказать про ORM SQLAlchemy. Поговорим о том, что это, про его возможности и гибкость, а также рассмотрим случаи, которые не всегда...

👍1

85 views11:50

Магия данных | Артур Сапрыкин

Forwarded from Типичный программист

Одному программисту настолько не понравился ненатуральный звук автомобильных двигателей в играх, что он взял и создал точный эмулятор для движков автомобилей

По сути он создал физический движок, программу, которая производит точное компьютерное моделирование того, как взаимодействуют цилиндры, поршни, маховики, воздух и топливо. Физический движок также рассчитывает скорость распространения огня, количество энергии, выделяемое при сгорании воздушно-топливной смеси. И генерирует звук исходя из давления в виртуальной выхлопной трубе. И всё это с 80 000 FPS.

Более того, разработчик так заморочился, что по пути почти создал свой язык программирования для описания двигателей — число цилиндров, расположение элементов, передачи и т. д.

Исходный код открыт и доступен на гитхабе: https://github.com/ange-yaghi/engine-sim

А посмотреть за процессом создания и послушать звуки самых разных двигателей можно в 12-минутном оригинальном видео: https://youtu.be/RKT-sKtR970

#кек #cpp #opensource

0:29

92 views10:32

Магия данных | Артур Сапрыкин

В целом, об осознанности моделей.

85 views09:09

Магия данных | Артур Сапрыкин

Forwarded from Small Data Science for Russian Adventurers

#мысли

В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.

GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:

- Вы любите кофе?

Ответ "зелёный" - неадекватный, а "Да" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.
Ответ "Нет, от него чернеют зубы" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.
А вот ответ "

Только африканский, он более полезен, как выяснили учёные из Калифорнии

" небанальный, т.к. параллельно сообщает интересный факт.

Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...

Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)

П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.

Хабр

Мечтает ли нейросеть LaMDA об отмене законов робототехники?

В конце июля 2022 года из Google был уволен инженер Блэйк Лемойн (Blake Lemoine) из Сан-Франциско, известный в Твиттере как CajunDiscordian . Корпорация официально заявила, что его утверждения о...

96 views09:09

Магия данных | Артур Сапрыкин

Forwarded from Data Science by REBRAIN

Открытый практикум Data Analyst by Rebrain: Построение модели оценки кредитных рисков

Успевайте зарегистрироваться. Количество мест строго ограничено!

👉Регистрация

Время проведения:

6 Сентября (Вторник) в 19:00 по МСК

Программа практикума:

🔹Узнаем, почему важно банкам строить такие модели и на 100% ли доверяют им банки
🔹Рассмотрим процесс подготовки данных
🔹Обучим модель машинного обучения для прогноза

Кто ведет?

Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.

🔥2

101 views20:41

Магия данных | Артур Сапрыкин

Forwarded from Луис Иванович

😁1

101 views15:08

Магия данных | Артур Сапрыкин

Годно, рекомендую 😊

103 views13:02

Магия данных | Артур Сапрыкин

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое тезаурус и как определить семантическое сходство слов.

https://habr.com/ru/company/unistar_digital/blog/687148/

Хабр

Что такое тезаурус и как определить семантическое сходство слов

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений....

113 views13:02

Магия данных | Артур Сапрыкин

Безусловно, за VR будущее.
Не скажу, что настоящее, потому что не так доступна эта технология для каждого, но это вопрос времени 😉

Весьма интересные опыты с восприятием, которые полезно наблюдать. Заметно, как много иллюзорного мы можем воспринимать за действительность 🤷🏼‍♂️

103 views16:58

Магия данных | Артур Сапрыкин

Forwarded from N + 1

Инженеры обманули людей в VR-шлеме с помощью вибромоторов на руках. Известно, что если двигать виртуальные предметы чуть быстрее, чем двигается рука, они кажутся легкими (это работает и в обратную сторону). Оказалось, что вибрирующие ремешки на руках позволяют увеличить вклад визуального восприятия в оценку массы предметов и усилить эту иллюзию

https://nplus1.ru/news/2022/09/10/tendon-vibration

nplus1.ru

Вибрация в руках сделала виртуальные объекты тяжелее

Вибрация в руках позволяет менять восприятие веса предметов в виртуальной реальности, выяснили японские и французские инженеры. Известно, что если замедлять движение виртуальных объектов, они кажутся людям тяжелее, но это работает лишь в небольшой степени…

114 views16:58

Магия данных | Артур Сапрыкин

Вот и ~~хорошо забытое~~новинка подошла ☺️

96 views19:58

Магия данных | Артур Сапрыкин

Forwarded from Data Science | Machinelearning [ru]

RuLeanALBERT — крупнейшая BERT-like нейросеть в опенсорсе для русского языка

Это разработка Yandex Research, исследовательской группы в Яндексе, которая занимается фундаментальным ML. Модель обучали на большой вычислительной платформе, но запустить её можно даже дома на мощном компьютере. RuLeanALBERT справляется с множеством NLP-задач, не требущих генерации, и показывает результаты, близкие к state-of-the-art (или даже более высокие — в зависимости от задачи).

Читать…

👍2

99 views19:58

Магия данных | Артур Сапрыкин

Немного новостей на фоне «замены ИИ человека».

Спойлер: спите спокойно, возможно, эволюция ИИ будет благодаря вам

94 viewsedited 13:46

Магия данных | Артур Сапрыкин

Forwarded from Robotics Channel

Тучи над головой Илона Маска

На Tesla снова подали в суд за враньё относительно возможностей автопилота. В этот раз, к счастью, с компанией судятся не из-за фатального инцидента. Производитель вызвал недовольство жителя Сан Франциско, который в 2018 году переплатил $5000 за Tesla Model X, чтобы получить доступ к технологии усовершенствованного автопилотирования. Он обвиняет Tesla в том, что компания годами давала обманчивые обещания относительно безопасности и надёжности технологии и вводила в заблуждение покупателей ради увеличения продаж. Это коллективный иск, к которому присоединились и другие владельцы автомобилей компании.

В июле этого года Калифорнийский департамент транспортных средств (DMV) подал жалобу на Tesla по этой же причине — за введение в заблуждение относительно возможностей автономного вождения. Чиновники пытаются добиться отзыва лицензии автодилера или релокации в другой штат.

В Германии суд Мюнхена заставил компанию вернуть покупательнице полную стоимость кроссовера Model X (€112 000), потому что автопилот оказался неспособен к навигации по улицам города.

По данным Национальной службы безопасности дорожного движения США (National Highway Traffic Safety Administration), с 2018 года водители Tesla, которые пользовались Tesla Autopilot или функцией Traffic Aware Cruise Control, сообщили об 11 случаях столкновения с припаркованными и движущимися автомобилями. В прошлом году департамент начал расследование этих инцидентов.

Одно из давних судебных разбирательств, о котором широко известно, также ещё не закончено. В 2018 году по виде автопилота компании погиб инженер Apple Уолтер Хуанг, отец двух детей. Компания утверждает, что водитель убрал руки с руля, что категорически запрещено делать даже при использовании автопилота. Также известно, что Уолтер несколько раз ловил баг системы и сообщил об этом родственникам: в одном и том же месте автопилот пытался повернуть влево и съехать с дороги. Именно там и произошла фатальная авария. Не очень ясно, почему Уолтер проигнорировал опасность, о которой знал. Одна из версий — включённая в момент аварии игра Three Kingdoms на айфоне.

В 2020 году Кристофер Хинз из Вашингтона получил катастрофические травмы во время аварии, случившийся под управлением автопилота Tesla. Он также пытается отсудить неизвестную сумму у компании.

Летом этого года Tesla закрыла свой офис по разработке автопилота в Сан Матео, уволив 200 специалистов. Андрей Карпаты, главный ~~по тарелочкам~~ по ИИ в Tesla, подал в отставку. Кстати, Андрей до сих пор в свободном плавании. Ну, может себе позволить и вовсе на пенсию уйти после стольких лет на топовой должности в Кремниевой Долине. Если, конечно, Tesla вдруг не решит повесить на него всех набросившихся на автопилот собак.

На фоне всего этого Илан Макс надеется, что его инженеры смогут создать то, что он называет Real World AI уже в этом году. Именно эта система должна стать “мозгами” будущего робота компании.

Источники

🧑‍⚖️Про нынешнее судебное разбирательство

☠Про судебную тяжбу семьи убитого Уолтера Хуанга

🧠Илон Маск даёт интервью TED

USA TODAY

Elon Musk's Tesla accused of fraud, false advertising of 'autopilot' technology in lawsuit

A Tesla customer filed a class-action suit against Tesla, alleging the company and CEO Elon Musk misrepresented its \

98 views13:46

Магия данных | Артур Сапрыкин

Заходите в гости ☀️

97 views10:56

Магия данных | Артур Сапрыкин

Forwarded from Data Science by REBRAIN

Открытый практикум Data Analyst by Rebrain: Рекомендательные системы и их реализация

Успевайте зарегистрироваться. Количество мест строго ограничено!

👉Регистрация

Время проведения:

20 Сентября (Вторник) в 19:00 по МСК

Программа практикума:

🔹Где мы встречаем рекомендательные системы, их роль в нашей жизни
🔹Какие виды их бывают
🔹Построим несколько разных моделей рекомендательных систем на данных просмотра кино

Кто ведет?

Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Веду свой проект, со своей командой создаём проекты в области машинного обучения и анализа данных.

👍1

104 views10:56

Магия данных | Артур Сапрыкин

Периодически задают вопросы про выбор СУБД.

Их много, и каждая из них со своими плюсами и минусами.

Вот здесь небольшая статья, которая коротко поясняет про каждую из популярных СУБД.

Medium

Top Databases to Use in 2022: What is The Right Database for Your Use Case?

Here’s everything you need to know about databases

109 views15:53

Магия данных | Артур Сапрыкин

Неплохие однострочники тут

Medium

10 Powerful Python One-Liners

Python one-liners can be just as powerful as a long and tedious program written in another language designed to do the same thing.

110 views17:29

Магия данных | Артур Сапрыкин

Forwarded from N + 1

Если в вашу жизнь ворвался стихийный потоп, от которого не убежать и не спрятаться, можно запаниковать. Но красные муравьи в этой ситуации не паникуют: они держатся рядом, карабкаются друг дружке на плечи и плывут единой конструкцией. Ученые выяснили, что слипаться им помогает еще и физика — ради их спасения работает тот же эффект, что слепляет хлопья в молочном завтраке

https://nplus1.ru/news/2022/09/23/fire-ants-raft-stable

N + 1 — главное издание о науке, технике и технологиях

Для строительства надежного живого плота хватило 10 муравьев

Физики выяснили, что живой плот будет стабильным, если состоит из 10 и более муравьев

102 views13:24

About

Blog

Apps

Platform