Forwarded from Типичный программист
Когда используешь библиотеку, но решил не читать документацию к ней:
Вот тут есть книжка, которая хорошо иллюстрирует, как метрики расстояний влияют на геометрическую интерпретацию фигур.
Очень любопытно и полезно, если ещё не осознали, какие расстояния и зачем использовать.
ЗЫ: Её читать целиком необязательно, но пробежаться по интересным частям полезно.
Очень любопытно и полезно, если ещё не осознали, какие расстояния и зачем использовать.
ЗЫ: Её читать целиком необязательно, но пробежаться по интересным частям полезно.
Forwarded from DATApedia | Data science
Открытый практикум Data Analyst by Rebrain: Работа с визуализацией данных
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
16 Августа (Вторник) в 19:00 по МСК
Программа практикума:
🔹Рассмотрим основные способы представления данных и разберемся, когда удачно использовать тот или иной график
🔹Пример того, как можно строить визуализации с помощью matplotlib, seaborn, plotly
🔹Интерактивные Jupyter-ноутбуки с помощью ipywidgets
🔹Библиотека Dash
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
Открытые еженедельные Data Science практикумы - Присоединяйтесь!
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
16 Августа (Вторник) в 19:00 по МСК
Программа практикума:
🔹Рассмотрим основные способы представления данных и разберемся, когда удачно использовать тот или иной график
🔹Пример того, как можно строить визуализации с помощью matplotlib, seaborn, plotly
🔹Интерактивные Jupyter-ноутбуки с помощью ipywidgets
🔹Библиотека Dash
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
Открытые еженедельные Data Science практикумы - Присоединяйтесь!
Открытый практикум DevOps by REBRAIN
Вебинары by REBRAIN
DevOps, Kubernetes, Docker, обучение DevOps, корпоративное обучение DevOps, обучение Kubernetes, обучение Docker, корпоративное обучение Docker, корпоративное обучение Kubernetes
👍1
Forwarded from AI для Всех
Андрей Карпати (ex Tesla AI) выложил новую лекцию
«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.
Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»
Смотреть
«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.
Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»
Смотреть
YouTube
The spelled-out intro to neural networks and backpropagation: building micrograd
This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.
Links:
- micrograd on github: https://github.com/k…
Links:
- micrograd on github: https://github.com/k…
Если непонятно, что делать с мультииндексами в Pandas, то вот вам хорошая статья на эту тему.
Medium
How to Use MultiIndex in Pandas to Level Up Your Analysis
An introduction to hierarchical indexing on DataFrames for sophisticated data analysis
👍2
И вот ещё вам почитать на сегодня.
Узнаете, какие алгоритмы и структуры многомерных индексов есть.
Не то, чтобы специалисту по DS это пригодится на 100%, но мало ли. По крайней мере, поймёте, что под капотом БД 😉
Узнаете, какие алгоритмы и структуры многомерных индексов есть.
Не то, чтобы специалисту по DS это пригодится на 100%, но мало ли. По крайней мере, поймёте, что под капотом БД 😉
Хабр
Гильберт, Лебег … и пустота
Под катом исследуется вопрос, как должен быть устроен хороший алгоритм многомерной индексации. На удивление, вариантов не так уж и много. Одномерные индексы, B-деревья Мерилом успеха поискового...
🔥2
Краткий, но полезный гайд по SQLAchemy.
Для тех, кто не знает. Это чудесный инструмент для построения ORM-моделей данных.
Больше полезно для бэкендеров, чем для аналитиков, но возникали случаи, когда мне приходилось взаимодействовать с данными в своём сервисе.
Для тех, кто не знает. Это чудесный инструмент для построения ORM-моделей данных.
Больше полезно для бэкендеров, чем для аналитиков, но возникали случаи, когда мне приходилось взаимодействовать с данными в своём сервисе.
Хабр
Крадущийся тигр, затаившийся SQLAlchemy. Основы
Доброго дня. Сегодня хочу рассказать про ORM SQLAlchemy. Поговорим о том, что это, про его возможности и гибкость, а также рассмотрим случаи, которые не всегда...
👍1
Forwarded from Типичный программист
Одному программисту настолько не понравился ненатуральный звук автомобильных двигателей в играх, что он взял и создал точный эмулятор для движков автомобилей
По сути он создал физический движок, программу, которая производит точное компьютерное моделирование того, как взаимодействуют цилиндры, поршни, маховики, воздух и топливо. Физический движок также рассчитывает скорость распространения огня, количество энергии, выделяемое при сгорании воздушно-топливной смеси. И генерирует звук исходя из давления в виртуальной выхлопной трубе. И всё это с 80 000 FPS.
Более того, разработчик так заморочился, что по пути почти создал свой язык программирования для описания двигателей — число цилиндров, расположение элементов, передачи и т. д.
Исходный код открыт и доступен на гитхабе: https://github.com/ange-yaghi/engine-sim
А посмотреть за процессом создания и послушать звуки самых разных двигателей можно в 12-минутном оригинальном видео: https://youtu.be/RKT-sKtR970
#кек #cpp #opensource
По сути он создал физический движок, программу, которая производит точное компьютерное моделирование того, как взаимодействуют цилиндры, поршни, маховики, воздух и топливо. Физический движок также рассчитывает скорость распространения огня, количество энергии, выделяемое при сгорании воздушно-топливной смеси. И генерирует звук исходя из давления в виртуальной выхлопной трубе. И всё это с 80 000 FPS.
Более того, разработчик так заморочился, что по пути почти создал свой язык программирования для описания двигателей — число цилиндров, расположение элементов, передачи и т. д.
Исходный код открыт и доступен на гитхабе: https://github.com/ange-yaghi/engine-sim
А посмотреть за процессом создания и послушать звуки самых разных двигателей можно в 12-минутном оригинальном видео: https://youtu.be/RKT-sKtR970
#кек #cpp #opensource
Forwarded from Small Data Science for Russian Adventurers
#мысли
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
Ответ "
А вот ответ "
Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
- Вы любите кофе?Ответ "
зелёный" - неадекватный, а "Да" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.Ответ "
Нет, от него чернеют зубы" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.А вот ответ "
Только африканский, он более полезен, как выяснили учёные из Калифорнии" небанальный, т.к. параллельно сообщает интересный факт.Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
Хабр
Мечтает ли нейросеть LaMDA об отмене законов робототехники?
В конце июля 2022 года из Google был уволен инженер Блэйк Лемойн (Blake Lemoine) из Сан-Франциско, известный в Твиттере как CajunDiscordian . Корпорация официально заявила, что его утверждения о...
Forwarded from Data Science by REBRAIN
Открытый практикум Data Analyst by Rebrain: Построение модели оценки кредитных рисков
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
6 Сентября (Вторник) в 19:00 по МСК
Программа практикума:
🔹Узнаем, почему важно банкам строить такие модели и на 100% ли доверяют им банки
🔹Рассмотрим процесс подготовки данных
🔹Обучим модель машинного обучения для прогноза
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
6 Сентября (Вторник) в 19:00 по МСК
Программа практикума:
🔹Узнаем, почему важно банкам строить такие модели и на 100% ли доверяют им банки
🔹Рассмотрим процесс подготовки данных
🔹Обучим модель машинного обучения для прогноза
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
🔥2
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Что такое тезаурус и как определить семантическое сходство слов.
https://habr.com/ru/company/unistar_digital/blog/687148/
https://habr.com/ru/company/unistar_digital/blog/687148/
Хабр
Что такое тезаурус и как определить семантическое сходство слов
При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений....
