Forwarded from Silero News (Alexander)
This media is not supported in your browser
VIEW IN TELEGRAM
Когда мои ребята или студенты ещё "не обстрелялись" реальными задачами, то они имеют склонность делать многие простые вещи с данными через чистый Python.
Это нехорошо, потому что питон работает дольше, чем Numpy или Pandas. Поэтому всегда из этих библиотек нужно выжимать максимум.
Статья, которая поможет ответить на ряд (не на все) вопросов по обработке некоторых типичных случаев.
Это нехорошо, потому что питон работает дольше, чем Numpy или Pandas. Поэтому всегда из этих библиотек нужно выжимать максимум.
Статья, которая поможет ответить на ряд (не на все) вопросов по обработке некоторых типичных случаев.
Анализ малых данных
Python и Pandas: делаем быстрее
Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я …
Forwarded from Типичный программист
Когда используешь библиотеку, но решил не читать документацию к ней:
Вот тут есть книжка, которая хорошо иллюстрирует, как метрики расстояний влияют на геометрическую интерпретацию фигур.
Очень любопытно и полезно, если ещё не осознали, какие расстояния и зачем использовать.
ЗЫ: Её читать целиком необязательно, но пробежаться по интересным частям полезно.
Очень любопытно и полезно, если ещё не осознали, какие расстояния и зачем использовать.
ЗЫ: Её читать целиком необязательно, но пробежаться по интересным частям полезно.
Forwarded from DATApedia | Data science
Открытый практикум Data Analyst by Rebrain: Работа с визуализацией данных
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
16 Августа (Вторник) в 19:00 по МСК
Программа практикума:
🔹Рассмотрим основные способы представления данных и разберемся, когда удачно использовать тот или иной график
🔹Пример того, как можно строить визуализации с помощью matplotlib, seaborn, plotly
🔹Интерактивные Jupyter-ноутбуки с помощью ipywidgets
🔹Библиотека Dash
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
Открытые еженедельные Data Science практикумы - Присоединяйтесь!
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
16 Августа (Вторник) в 19:00 по МСК
Программа практикума:
🔹Рассмотрим основные способы представления данных и разберемся, когда удачно использовать тот или иной график
🔹Пример того, как можно строить визуализации с помощью matplotlib, seaborn, plotly
🔹Интерактивные Jupyter-ноутбуки с помощью ipywidgets
🔹Библиотека Dash
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
Открытые еженедельные Data Science практикумы - Присоединяйтесь!
Открытый практикум DevOps by REBRAIN
Вебинары by REBRAIN
DevOps, Kubernetes, Docker, обучение DevOps, корпоративное обучение DevOps, обучение Kubernetes, обучение Docker, корпоративное обучение Docker, корпоративное обучение Kubernetes
👍1
Forwarded from AI для Всех
Андрей Карпати (ex Tesla AI) выложил новую лекцию
«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.
Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»
Смотреть
«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.
Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»
Смотреть
YouTube
The spelled-out intro to neural networks and backpropagation: building micrograd
This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.
Links:
- micrograd on github: https://github.com/k…
Links:
- micrograd on github: https://github.com/k…
Если непонятно, что делать с мультииндексами в Pandas, то вот вам хорошая статья на эту тему.
Medium
How to Use MultiIndex in Pandas to Level Up Your Analysis
An introduction to hierarchical indexing on DataFrames for sophisticated data analysis
👍2
И вот ещё вам почитать на сегодня.
Узнаете, какие алгоритмы и структуры многомерных индексов есть.
Не то, чтобы специалисту по DS это пригодится на 100%, но мало ли. По крайней мере, поймёте, что под капотом БД 😉
Узнаете, какие алгоритмы и структуры многомерных индексов есть.
Не то, чтобы специалисту по DS это пригодится на 100%, но мало ли. По крайней мере, поймёте, что под капотом БД 😉
Хабр
Гильберт, Лебег … и пустота
Под катом исследуется вопрос, как должен быть устроен хороший алгоритм многомерной индексации. На удивление, вариантов не так уж и много. Одномерные индексы, B-деревья Мерилом успеха поискового...
🔥2
Краткий, но полезный гайд по SQLAchemy.
Для тех, кто не знает. Это чудесный инструмент для построения ORM-моделей данных.
Больше полезно для бэкендеров, чем для аналитиков, но возникали случаи, когда мне приходилось взаимодействовать с данными в своём сервисе.
Для тех, кто не знает. Это чудесный инструмент для построения ORM-моделей данных.
Больше полезно для бэкендеров, чем для аналитиков, но возникали случаи, когда мне приходилось взаимодействовать с данными в своём сервисе.
Хабр
Крадущийся тигр, затаившийся SQLAlchemy. Основы
Доброго дня. Сегодня хочу рассказать про ORM SQLAlchemy. Поговорим о том, что это, про его возможности и гибкость, а также рассмотрим случаи, которые не всегда...
👍1
Forwarded from Типичный программист
Одному программисту настолько не понравился ненатуральный звук автомобильных двигателей в играх, что он взял и создал точный эмулятор для движков автомобилей
По сути он создал физический движок, программу, которая производит точное компьютерное моделирование того, как взаимодействуют цилиндры, поршни, маховики, воздух и топливо. Физический движок также рассчитывает скорость распространения огня, количество энергии, выделяемое при сгорании воздушно-топливной смеси. И генерирует звук исходя из давления в виртуальной выхлопной трубе. И всё это с 80 000 FPS.
Более того, разработчик так заморочился, что по пути почти создал свой язык программирования для описания двигателей — число цилиндров, расположение элементов, передачи и т. д.
Исходный код открыт и доступен на гитхабе: https://github.com/ange-yaghi/engine-sim
А посмотреть за процессом создания и послушать звуки самых разных двигателей можно в 12-минутном оригинальном видео: https://youtu.be/RKT-sKtR970
#кек #cpp #opensource
По сути он создал физический движок, программу, которая производит точное компьютерное моделирование того, как взаимодействуют цилиндры, поршни, маховики, воздух и топливо. Физический движок также рассчитывает скорость распространения огня, количество энергии, выделяемое при сгорании воздушно-топливной смеси. И генерирует звук исходя из давления в виртуальной выхлопной трубе. И всё это с 80 000 FPS.
Более того, разработчик так заморочился, что по пути почти создал свой язык программирования для описания двигателей — число цилиндров, расположение элементов, передачи и т. д.
Исходный код открыт и доступен на гитхабе: https://github.com/ange-yaghi/engine-sim
А посмотреть за процессом создания и послушать звуки самых разных двигателей можно в 12-минутном оригинальном видео: https://youtu.be/RKT-sKtR970
#кек #cpp #opensource
Forwarded from Small Data Science for Russian Adventurers
#мысли
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
Ответ "
А вот ответ "
Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
- Вы любите кофе?Ответ "
зелёный" - неадекватный, а "Да" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.Ответ "
Нет, от него чернеют зубы" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.А вот ответ "
Только африканский, он более полезен, как выяснили учёные из Калифорнии" небанальный, т.к. параллельно сообщает интересный факт.Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
Хабр
Мечтает ли нейросеть LaMDA об отмене законов робототехники?
В конце июля 2022 года из Google был уволен инженер Блэйк Лемойн (Blake Lemoine) из Сан-Франциско, известный в Твиттере как CajunDiscordian . Корпорация официально заявила, что его утверждения о...
