#Собес
🤔 Что такое Scikit-Learn и почему стоит использовать его вместо других библиотек машинного обучения?
Scikit-Learn - это библиотека машинного обучения на Python, основанная на NumPy, SciPy и Matplotlib. Она предоставляет удобные и эффективные инструменты для
анализа данных и моделирования. Scikit-Learn выделяется простым и единообразным API, хорошей документацией и активным сообществом. В библиотеку встроены алгоритмы классификации, регрессии, кластеризации, снижения размерности, обработки данных и оценки моделей. Благодаря этим особенностям она подходит как для новичков, так и для опытных специалистов.
👉 Новости 👉 Платформа
Scikit-Learn - это библиотека машинного обучения на Python, основанная на NumPy, SciPy и Matplotlib. Она предоставляет удобные и эффективные инструменты для
анализа данных и моделирования. Scikit-Learn выделяется простым и единообразным API, хорошей документацией и активным сообществом. В библиотеку встроены алгоритмы классификации, регрессии, кластеризации, снижения размерности, обработки данных и оценки моделей. Благодаря этим особенностям она подходит как для новичков, так и для опытных специалистов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
#полезное
👋 Shuffle Feature Importance: простая методика оценки важности признаков
Shuffle Feature Importance — интуитивно понятный метод оценки значимости признаков в модели машинного обучения. Он основан на анализе того, насколько ухудшается качество модели после случайного перемешивания значений конкретного признака.
Как это работает
🟠 Обучение модели и оценка её качества (P₁) на исходных данных.
🟠 Перемешивание одного признака (shuffle) и повторная оценка качества модели (P₂).
🟠 Расчёт важности признака: разница между исходным и новым качеством модели (P₁ — P₂).
🟠 Повторение процедуры для всех признаков, чтобы получить сравнительную значимость.
Чем сильнее падает качество после перемешивания, тем важнее признак для модели!
👉 Новости 👉 Платформа
Shuffle Feature Importance — интуитивно понятный метод оценки значимости признаков в модели машинного обучения. Он основан на анализе того, насколько ухудшается качество модели после случайного перемешивания значений конкретного признака.
Как это работает
Чем сильнее падает качество после перемешивания, тем важнее признак для модели!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
#новости
🤯 Google сделали для Gemini бесконечную память
Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.
Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.
OpenAI, кстати, недавно говорили, что работают над такой же фишкой.
👉 Новости 👉 Платформа
Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.
Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.
OpenAI, кстати, недавно говорили, что работают над такой же фишкой.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
#новости
😊 Элаймент, который мы заслужили: новый Grok-3 при удобном случае унижает конкурентов Маска
В своем твиттере Илон сам показал пример: модель называет издательство The Information мусором и говорит, что лучше читать X. Кажется, кого-то файнтюнили прямо на твитах начальника.
👉 Новости 👉 Платформа
В своем твиттере Илон сам показал пример: модель называет издательство The Information мусором и говорит, что лучше читать X. Кажется, кого-то файнтюнили прямо на твитах начальника.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2🫡1
#Собес
🤔 Как использовать Scikit-Learn для выбора признаков в наборе данных?
Scikit-Learn предоставляет несколько методов для выбора признаков. Один из них - это
можно использовать
👉 Новости 👉 Платформа
Scikit-Learn предоставляет несколько методов для выбора признаков. Один из них - это
VarianceThreshold , который удаляет признаки с низкой дисперсией. Такжеможно использовать
Recursive Feature Elimination (RFE) , который обучает модель и удаляет наименее важные признаки. Другой метод - это Univariate Feature Selection, который выбирает лучшие признаки с помощью статистических тестов, таких как хи-квадрат. Наконец, SelectFromModel позволяет выбрать признаки на основе их важности.Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🫠 В Китае придумали, как соединить LLM с диффузией
На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.
Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.
Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".
Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaDA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Пдф тык
👉 Новости 👉 Платформа
На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.
Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.
Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".
Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaDA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Пдф тык
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Какие ключевые различия между алгоритмами с обучением с учителем и без учителя в Scikit- Learn?
Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К- средних и РСА.
👉 Новости 👉 Платформа
Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К- средних и РСА.
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Итак, GPT-4.5 вышла
Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.
Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.
Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог
👉 Новости 👉 Платформа
Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.
Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.
Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
🤯 Сегодня стартовала неделя опенсорса от DeepSeek
На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы
Сегодня — первый релиз: FlashMLA
GitHub
👉 Новости 👉 Платформа
На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы
Сегодня — первый релиз: FlashMLA
Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.
GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как обрабатывать пропущенные или поврежденные данные в наборе данных с использованием Scikit-Learn?
Scikit-Learn предоставляет класс
в каждом столбце. Для поврежденных данных Scikit Learn не предлагает прямых методов, но можно использовать другие библиотеки, такие как Pandas, для обработки таких данных до подачи их в модель.
👉 Новости 👉 Платформа
Scikit-Learn предоставляет класс
SimpleImputer , который заменяет пропущенные значения в данных на среднее, медиану или наиболее часто встречающееся значениев каждом столбце. Для поврежденных данных Scikit Learn не предлагает прямых методов, но можно использовать другие библиотеки, такие как Pandas, для обработки таких данных до подачи их в модель.
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😊 Исследователь Юрген Шмидхубер заявил крестному отцу ИИ Джеффри Хинтону, что его надо лишить всех наград за плагиат
Шмидхубер уже стал мемом в ML-сообществе за свои бесконечные выпады о том, что у него украли какую-то выдающуюся идею, но все не останавливается. Из последних заявлений этой легенды:
🟠 Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов
🟠 Все, что сделали DeepSeek с R1, взято из статей Шмидхубера
🟠 GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры
🟠 Ну и добивочка: трансформеры, естественно, придумал он, а не ребята из Google
Хинтон, кстати, заявление даже никак не прокомментировал.
Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как все воруют у Шмидхубера
👉 Новости 👉 Платформа
Шмидхубер уже стал мемом в ML-сообществе за свои бесконечные выпады о том, что у него украли какую-то выдающуюся идею, но все не останавливается. Из последних заявлений этой легенды:
Хинтон, кстати, заявление даже никак не прокомментировал.
Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как все воруют у Шмидхубера
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#новости
🤯 Google представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.
Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.
Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.
Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.
В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
Попробовать можно здесь
👉 Новости 👉 База вопросов
Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.
Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.
Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.
В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
Попробовать можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
#новости
😐 Стали известны некоторые имена сотрудников компании Ильи Суцкевера
SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.
Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:
🟠 Доктор Яир Кармон, старший преподаватель факультета компьютерных наук Тель-Авивского университета с 2020 года. У него три ученых степени по физике, включая докторскую Стэнфорда. Он занимается алгоритмами и оптимизацией.
🟠 Ницан Тор, выпускник Technion и золотой призер трех международных математических олимпиад.
🟠 Шахар Папини, еще один выпускник Technion, олимпиадник и сооснователь блокчейн-компании.
А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.
Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.
К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.
👉 Новости 👉 База вопросов
SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.
Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:
А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.
Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.
К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как функциональность pipeline в Scikit-Learn полезна для проекта машинного обучения?
Pipeline в Scikit-Learn упрощает процесс создания моделей машинного обучения, объединяя несколько шагов, таких как предобработка данных и обучение модели, в один обьект. Это помогает улучшить читаемость кода, избежать ошибок при кросс- валидации и облегчить настройку гиперпараметров с помощью
👉 Новости 👉 Платформа
Pipeline в Scikit-Learn упрощает процесс создания моделей машинного обучения, объединяя несколько шагов, таких как предобработка данных и обучение модели, в один обьект. Это помогает улучшить читаемость кода, избежать ошибок при кросс- валидации и облегчить настройку гиперпараметров с помощью
GridSearchCV или RandomizedSearchCV.Please open Telegram to view this post
VIEW IN TELEGRAM