Недавно подумал, что было бы прикольно сделать доклад «50 оттенков серого» про АБ тесты, которые не прокрасились.
Но в итоге сделал доклад о рекомендациях «50 оттенков рекомендаций»,
который завтра удаленно расскажу на конференции techtrain
Будет про то, как с нуля строил рекомендации. Теории не будет, подразумевается, что слушатели знакомы с ML и рек сис. Зато будет о том, как принимали решения, что делали, на какие грабли наступали и что сработало. А в конце, топ советов себе в прошлое.
Запись будет, когда появится – добавлю тут ссылку.
Но в итоге сделал доклад о рекомендациях «50 оттенков рекомендаций»,
который завтра удаленно расскажу на конференции techtrain
Будет про то, как с нуля строил рекомендации. Теории не будет, подразумевается, что слушатели знакомы с ML и рек сис. Зато будет о том, как принимали решения, что делали, на какие грабли наступали и что сработало. А в конце, топ советов себе в прошлое.
Запись будет, когда появится – добавлю тут ссылку.
TechTrain 2023 Autumn. Фестиваль по ML&AI для разработки и жизни
50 оттенков рекомендаций, или Как мы пытались растить выручку через персонализацию | Доклад на TechTrain 2023 Autumn
За год с нуля команда спикера успела построить разные варианты рекомендательной системы для ленты. Он расскажет, как они это делали и какие были результаты (иногда отрицательные).
👍19🔥17😱2
Завел отдельный аккаунт в телеге, чтобы не мешали каналы, сториз и большие чаты.
В телеге много крутых личных каналов с концентрированным опытом и классными мыслями. Проблема в том, что в моменте, информация из них мне не нужна. И даже несмотря на наличие вкладок и архива, непрочитанные посты из каналов лежат мертвым грузом. А теперь еще есть и сториз, которые висят в топе.
Месяца три назад завел еще один аккаунт в тг чисто для чтения каналов. Так, они не мешают в личном, а переключение между аккаунтами в тг удобное – вечером/утром захожу сразу полистать посты пачкой.
Рецепт, как перекинуть читаемые каналы на новый аккаунт.
1. Берем новую симку, либо выпускаем виртуальный номер у своего оператора. Есть еще сервисы вроде sms-activate, но там потом аккаунт перейдет новому юзеру, поэтому не советую.
2. Регаем новый аккаунт в тг на этот номер.
3. Создаем папку на личном аккаунте (настройки -> папки с чатами-> создать папку) и закидываем каналы, которые писали в последние пару недель.
4. Делимся этой папкой и кидаем в сообщениях своему второму аккаунту. Присоединяемся во все разом.
5. Удаляем папку и разом выходим из всех каналов на личном аккаунте. Главное убедиться, что присоединились на втором.
В телеге много крутых личных каналов с концентрированным опытом и классными мыслями. Проблема в том, что в моменте, информация из них мне не нужна. И даже несмотря на наличие вкладок и архива, непрочитанные посты из каналов лежат мертвым грузом. А теперь еще есть и сториз, которые висят в топе.
Месяца три назад завел еще один аккаунт в тг чисто для чтения каналов. Так, они не мешают в личном, а переключение между аккаунтами в тг удобное – вечером/утром захожу сразу полистать посты пачкой.
Рецепт, как перекинуть читаемые каналы на новый аккаунт.
1. Берем новую симку, либо выпускаем виртуальный номер у своего оператора. Есть еще сервисы вроде sms-activate, но там потом аккаунт перейдет новому юзеру, поэтому не советую.
2. Регаем новый аккаунт в тг на этот номер.
3. Создаем папку на личном аккаунте (настройки -> папки с чатами-> создать папку) и закидываем каналы, которые писали в последние пару недель.
4. Делимся этой папкой и кидаем в сообщениях своему второму аккаунту. Присоединяемся во все разом.
5. Удаляем папку и разом выходим из всех каналов на личном аккаунте. Главное убедиться, что присоединились на втором.
👍32🔥9❤3
Привет!
Давно сюда не писал, решил поделиться, как у меня дела и что нового произошло!
> Вот тут мое интро, чтобы узнать, что было в прошлых сериях.
> Осенью того года менял работу. Прошел 40 собеседований за полтора месяца. (Воронка была такая: откликнулся на ~100 позиций -> ~15 созвон с hr (почти все через рефералов) -> 12 мест, где прошел собесы -> 8 офферов). Заметки с тех времен остались, опубликую статистики и как готовился.
> Последние полгода занимаюсь llm. C ноября 23-го года начал работать в качестве лида команды данных для пре-трейна в Nebius. Мы с командой собираем и обрабатываем данные, чтобы за такое же количество компьюта получить модель лучше. Карпатый два года назад лаконично выразил мысль. Расскажу, что узнал на практике, как этот самый Large, clean, diverse data получить
> Прошлой осенью закрыл гештальт. Хотел порассказывать про здоровье и технологии, а тут red barn позвали записать подкаст. Недолго думая, собрали материала на 12 выпусков и записали сезон.
> После трипов по Азии в течение прошлого года (для того, чтобы удаленно работать, понравился Вьетнам, по впечатлениям, понравился Сеул), засели с девушкой в Белграде. Если кто тут, пишите, сгоняем попить кофе!
Давно сюда не писал, решил поделиться, как у меня дела и что нового произошло!
> Вот тут мое интро, чтобы узнать, что было в прошлых сериях.
> Осенью того года менял работу. Прошел 40 собеседований за полтора месяца. (Воронка была такая: откликнулся на ~100 позиций -> ~15 созвон с hr (почти все через рефералов) -> 12 мест, где прошел собесы -> 8 офферов). Заметки с тех времен остались, опубликую статистики и как готовился.
> Последние полгода занимаюсь llm. C ноября 23-го года начал работать в качестве лида команды данных для пре-трейна в Nebius. Мы с командой собираем и обрабатываем данные, чтобы за такое же количество компьюта получить модель лучше. Карпатый два года назад лаконично выразил мысль. Расскажу, что узнал на практике, как этот самый Large, clean, diverse data получить
> Прошлой осенью закрыл гештальт. Хотел порассказывать про здоровье и технологии, а тут red barn позвали записать подкаст. Недолго думая, собрали материала на 12 выпусков и записали сезон.
> После трипов по Азии в течение прошлого года (для того, чтобы удаленно работать, понравился Вьетнам, по впечатлениям, понравился Сеул), засели с девушкой в Белграде. Если кто тут, пишите, сгоняем попить кофе!
Telegram
commit history
Всем привет! Меня зовут Ибрагим. Занимаюсь large scale данными для агентов в nebius. Живу в Лондоне, получил UK Global Talent визу.
Из последнего:
> SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface…
Из последнего:
> SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface…
🔥39❤10👍2💘1
У hugging face вышел качественный тех репорт о том, как они собирали свой датасет fineweb. Это набор дампов common-crawl(архив страниц из интернета), который почистили и превратили в 15T токенов на английском.
Почему круто. Common-crawl – это основной источник данных для претрейна LLM, если ты не open ai или antropic с собственными краулерами и парсерами. Его все по разному обрабывают или используют его производные. Обычно эти производные датасеты получены путем применения простых эваристик и максимум какой-то маленькой LM, обученной на википедии.
Но репортов с экспериментами на данных на таком масштабе с подробным описанием почти нет. А тут ребята 100k+ h100 gpu часов потратили на все и подробно описали.
Еще они выложили сабсет образовательных документов из кроула. Такой масштаб фильтрации классификаторами в open-source еще никто не выкладывал. И это как раз тот датасет, которым никто не делится (ни лама, ни мистраль, ни китайцы вроде qwen), но который все делают.
Все в статье, это по сути ровно то, чем моя команда занимается.
Тут и про экстракцию кроула, и про фильтрацию, и про дедупликацию, и про классификаторы.
P.S. Если на этом посте наберется хотя бы 1 огонек – напишу разбор репорта с комментариями.
Почему круто. Common-crawl – это основной источник данных для претрейна LLM, если ты не open ai или antropic с собственными краулерами и парсерами. Его все по разному обрабывают или используют его производные. Обычно эти производные датасеты получены путем применения простых эваристик и максимум какой-то маленькой LM, обученной на википедии.
Но репортов с экспериментами на данных на таком масштабе с подробным описанием почти нет. А тут ребята 100k+ h100 gpu часов потратили на все и подробно описали.
Еще они выложили сабсет образовательных документов из кроула. Такой масштаб фильтрации классификаторами в open-source еще никто не выкладывал. И это как раз тот датасет, которым никто не делится (ни лама, ни мистраль, ни китайцы вроде qwen), но который все делают.
Все в статье, это по сути ровно то, чем моя команда занимается.
Тут и про экстракцию кроула, и про фильтрацию, и про дедупликацию, и про классификаторы.
P.S. Если на этом посте наберется хотя бы 1 огонек – напишу разбор репорта с комментариями.
huggingface.co
FineWeb: decanting the web for the finest text data at scale - a Hugging Face Space by HuggingFaceFW
FineWeb creates a large-scale, high-quality text dataset for training large language models by processing and deduplicating web data. Users can access the dataset and its educational subset, FineWe...
🔥116👍4❤3
Написал разбор тех репорта про FineWeb, с чайком зайдет лучше, чем без 🫖
https://telegra.ph/Razbor-reporta-FineWeb-06-12
https://telegra.ph/Razbor-reporta-FineWeb-06-12
Telegraph
Разбор репорта FineWeb
Тех репорт Датасет Напомню, что такое FineWeb. HuggingFace покумекали и выложили: FineWeb: много, 15Т(трлн) англ токенов норм качества. Прошлый большой датасет RedPajamaV2 на 20T англ токенов, но хуже по качеству + нужно сидеть и самому фильтровать по посчитанным…
❤🔥17🔥9👍3❤2💯1
Привет!
Ищу Senior Software Engineer (python) к себе в команду данных в LLM.
Вилка: 7-10k eur на руки в месяц (есть поправка на локации)
Локация: релокация в один из офисов (Белград, Амстердам, Лондон), либо удаленка
Описание
Nebius – это ai-centric cloud (много gpu, которые сдаются в аренду). LLM команда делает эксперименты, используя часть gpu.
Наша команда данных делает эксперименты с данными, претрейном, continual preptrain. Короче мы обрабатываем очень много текстовых данных и смотрим, что улучшает модель и ее определенные способности.
Что нужно делать на этой позиции
Нужно будет развивать наш фреймворк для обработки данных. Если грубо, есть большая куча данных (в сумме – это петабайты, по отдельности до ~100TB). Нужно дизайнить и реализовывать эффективную логику обработки на нашем фреймворке поверх yt (платформа для распределенной обработки данных).
Из недавних задач:
> фильтр Блума для быстрой фильтрации
> топологическая сортировка и работа с графами для сортировки зависимостей в коде
> затащить и подобрать оптимальные параметры для инференса энкодерных моделей (в yt есть gpu ноды для подобных задач).
Основное требование
Уметь хорошо писать код и дизайнить логику (фреймворк на питоне). Уметь в LLM и ML необязательно, но будет плюсом, а что нужно – подскажем в процессе.
Формальное описание вакансии можно посмотреть тут
Список собесов (после знакомства с hr)
1. Полчаса про опыт + несложная алго задача
2. Coding interview – реализовать класс с заданной функциональностью
3. Алго-секция
4. Систем дизайн
5. Финал
По всем вопросам + кидать резюме можно мне в @ibragim_bad
P.S. На сайте ошибка – удаленка есть
Ищу Senior Software Engineer (python) к себе в команду данных в LLM.
Вилка: 7-10k eur на руки в месяц (есть поправка на локации)
Локация: релокация в один из офисов (Белград, Амстердам, Лондон), либо удаленка
Описание
Nebius – это ai-centric cloud (много gpu, которые сдаются в аренду). LLM команда делает эксперименты, используя часть gpu.
Наша команда данных делает эксперименты с данными, претрейном, continual preptrain. Короче мы обрабатываем очень много текстовых данных и смотрим, что улучшает модель и ее определенные способности.
Что нужно делать на этой позиции
Нужно будет развивать наш фреймворк для обработки данных. Если грубо, есть большая куча данных (в сумме – это петабайты, по отдельности до ~100TB). Нужно дизайнить и реализовывать эффективную логику обработки на нашем фреймворке поверх yt (платформа для распределенной обработки данных).
Из недавних задач:
> фильтр Блума для быстрой фильтрации
> топологическая сортировка и работа с графами для сортировки зависимостей в коде
> затащить и подобрать оптимальные параметры для инференса энкодерных моделей (в yt есть gpu ноды для подобных задач).
Основное требование
Уметь хорошо писать код и дизайнить логику (фреймворк на питоне). Уметь в LLM и ML необязательно, но будет плюсом, а что нужно – подскажем в процессе.
Формальное описание вакансии можно посмотреть тут
Список собесов (после знакомства с hr)
1. Полчаса про опыт + несложная алго задача
2. Coding interview – реализовать класс с заданной функциональностью
3. Алго-секция
4. Систем дизайн
5. Финал
По всем вопросам + кидать резюме можно мне в @ibragim_bad
P.S. На сайте ошибка – удаленка есть
🔥40👍3
commit history
Привет! Ищу Senior Software Engineer (python) к себе в команду данных в LLM. Вилка: 7-10k eur на руки в месяц (есть поправка на локации) Локация: релокация в один из офисов (Белград, Амстердам, Лондон), либо удаленка Описание Nebius – это ai-centric cloud…
По поводу вчерашней вакансии.
Много резюме скинули на MLE (Machine Learning Engineer). Поэтому подчеркну, что в команду данных – это именно SWE (Software Engineer) вакансия. То есть обучения моделей на этой позиции нет и трек собеседований тоже SWE.
Но если вы хотите именно на MLE/LLM позицию, то такие вакансии тоже есть в соседние команды + появятся еще. Пример такой вакансии.
Вилка и локации такие же как на SWE.
Трек собеседований после HR такой:
1. Литкод задача + разговор про ML.
2. Алго секция.
3. Секция про NLP и LLM.
4. Финал.
Можете податься через вакансии на сайте, либо через вчерашнюю вакансию на SWE. Но в пометке укажите, что хотите на трек MLE.
Много резюме скинули на MLE (Machine Learning Engineer). Поэтому подчеркну, что в команду данных – это именно SWE (Software Engineer) вакансия. То есть обучения моделей на этой позиции нет и трек собеседований тоже SWE.
Но если вы хотите именно на MLE/LLM позицию, то такие вакансии тоже есть в соседние команды + появятся еще. Пример такой вакансии.
Вилка и локации такие же как на SWE.
Трек собеседований после HR такой:
1. Литкод задача + разговор про ML.
2. Алго секция.
3. Секция про NLP и LLM.
4. Финал.
Можете податься через вакансии на сайте, либо через вчерашнюю вакансию на SWE. Но в пометке укажите, что хотите на трек MLE.
🔥15❤3👍2
Позавчера вернулся с NeurIPS, мне понравилось!
Я рассказывал о нашем агенте для решения issues в репозиториях. На базе только открытых моделей получилось выбить 40.6% на swe-bench verified, результат засабмитили месяц назад. Я построил выступление по нашему посту, который можно прочитать тут + добавил инфы о том, как собирали данные. Короткое описание блог поста можно прочитать у Саши, он делал критика для process и outcome supervision. А про данные: скоро выложим еще один блог пост и зарелизим сами данные, которые собрали, так что stay tuned как говорится!
Ниже прикрепляю небольшую пачку фото и видео материалов с нипса.
Я рассказывал о нашем агенте для решения issues в репозиториях. На базе только открытых моделей получилось выбить 40.6% на swe-bench verified, результат засабмитили месяц назад. Я построил выступление по нашему посту, который можно прочитать тут + добавил инфы о том, как собирали данные. Короткое описание блог поста можно прочитать у Саши, он делал критика для process и outcome supervision. А про данные: скоро выложим еще один блог пост и зарелизим сами данные, которые собрали, так что stay tuned как говорится!
Ниже прикрепляю небольшую пачку фото и видео материалов с нипса.
🔥21👍6❤5❤🔥2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👍19😁6❤5🔥4❤🔥2
Мы зарелизили первый датасет для software engineering agents! 🤖
В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.
Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.
Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories
Блогпост с подробным описанием того, как собирали данные можно прочитать тут
В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.
Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.
Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories
Блогпост с подробным описанием того, как собирали данные можно прочитать тут
huggingface.co
nebius/SWE-bench-extra · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥33❤🔥3👍3❤2😍2
Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋
Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.
Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.
Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.
P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.
Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.
Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.
P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
arXiv.org
SWE-rebench: An Automated Pipeline for Task Collection and...
LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training...
🔥23👍13❤5
Привет! 🥗 🇨🇦 🤖 🇬🇧
сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.
во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!
во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!
в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.
во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!
во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!
в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
arXiv.org
Guided Search Strategies in Non-Serializable Environments with...
Large language models (LLMs) have recently achieved remarkable results in complex multi-step tasks, such as mathematical reasoning and agentic software engineering. However, they often struggle to...
🔥39👍7❤6💘1
Привет! 🍁 🎉 📈 🏆
Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.
во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.
во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.
в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.
в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥
К каждой новости — своя фотка ниже.
Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.
во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.
во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.
в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.
в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥
К каждой новости — своя фотка ниже.
🔥30👍7❤3❤🔥1💯1