Nvidia опубликовала веса для своей SOTA модели эмбеддингов NV-Embed-1, а также подробный технический отчет
Итак, NV-Embed – это эмбеддинги на основе Mistral 7B. Вместо обычного усреднения или EOS, которые используют другие методы, здесь для сжатия входов и получения эмбеддингов вводится дополнительный латентный слой внимания.
Обучение: на первом этапе используются QA датасеты, а на втором – размеченные под классификацию, кластеризацию и семантическое сходство. Конечно, как обычно это бывает для эмбеддингов, все учится на contrastive.
Отдельно в отчете отмечено, что большой скачок в качестве дали замешанные с разных тасков батчи (обычно таски смешиваются гомогенно).
По MTEB моделька превосходит все остальные, выбивая почти 70. Идеально для RAG.
Итак, NV-Embed – это эмбеддинги на основе Mistral 7B. Вместо обычного усреднения или EOS, которые используют другие методы, здесь для сжатия входов и получения эмбеддингов вводится дополнительный латентный слой внимания.
Обучение: на первом этапе используются QA датасеты, а на втором – размеченные под классификацию, кластеризацию и семантическое сходство. Конечно, как обычно это бывает для эмбеддингов, все учится на contrastive.
Отдельно в отчете отмечено, что большой скачок в качестве дали замешанные с разных тасков батчи (обычно таски смешиваются гомогенно).
По MTEB моделька превосходит все остальные, выбивая почти 70. Идеально для RAG.
❤49🔥15👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Boston Dynamics напряглись?
😁77 64🔥6❤3🦄3🍌2
ChatGPT считает, что все руководители - это мужчины, а женщины - секретари
Там компания Finder провела интересное расследование, в рамках которого выяснилось, что ИИ усиливает гендерные и расовые стереотипы. По запросу «генеральный директор успешной компании» DALLE сгенерировал 99% фото белых мужчин, хотя в реальности более 10% CEO - женщины, и только 74% генеральных директоров белые.
Но когда попросили создать изображения секретаря, то на девять из десяти картинках были женщины.
Там компания Finder провела интересное расследование, в рамках которого выяснилось, что ИИ усиливает гендерные и расовые стереотипы. По запросу «генеральный директор успешной компании» DALLE сгенерировал 99% фото белых мужчин, хотя в реальности более 10% CEO - женщины, и только 74% генеральных директоров белые.
Но когда попросили создать изображения секретаря, то на девять из десяти картинках были женщины.
ChatGPT не родился из вакуума. Он – отражение общества и его стереотипов. Когда я спрашиваю бота, как выглядит генеральный директор, он отмечает «чисто выбритое лицо или аккуратно подстриженную бороду». Когда его спрашивают, как выглядит секретарша, он дает описание, включающее «ухоженные волосы, минимум макияжа» – добавил Омар Карим, ресерчер из Лондонской школы экономики.
😁89😐20👍15 9💯7🍌3❤2🤨2🫡2🗿2
Закон Nvidia >> закон Мура
Что произошло? Прошла выставка COMPUTEX 2024, на которой выступил CEO NVIDIA Дженсен Хуанг. Он рассказывал об успехах Nvidia в производстве чипов и дальнейших планах.
В ходе выступления он показал график, который особенно зантересовал слушателей. На нем сравнивается закон Мура и рост производительности чипов компании.
Что такое закон Мура? Вообще это даже не закон, а наблюдение основателя Intel: "Количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца". Проще говоря: мощность процессоров удваивается каждые два года.
Так вот, не имея серьезной конкуренции, Nvidia, видимо, решила конкурировать с этим законом. И, как видите, получилось очень неплохо: последние 8 лет корпорация двигалась в 25 раз быстрее, чем завещал Мур. Это поразительно.
Полное выступление Хуанга смотрим тут.
Что произошло? Прошла выставка COMPUTEX 2024, на которой выступил CEO NVIDIA Дженсен Хуанг. Он рассказывал об успехах Nvidia в производстве чипов и дальнейших планах.
В ходе выступления он показал график, который особенно зантересовал слушателей. На нем сравнивается закон Мура и рост производительности чипов компании.
Что такое закон Мура? Вообще это даже не закон, а наблюдение основателя Intel: "Количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца". Проще говоря: мощность процессоров удваивается каждые два года.
Так вот, не имея серьезной конкуренции, Nvidia, видимо, решила конкурировать с этим законом. И, как видите, получилось очень неплохо: последние 8 лет корпорация двигалась в 25 раз быстрее, чем завещал Мур. Это поразительно.
Полное выступление Хуанга смотрим тут.
🔥89 17👍16😁9
This media is not supported in your browser
VIEW IN TELEGRAM
«Для таких людей, как я, LLM – это уже прошлое, сейчас они скучны» - Ян Лекун.
Наверное, с Маском разборки устраивать интереснее 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
У нас для вас отличные новости!
Погоня за ML специалистами не сбавляет обороты. На западе CEO лично звонят кандидатам, чтобы переманить их. Россия не отстает: один только Яндекс нанимает около 100 ML-инженеров каждый месяц, а зарплаты таких специалистов постоянно растут.
Чтобы вы не пропускали самые сочные вакансии в топовых компаниях России и за рубежом, мы создали канал Data Secrets | Карьера. Там можно легко найти работу с подходящим форматом, специальностью и задачами.
Также канал поможет мониторить рынок и тренды на нем, даже если сейчас вы не ищете оффер.
Подписывайтесь, чтобы держать руку на пульсе: @data_secrets_career
Погоня за ML специалистами не сбавляет обороты. На западе CEO лично звонят кандидатам, чтобы переманить их. Россия не отстает: один только Яндекс нанимает около 100 ML-инженеров каждый месяц, а зарплаты таких специалистов постоянно растут.
Чтобы вы не пропускали самые сочные вакансии в топовых компаниях России и за рубежом, мы создали канал Data Secrets | Карьера. Там можно легко найти работу с подходящим форматом, специальностью и задачами.
Также канал поможет мониторить рынок и тренды на нем, даже если сейчас вы не ищете оффер.
Подписывайтесь, чтобы держать руку на пульсе: @data_secrets_career
🔥19👍12😁10❤5 3🤯1🙈1
Годовая зарплата в $65 тыс. и активы на $2.8млрд? Легко, особенно когда ты Сэм Альтман. Итак, портфель CEO, который мы заслужили:
⚪️ 7,6% акций Reddit (на данный момент стоимость составляет более 700 миллионов долларов)
⚪️ Инвестировал 15 000 долларов в 2% акций Stripe в 2009 году (сегодня это 1,3 млрд долларов)
⚪️ Чек на 375 миллионов долларов в Helion, стартап в области ядерного синтеза (Microsoft является клиентом)
⚪️ Инвестиции в компанию Exowatt, которая производит контейнерные энергетические системы для датацентров
⚪️ Инвестиции в размере 180 миллионов долларов в Retro – стартап, который пытается увеличить продолжительность жизни человека
⚪️ Инвестиции в несколько ИИ-компаний, включая Rain AI (чипы), 15% Humane и Limitless
⚪️ Дома в Напе и на Гавайях
⚪️ Персональная кредитная линия от JP Morgan Chase, которая позволяет ему брать займы под залог стоимости своего личного портфеля
⚪️ Ну и коллекция спорткаров конечно, куда без них
Такие дела💰
Такие дела
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый супер-качественный датасет FineWeb-Edu от HuggingFace
Недавно те же ученые представляли FineWeb – это был по сути отфильтрованный классический CommonCrawl. Теперь же с помощью классификатора на основе Llama-3-70B-Instruct они отобрали из FineWeb только те веб-страницы, которые относятся к образовательному контенту. Кстати, похожий прием мы видели у DeepSeekMath (читайте наш разбор).
Гипотеза исследователей была в том, что если обучать LLM на образовательном контенте, она будет лучше ризонить и вообще вырастет по бенчмаркам. Оказалось, что так и есть. Посмотрите на график: модели на FineWeb-Edu значительно обгоняют модели на FineWeb, C4 и тд.
Чтобы достичь перформанса FineWeb-Edu, другим датасетам нужно в 4 раза больше данных. Это еще раз доказывает, что качество обучающей выборки – это душа модели.
Сейчас FineWeb-Edu находится в открытом доступе в двух размерах: 1.3 триллиона токенов и 5.4 триллиона. Работу, кстати, высоко оценил Андрей Карпаты.
Недавно те же ученые представляли FineWeb – это был по сути отфильтрованный классический CommonCrawl. Теперь же с помощью классификатора на основе Llama-3-70B-Instruct они отобрали из FineWeb только те веб-страницы, которые относятся к образовательному контенту. Кстати, похожий прием мы видели у DeepSeekMath (читайте наш разбор).
Гипотеза исследователей была в том, что если обучать LLM на образовательном контенте, она будет лучше ризонить и вообще вырастет по бенчмаркам. Оказалось, что так и есть. Посмотрите на график: модели на FineWeb-Edu значительно обгоняют модели на FineWeb, C4 и тд.
Чтобы достичь перформанса FineWeb-Edu, другим датасетам нужно в 4 раза больше данных. Это еще раз доказывает, что качество обучающей выборки – это душа модели.
Сейчас FineWeb-Edu находится в открытом доступе в двух размерах: 1.3 триллиона токенов и 5.4 триллиона. Работу, кстати, высоко оценил Андрей Карпаты.
👍45🔥12❤10
Пару дней назад Docker Hub пару дней назад ушёл из России и Беларуси из-за санкций США, но теперь вдруг передумал.
Сейчас
hub.docker.com снова доступен с российских IP-адресов, Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66😁30👍13🗿4❤3
Forwarded from XOR
Ничего необычного, просто глава NVIDIA расписывается на груди фанатки.
Вот что бывает, когда капитализация твоей компании составляется $2,8 трлн.
@xor_journal
Вот что бывает, когда капитализация твоей компании составляется $2,8 трлн.
@xor_journal
👍69 33🔥12💅3🤯2
9 бывших и текущих сотрудников OpenAI публично требуют право в случае чего предупредить общественность об AGI
Они заявляют, что OpenAI ведет себя безрассудно в отношении AGI, оголтело летя впереди планеты всей.
Тем временем сотрудникам не разрешено не то что рассказывать о разработках компании, но и просто высказывать свое мнение о политике OpenAI. Иначе можно сказать «пока» всем своим акциям и, скорее всего, работе.
Сейчас сотрудники требуют обязать компанию прозрачно отчитываться о технологиях перед государством и разрешить ученым осведомлять общество о том, что на их взгляд может быть опасно.
Обожаю это чувство, как его… SkyNet
Они заявляют, что OpenAI ведет себя безрассудно в отношении AGI, оголтело летя впереди планеты всей.
Тем временем сотрудникам не разрешено не то что рассказывать о разработках компании, но и просто высказывать свое мнение о политике OpenAI. Иначе можно сказать «пока» всем своим акциям и, скорее всего, работе.
Сейчас сотрудники требуют обязать компанию прозрачно отчитываться о технологиях перед государством и разрешить ученым осведомлять общество о том, что на их взгляд может быть опасно.
Обожаю это чувство, как его… SkyNet
😁97❤14🔥8 7😨6👍5🙈5
Интересная ситуация произошла в Стэнфорде: там ученым пришлось извиняться перед китайцами за плагиат
Оказалось, что студенты скопипастили код из китайской MiniCPM-Llama3-V 2.5 для своего проекта Llama3-V. Вот и пришлось извинятся, хотя горе-ресерчеры утвеждают, что код писали вообще не они, а их коллега из университета Калифорнии, который сейчас не выходит на связь😦
Медель выходила под флагом Стэнфордского университета, в соавторстве с несколькими профессорами, так что авторитет был подорван довольно сильно. Модель также пришлось удалить с Hugging Face. Да, жаль этих работяг.
Оказалось, что студенты скопипастили код из китайской MiniCPM-Llama3-V 2.5 для своего проекта Llama3-V. Вот и пришлось извинятся, хотя горе-ресерчеры утвеждают, что код писали вообще не они, а их коллега из университета Калифорнии, который сейчас не выходит на связь
Медель выходила под флагом Стэнфордского университета, в соавторстве с несколькими профессорами, так что авторитет был подорван довольно сильно. Модель также пришлось удалить с Hugging Face. Да, жаль этих работяг.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁89 45😎4👍3❤1
Вышел долгожданный код для xLSTM! Это та самая недавняя взрывная архитектура от создателей LSTM, которая может стать альтернативой трансформеру.
Установить библиотеку и поиграться с xLSTM можно с помощью
Репозиторий с кодом тут.
А если вы до сих пор не разобрались с этой многообещающей моделью, то напоминаем, что у нас на сайте лежит ее подробный наглядный разбор: https://datasecrets.ru/articles/10
Установить библиотеку и поиграться с xLSTM можно с помощью
pip install xlstm. Репозиторий с кодом тут.
А если вы до сих пор не разобрались с этой многообещающей моделью, то напоминаем, что у нас на сайте лежит ее подробный наглядный разбор: https://datasecrets.ru/articles/10
❤55🔥21 7👍2🍓2
This media is not supported in your browser
VIEW IN TELEGRAM
Студенты-дипломники, ну как там дела за пару дней до сдач?
🤝85😁46🔥10🗿7❤4👍4👏2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁103🤯21👀14 8👍6☃3❤1
Кстати, кроме этого выпада группы сотрудников OpenAI случилось еще кое-что
Раньше в OpenAI в команде Суцкевера работал исследователь Леопольд Ашенбреннер. Пол года назад его уволили, якобы из-за утечки информации.
А на днях он дал интервью и рассказал, что на самом деле его уволили по другой причине: он критиковал компанию за небезопасное поведение.
Также Леопольд опубликовал кучастраничный отчет о состоянии ИИ. В нем он пишет, что AGI появится уже к 2027 году, и затем очень скоро превратиться в суперинтеллект, который будет опасен для человечества. “Для этого не нужно верить в фантастику, нужно лишь верить в прямые линии на графиках».
По его словам, уже сегодня компании перешли от $10 миллиардных вычислительных кластеров к $100 миллиардным и даже триллионным кластерам.
Пора бы OpenAI выходить на свет, а то общественности еще долго придется оценивать ситуацию по выкрикам отдельных исследователей
Раньше в OpenAI в команде Суцкевера работал исследователь Леопольд Ашенбреннер. Пол года назад его уволили, якобы из-за утечки информации.
А на днях он дал интервью и рассказал, что на самом деле его уволили по другой причине: он критиковал компанию за небезопасное поведение.
Также Леопольд опубликовал кучастраничный отчет о состоянии ИИ. В нем он пишет, что AGI появится уже к 2027 году, и затем очень скоро превратиться в суперинтеллект, который будет опасен для человечества. “Для этого не нужно верить в фантастику, нужно лишь верить в прямые линии на графиках».
По его словам, уже сегодня компании перешли от $10 миллиардных вычислительных кластеров к $100 миллиардным и даже триллионным кластерам.
Пора бы OpenAI выходить на свет, а то общественности еще долго придется оценивать ситуацию по выкрикам отдельных исследователей