Очередной скандал с данными для обучения
Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.
А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.
Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.
Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.
Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).
А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло😂
Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.
А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.
Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.
Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.
Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).
А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍19😁12
Буквально все человечество с 2014 года: «Скоро у нас будет AGI!!!»
Тем временем 19 июля 2024:
Тем временем 19 июля 2024:
🎉55😁41❤7🤯5🫡4👍3
Новости с Turbo ML Conf: AI-Центр Т-Банка открывает доступ к собственной русскоязычной языковой модели в весовой категории 7—8 млрд параметров — T-lite
Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.
После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.
T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.
После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.
T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
🔥62👍11❤7😁3✍2🐳1
Forwarded from XOR
Хоть датасет открытый — звучит все же не как «Коалиция безопасного ИИ»
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27😁13👍8❤6
Новая иерархия инструкций в gpt-4o-mini
Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.
Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).
Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.
Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.
Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.
Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.
Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).
Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.
Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.
Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.
👍43🔥9❤8👌1
Особенно бизнес-моделям сайтов, по их мнению, вредят Perplexity-подобные системы, однако они хотя бы указывают источник. Журналистам удалось доказать, что GPT, например, на некоторые вопросы отвечает чуть ли не дословными отрывками из новостных статей (конечно, без ссылок на источник).
Согласны, обидно получается
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔40😁24❤7👍2🤨1🗿1
Из пепла Яндекса выходит Nebius, «стартап» с планами стать европейским лидером в области ИИ-вычислений
Нет, такой прекрасный заголовок не мы придумали, а западные СМИ. Так они пишут про компанию, которая стала «преемником» YandexNV. 15 июля YandexNV окончательно распродала все свои активы в России (на ОЧЕНЬ невыгодных условиях), а на днях вот решила менять имя.
Теперь Nebius будет позиционировать себя как фуллстэк компанию по производству AI-инфраструктуры и планирует стать лидером на рынке Европы.
Шансы есть, потому что вообще-то проект Nebius сам по себе существует уже год. Как минимум, бороться за рынок GPU-as-a-service не придется с нуля. К тому же в распоряжении компании есть давнее партнерство с Nvidia и финский датацентр.
Такие дела.
Нет, такой прекрасный заголовок не мы придумали, а западные СМИ. Так они пишут про компанию, которая стала «преемником» YandexNV. 15 июля YandexNV окончательно распродала все свои активы в России (на ОЧЕНЬ невыгодных условиях), а на днях вот решила менять имя.
Теперь Nebius будет позиционировать себя как фуллстэк компанию по производству AI-инфраструктуры и планирует стать лидером на рынке Европы.
Шансы есть, потому что вообще-то проект Nebius сам по себе существует уже год. Как минимум, бороться за рынок GPU-as-a-service не придется с нуля. К тому же в распоряжении компании есть давнее партнерство с Nvidia и финский датацентр.
Такие дела.
🔥77👍24🤪21🌭6🗿5❤2😁1🙈1💅1
Там ярко обновился DeepSeek-V2
Вышла версия V2-Chat-0628. Теперь это SOTA среди открытых LLM по арене. Скорее всего, наслаждаться славой моделька будет, пока завтра не выйдет Llama 3 400В, но тем не менее.
Что обновили? Судя по всему, просто провели пост-трейнинг и до обучение на инструкциях. Хотя кроме этого, скорее всего, есть некий «секретный ингредиент»: результаты относительно v2 скакнули слишком сильно.
Получилось аж +17 пунктов по MATH и +14,1 по IFEVAL, а также +26,7 на Arena Hard.
Вышла версия V2-Chat-0628. Теперь это SOTA среди открытых LLM по арене. Скорее всего, наслаждаться славой моделька будет, пока завтра не выйдет Llama 3 400В, но тем не менее.
Что обновили? Судя по всему, просто провели пост-трейнинг и до обучение на инструкциях. Хотя кроме этого, скорее всего, есть некий «секретный ингредиент»: результаты относительно v2 скакнули слишком сильно.
Получилось аж +17 пунктов по MATH и +14,1 по IFEVAL, а также +26,7 на Arena Hard.
❤20🔥8🤯6👍3
Все, как всегда, благодаря 4chan. Правда весит все чудо 820GB
В интернете уже есть ссылки на торенты. Пару часов назад модель также была замечена на HF под именем miqu2, но сейчас оттуда ее уже почистили.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁60🔥12🤩5👍1🤔1
Вышло дополнение к очень классной книге «Hands-On Generative AI»
Если еще не читали – обязательно занесите в ридинг лист. Книга новая, вышла в декабре, а теперь вот и обновление со свежими диффузионными и трансформерными архитектурами подоспело.
Что в книге? Если кратко, то просто ВСЕ, что связано с генеративными моделями: разбор трансформера, разбор диффузии, разборы самых известных архитектур и их файнтюнинга. В качестве приятного дополнения главы про Generating Audio.
Читать можно на O’reilly.
Если еще не читали – обязательно занесите в ридинг лист. Книга новая, вышла в декабре, а теперь вот и обновление со свежими диффузионными и трансформерными архитектурами подоспело.
Что в книге? Если кратко, то просто ВСЕ, что связано с генеративными моделями: разбор трансформера, разбор диффузии, разборы самых известных архитектур и их файнтюнинга. В качестве приятного дополнения главы про Generating Audio.
Читать можно на O’reilly.
👍51🔥14❤8😎1
Как вы помните, вчера модель слили на 4chan. А ночью в сеть просочились и бенчмарки. Выглядит очень сочно, на многих тестах моделька обгоняет даже взрослую GPT-4o.
Вместе с llama 3.1 на 405В параметров выходят 3.1 на 70В и на 8В. Посмотрите в таблице, какой у них мощный прирост относительно обычных троек на то же количество параметров. Есть предположение, что это получилось потому что это не дотренированные или дотюненные с нуля модели, а дестилляции моделей покрупнее.
То есть ученые не сразу обучили модель с 70В или 8В параметрами, а обучили модель с Х параметрами, где Х>>8/70В, а потом провели дистилляцию. Очень интересный подход.
Кажется, у нас наконец будет опенсорс уровня GPT-4o
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86 22👍8❤3😁2 2
This media is not supported in your browser
VIEW IN TELEGRAM
В Colab наконец-то добавили функцию InteractiveSheet, с помощью которой можно создавать и редактировать таблицы прямо в ноутбуке.
Идеально для анализа или просто экспорта результатов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98🔥29❤10🐳4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
В эфире рубрика «обещания Илона Маска»
Отрывок из нового интервью:
Отрывок из нового интервью:
«Новый суперкомпьютер xAI в Мемфисе был установлен всего за 19 дней и будет использоваться для обучения Grok 3. Модель ожидается к декабрю, и станет самым мощным ИИ в мире.»
😁39👍22🔥10❤4🌚4
А вот это круто: Яндекс открывает аспирантуру по искусственному интеллекту
В стиле ИТ-компании все будет практико-ориентировано. Чтобы наука и продукт жили дружно, у студентов будут одновременно руководители из вузов и самого Яндекса. А еще каждый аспирант будет получать… гранты по 800к в год. Кто там говорил про бедных студентов?🤑
Первый набор начнет учиться этой осенью. Среди партнеров уже НИУ ВШЭ и ИТМО, и компания обещает кратно увеличить их число. Из Яндекса подключатся лиды из беспилотных авто и Yandex Cloud. Задачи будут соответствующие: придумывать способы адаптации YandexGPT, улучшать LLM, повышать безопасность автономного транспорта и другой экшен.
За 3-4 года будет даже возможность скататься на стажировки в зарубежные лабы и университеты + поучаствовать в А* конференциях.
В общем, респект🫡
В стиле ИТ-компании все будет практико-ориентировано. Чтобы наука и продукт жили дружно, у студентов будут одновременно руководители из вузов и самого Яндекса. А еще каждый аспирант будет получать… гранты по 800к в год. Кто там говорил про бедных студентов?
Первый набор начнет учиться этой осенью. Среди партнеров уже НИУ ВШЭ и ИТМО, и компания обещает кратно увеличить их число. Из Яндекса подключатся лиды из беспилотных авто и Yandex Cloud. Задачи будут соответствующие: придумывать способы адаптации YandexGPT, улучшать LLM, повышать безопасность автономного транспорта и другой экшен.
За 3-4 года будет даже возможность скататься на стажировки в зарубежные лабы и университеты + поучаствовать в А* конференциях.
В общем, респект
Please open Telegram to view this post
VIEW IN TELEGRAM
❤81🔥35😁12🍌2🤓2👍1