NEW BOT Телеграм, страница

Data Secrets

Очередной скандал с данными для обучения

Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.

А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.

Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.

Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.

Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).

А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

❤33👍19😁12

8.02K viewsedited 10:59

Data Secrets

Буквально все человечество с 2014 года: «Скоро у нас будет AGI!!!»

Тем временем 19 июля 2024:

🎉55😁41❤7🤯5🫡4👍3

7.74K views13:41

Data Secrets

Новости с Turbo ML Conf: AI-Центр Т-Банка открывает доступ к собственной русскоязычной языковой модели в весовой категории 7—8 млрд параметров — T-lite

Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей подобного размера.

После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.

T-lite обогнала по показателям зарубежные llama3-8b-instruct и chat-gpt 3.5. При этом модель создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.

🔥62👍11❤7😁3✍2🐳1

9.02K views14:21

Data Secrets

Forwarded from XOR

⚡️ Крупные IT-компании, включая Microsoft, Google, Nvidia, Intel, IBM, PayPal, Amazon и OpenAI, объединились в «Коалицию за безопасный искусственный интеллект» (CoSAI).

🟢Основная цель организации — сделать ИИ безопасным путем предоставления доступа разработчикам к открытым методологиям, фреймворкам и инструментам.

🟢Также первоочередными задачами будут улучшение мониторинга цепочек поставок ПО для ИИ-систем и подготовка специалистов в области кибербезопасности.

🟢Все неплохо, но на этой неделе журналисты выпустили статью о том, что Apple, Nvidia, Anthropic используют для обучения ИИ датасет The Pile, где много мата, религиозных и расовых оскорблений и субтитры более 170к роликов с YouTube (что является нарушением платформы). Более того, некоторые ролики, используемые для обучения, также способствовали распространению теорий заговора и лженауки.

Хоть датасет открытый — звучит все же не как «Коалиция безопасного ИИ»

@xor_journal

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥27😁13👍8❤6

7.94K views17:01

Data Secrets

Новая иерархия инструкций в gpt-4o-mini

Возможно, самое интересное в свежей модели OpenAI – это новый метод борьбы с джейлбрейкингом.

Разработчики разделили все инструкции по разным уровням иерархии. Исходно зашитые в модель промпты имеют наивысший приоритет, потом идут промпты от юзера, а за ними с самым низким приоритетом промпты от «сторонних инструментов» (это в случае, если вы используете модель в рамках стороннего приложения).

Если некий поданный в модель промпт конфликтует с промптом из другой группы, автоматически выбирается тот, который имеет приоритет повыше.

Официальных тестов не было, но энтузиасты уже успели все сравнить – наверху табличка, в которой видно, что gpt-4o-mini на 20% «защищеннее» gpt-4o. Получается, как раз за счет иерархии инструкций.

Хотя, конечно, от всего метод не спасает. Пользователи уже делятся кейсами, как заставляют бота писать вредоносный код, рецепты наркотиков и тд.

👍43🔥9❤8👌1

9.11K views06:49

Data Secrets

⚪️ Японские СМИ выражают опасения по поводу LLM. Они говорят, что это «зайцы» в мире СМИ, которые используют контент с сайтов и не генерируют значительного ответного трафика.

Особенно бизнес-моделям сайтов, по их мнению, вредят Perplexity-подобные системы, однако они хотя бы указывают источник. Журналистам удалось доказать, что GPT, например, на некоторые вопросы отвечает чуть ли не дословными отрывками из новостных статей (конечно, без ссылок на источник).

Согласны, обидно получается

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔40😁24❤7👍2🤨1🗿1

8.94K views13:27

Data Secrets

Из пепла Яндекса выходит Nebius, «стартап» с планами стать европейским лидером в области ИИ-вычислений

Нет, такой прекрасный заголовок не мы придумали, а западные СМИ. Так они пишут про компанию, которая стала «преемником» YandexNV. 15 июля YandexNV окончательно распродала все свои активы в России (на ОЧЕНЬ невыгодных условиях), а на днях вот решила менять имя.

Теперь Nebius будет позиционировать себя как фуллстэк компанию по производству AI-инфраструктуры и планирует стать лидером на рынке Европы.

Шансы есть, потому что вообще-то проект Nebius сам по себе существует уже год. Как минимум, бороться за рынок GPU-as-a-service не придется с нуля. К тому же в распоряжении компании есть давнее партнерство с Nvidia и финский датацентр.

Такие дела.

🔥77👍24🤪21🌭6🗿5❤2😁1🙈1💅1

9.42K views06:06

Data Secrets

Психиатр: резюме не может вам угрожать, успокойтесь
Резюме:

😁149👏10🤔6😎4🔥3👍2🤝2

9.12K views09:05

Data Secrets

Там ярко обновился DeepSeek-V2

Вышла версия V2-Chat-0628. Теперь это SOTA среди открытых LLM по арене. Скорее всего, наслаждаться славой моделька будет, пока завтра не выйдет Llama 3 400В, но тем не менее.

Что обновили? Судя по всему, просто провели пост-трейнинг и до обучение на инструкциях. Хотя кроме этого, скорее всего, есть некий «секретный ингредиент»: результаты относительно v2 скакнули слишком сильно.

Получилось аж +17 пунктов по MATH и +14,1 по IFEVAL, а также +26,7 на Arena Hard.

❤20🔥8🤯6👍3

8.6K views11:04

Data Secrets

⚡️

Llama 3 на 400B слили на день раньше

Все, как всегда, благодаря 4chan. Правда весит все чудо 820GB 😝

В интернете уже есть ссылки на торенты. Пару часов назад модель также была замечена на HF под именем miqu2, но сейчас оттуда ее уже почистили.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁60🔥12🤩5👍1🤔1

8.8K views15:10

Data Secrets

Вышло дополнение к очень классной книге «Hands-On Generative AI»

Если еще не читали – обязательно занесите в ридинг лист. Книга новая, вышла в декабре, а теперь вот и обновление со свежими диффузионными и трансформерными архитектурами подоспело.

Что в книге? Если кратко, то просто ВСЕ, что связано с генеративными моделями: разбор трансформера, разбор диффузии, разборы самых известных архитектур и их файнтюнинга. В качестве приятного дополнения главы про Generating Audio.

Читать можно на O’reilly.

👍51🔥14❤8😎1

11.2K views17:29

Data Secrets

⚡️

Breaking! Llama 3.1 405B будет новой SOTA

Как вы помните, вчера модель слили на 4chan. А ночью в сеть просочились и бенчмарки. Выглядит очень сочно, на многих тестах моделька обгоняет даже взрослую GPT-4o.

Вместе с llama 3.1 на 405В параметров выходят 3.1 на 70В и на 8В. Посмотрите в таблице, какой у них мощный прирост относительно обычных троек на то же количество параметров. Есть предположение, что это получилось потому что это не дотренированные или дотюненные с нуля модели, а дестилляции моделей покрупнее.

То есть ученые не сразу обучили модель с 70В или 8В параметрами, а обучили модель с Х параметрами, где Х>>8/70В, а потом провели дистилляцию. Очень интересный подход.

Кажется, у нас наконец будет опенсорс уровня GPT-4o

🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8622👍8❤3😁22

12.3K views06:55

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Такое любим: обновление Google Colab с интерактивными таблицами

В Colab наконец-то добавили функцию InteractiveSheet, с помощью которой можно создавать и редактировать таблицы прямо в ноутбуке.

Идеально для анализа или просто экспорта результатов.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍98🔥29❤10🐳4😁2

9.21K views09:06

Data Secrets

1:40

This media is not supported in your browser

VIEW IN TELEGRAM

В эфире рубрика «обещания Илона Маска»

Отрывок из нового интервью:

«Новый суперкомпьютер xAI в Мемфисе был установлен всего за 19 дней и будет использоваться для обучения Grok 3. Модель ожидается к декабрю, и станет самым мощным ИИ в мире.»

😁39👍22🔥10❤4🌚4

8.29K views12:26

Data Secrets

А вот это круто: Яндекс открывает аспирантуру по искусственному интеллекту

В стиле ИТ-компании все будет практико-ориентировано. Чтобы наука и продукт жили дружно, у студентов будут одновременно руководители из вузов и самого Яндекса. А еще каждый аспирант будет получать… гранты по 800к в год. Кто там говорил про бедных студентов? 🤑

Первый набор начнет учиться этой осенью. Среди партнеров уже НИУ ВШЭ и ИТМО, и компания обещает кратно увеличить их число. Из Яндекса подключатся лиды из беспилотных авто и Yandex Cloud. Задачи будут соответствующие: придумывать способы адаптации YandexGPT, улучшать LLM, повышать безопасность автономного транспорта и другой экшен.

За 3-4 года будет даже возможность скататься на стажировки в зарубежные лабы и университеты + поучаствовать в А* конференциях.

В общем, респект 🫡

Please open Telegram to view this post

VIEW IN TELEGRAM

❤81🔥35😁12🍌2🤓2👍1

10.3K views15:04

About

Blog

Apps

Platform