Чья бы это не была грязная партия, погибли и пострадали люди. Террору нет места нигде.
Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
ТАСС
Жителей Москвы и Подмосковья попросили сдать кровь для пострадавших в "Крокус сити холле"
Сделать это можно будет 23 марта с 08:00. Читайте ТАСС в. МОСКВА, 23 марта. /ТАСС/. Жителей Москвы и Московской области просят сдать донорскую кровь для пострадавших в результате теракта в "Крокус сити холле". "После сегодняшней трагедии в "Крокусе" многим…
👍51🕊41❤9😢5👌1
Forwarded from эйай ньюз
Увидел в Threads анекдот: Bloomberg потратил ~$10 миллионов (в AWS SageMaker) на тренировку BloombergGPT (50B параметров на 700B токенов), специально для финансовых задач. Иииии.... модель всухую проиграла на этих же финансовых тасках GPT-4, которая вышла за две недели до этого.
И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).
Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого😂
@ai_newz
И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).
Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
😁33💯2
Внимание, возможны репутационные осадки в виде фрикаделек LLMок.
На прошедшей конференции EACL была статья про утечки тест сетов бенчей в LLMки. Между прочим получила приз.
Поэтому рынок LLM может сильно перевернуться, когда добавят оценку утечки данных на общепринятые бенчмарки. Многие модели потеряют репутацию, если обнаружится утечка, и многие компании начнут в скором времени переобучать свои LLM без утечек и вообще будет весело :)
На прошедшей конференции EACL была статья про утечки тест сетов бенчей в LLMки. Между прочим получила приз.
Поэтому рынок LLM может сильно перевернуться, когда добавят оценку утечки данных на общепринятые бенчмарки. Многие модели потеряют репутацию, если обнаружится утечка, и многие компании начнут в скором времени переобучать свои LLM без утечек и вообще будет весело :)
😁22❤3🤔2
Forwarded from Salute AI (Alexander Gavrilov)
5 апреля | 12:00 | онлайн и офлайн в Москве
SberDevices зовёт в гости ML-разработчиков и Data Science-специалистов на конференцию R&D команд SberDevices по развитию GigaChat, NLP, Vision и Audio.
Будем изучать LLM и CV, распознавать жесты, генерировать вокал и 3D-модели, общаться с книгами и путешествовать по VR-галерее.
Программа:
🖥 Регистрируйтесь и выберите формат:📹 Онлайн на YouTube🕒 Офлайн в Москве. Приходите к 11:00.
‼️ Важно:
Адрес места проведения пришлем 4 апреля вместе с приглашением на митап.
#конференция_GIGA_RND_DAY
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4
Яндекс выпустил целую линейку больших языковых моделей третьего поколения. YandexGPT 3 эффективнее решает сложные задачи и вообще лучше понимает контекст. Самое интересное, что смогли улучшить фактологию и надежность предоставляемой информации из генерации.
Первая нейросеть из линейки — это YandexGPT 3 Pro, которая может обрабатывать существенно больше запросов за единицу времени – чем предыдущие модели. А еще она способна представлять данные в формате JSON (JavaScript Object Notation).
Новые возможности для заказчиков: компании могут дообучать YandexGPT 3 Pro на собственных данных, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. Дообученную версию затем можно встроить в продукты через API (попробовать в демке тоже можно), при этом, стоимость использования новой нейросети снизилась почти в два раза.
Жду теперь энтузиастов, которые оценят новую версию на общепринятых публичных бенчмарках. Хотя по инфо из статьи имеется 100 бесплатных запросов в деморежиме. Но умельцы, уверен, найдутся.
Первая нейросеть из линейки — это YandexGPT 3 Pro, которая может обрабатывать существенно больше запросов за единицу времени – чем предыдущие модели. А еще она способна представлять данные в формате JSON (JavaScript Object Notation).
Новые возможности для заказчиков: компании могут дообучать YandexGPT 3 Pro на собственных данных, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. Дообученную версию затем можно встроить в продукты через API (попробовать в демке тоже можно), при этом, стоимость использования новой нейросети снизилась почти в два раза.
Жду теперь энтузиастов, которые оценят новую версию на общепринятых публичных бенчмарках. Хотя по инфо из статьи имеется 100 бесплатных запросов в деморежиме. Но умельцы, уверен, найдутся.
🔥20👎13👍3❤🔥2
Видели такое?
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
Удобно?
https://nn.labml.ai/
Тут говорят можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
Удобно?
https://nn.labml.ai/
👍31🔥8❤7
Co-co Jamba
Знаю, что уже много где было, НО: https://www.ai21.com/blog/announcing-jamba
На MOE, трансформер и мама любит мамба и Сережа тоже(с)
+ Жирный контекст на GPU (до 140k)
.....
и много кеков с Mr. President track
UPD чекп на 🤗
Знаю, что уже много где было, НО: https://www.ai21.com/blog/announcing-jamba
На MOE, трансформер и мама любит мамба и Сережа тоже(с)
+ Жирный контекст на GPU (до 140k)
.....
и много кеков с Mr. President track
UPD чекп на 🤗
AI21
Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model
Debuting the first production-grade Mamba-based model delivering best-in-class quality and performance.
👍9❤2
Dealer.AI
Примоднимся сегодня чутка. https://news.1rj.ru/str/latech/805
https://www.youtube.com/live/Vx7JQ--OBoI?si=fOrCFJLqTzng3aP_
и я там был,мед пиво пил, за CLIP вопрос задавал, чехол на ноутбук забрал.
Metric learning живее всех, два из трех докладов про sbert for RecSys и CLIP.
и я там был,
Metric learning живее всех, два из трех докладов про sbert for RecSys и CLIP.
YouTube
Lamoda Tech DS Meetup. Fashion is ML Profession
Форма обратной связи: https://forms.gle/HeJU9VWeArEQqSgX6
Lamoda Tech в соц. сетях:
Telegram-канал: https://news.1rj.ru/str/latech
Хабр: https://habr.com/ru/companies/lamoda/articles/
Lamoda Tech в соц. сетях:
Telegram-канал: https://news.1rj.ru/str/latech
Хабр: https://habr.com/ru/companies/lamoda/articles/
🔥12👍7👎1
Dealer.AI
Восстанови промт, если сможешь. Новое соревнование на kaggle: LLM Prompt Recovery | Kaggle По уже новой традиции соревок с LLM (к примеру LLM detect): - Трейна неть (ходите генерите сами) 🤨 - Тест 1400 семплов, но мы его вам не дадим, у вас докУментов…
Это шоу "восстанови prompt или умри". Продолжение.
Тут, крч, уже коллеги писали, что с Gemma вышел косяк на косяке, удивительно,что оно работает. А тут такое дело, что соревка по промптам, как раз на том же семействе и уже докатилося до дискуссий на kaggle.
А Дядя, тем временем, думает, как быть участникам, как побеждать, куда двигаться? Напомню, опорных стилей измененных промтов на руках нет. Ну только один:)
Варианты:
1. Пробинг на LB или "случайное" блуждание с LLM на perplexity, благо, что за модель известно. Брать, генерить систем промпты для подбора стиля переписывания и следить за скором на лб или за перплексией локально.
2. Более направленное движение для п.1. Уже если подумать получше, то перевернуть задачу: у нас есть стартовый промпт, переписанный промпт X и генерация от Х. Давайте подбирать словосочетания/токены в изначальном промпте и следить за perplexity(Generation/X). Тут уже важна стратегия, например, меняем на синонимы или синонимичные фразы.
И выбирать те изменения, которые минимизируют перплексию.
3) Тоже самое, что в п. 2., но учим reward модельку, оценивающую prompt+gen. Также фиксируется генерация, далее можно перебирать, как в п. 2. токены или словосочетания, но уже максимизируем reward. Сетов для reward можно отрыть кучу на hf datasets, а в качестве базовой тушки взять, естественно, Gemma из сорева и сверху на last-token эмб кинуть пару слоев или сделать LoRA тюн. Как учить reward модельки тоже нагуглите.
В случае п. 2-3, остается все еще несколько сложностей: правила замены токенов, глубина замены (те каждое слово или К из М). Но тут уже ваши фантазии и эвристики, к сожалению таков уж сорев. В казино порой шансы те же, но выигрыш крупнее (шучу).
Успехов!
UPD. Самая боль будет, если промпты переписывали НЕ с целью улучшить генерацию. Тогда ток п. 1. работает с пробингом ЛБ, плак.
Тут, крч, уже коллеги писали, что с Gemma вышел косяк на косяке, удивительно,что оно работает. А тут такое дело, что соревка по промптам, как раз на том же семействе и уже докатилося до дискуссий на kaggle.
А Дядя, тем временем, думает, как быть участникам, как побеждать, куда двигаться? Напомню, опорных стилей измененных промтов на руках нет. Ну только один:)
Варианты:
1. Пробинг на LB или "случайное" блуждание с LLM на perplexity, благо, что за модель известно. Брать, генерить систем промпты для подбора стиля переписывания и следить за скором на лб или за перплексией локально.
2. Более направленное движение для п.1. Уже если подумать получше, то перевернуть задачу: у нас есть стартовый промпт, переписанный промпт X и генерация от Х. Давайте подбирать словосочетания/токены в изначальном промпте и следить за perplexity(Generation/X). Тут уже важна стратегия, например, меняем на синонимы или синонимичные фразы.
И выбирать те изменения, которые минимизируют перплексию.
3) Тоже самое, что в п. 2., но учим reward модельку, оценивающую prompt+gen. Также фиксируется генерация, далее можно перебирать, как в п. 2. токены или словосочетания, но уже максимизируем reward. Сетов для reward можно отрыть кучу на hf datasets, а в качестве базовой тушки взять, естественно, Gemma из сорева и сверху на last-token эмб кинуть пару слоев или сделать LoRA тюн. Как учить reward модельки тоже нагуглите.
В случае п. 2-3, остается все еще несколько сложностей: правила замены токенов, глубина замены (те каждое слово или К из М). Но тут уже ваши фантазии и эвристики, к сожалению таков уж сорев. В казино порой шансы те же, но выигрыш крупнее (шучу).
Успехов!
UPD. Самая боль будет, если промпты переписывали НЕ с целью улучшить генерацию. Тогда ток п. 1. работает с пробингом ЛБ, плак.
Telegram
Love. Death. Transformers.
понимаете да?
типа 50 человек+ команда, никто не проверил что вообще с перфомансом hf версии модели.
я блять удивлен что gemeni вообще работает. JAX проклятый
багфикс блог, огромный респект ребятам из unsloth
типа 50 человек+ команда, никто не проверил что вообще с перфомансом hf версии модели.
я блять удивлен что gemeni вообще работает. JAX проклятый
багфикс блог, огромный респект ребятам из unsloth
❤5👍1
Dealer.AI
Хак дня: Как повысить число просмотров вашего профиля в LinkedIn, указав всего один язык программирования? Написать Python/c++/Java? Нет, попробуйте COBOL!
bloop.ai
bloop | Evaluating LLMs on COBOL
Explore the groundbreaking evaluation of Large Language Models (LLMs) on COBOL with bloop's latest blog post. Discover COBOLEval, the first benchmark for LLM code completions in COBOL, and learn about mAInframer-1, a series of fine-tuned models for COBOL…
😁8
Я сам когда-то увлекался размерностями, но на примере фрактальной геометрии, очень напоминает эти концепции.
Полезное чтиво 👇
Полезное чтиво 👇
Forwarded from AbstractDL
Как устроено пространство, в котором думают языковые модели?
Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.
Статья, хабр
Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.
Статья, хабр
👍22🔥8❤3👏1
LLM отправили на олимпиаду по матише. 🧑🎓
Новый сорев по NLP на kaggle. Над решать олимпиадные задачки при помощи LLM. Вопреки тренду тут и тут, train сетик имеется🤙 Да еще даже есть указание откуда он взялся, те можно наскрапать поболее датки.
Что тут можно посоветовать:
1. Юзать модель LLEMMA и идеи из статьи.
2. Обратить внимание на статьи могут ли LLM решать мат задачки, быть калькуляторами и как: раз, два, три и думаю еще найдете.
3. Обратить внимание на токенизатор в ваших LLM, порой полезны модели с single цифрой на token , те токенизация по 0,1,2...,9.
4. Работать в few shot режиме, но хитро, используя RAG систему. По принципу: обкачал этот ресурс, закэшил, сверху взял ретривер и по задаче из теста возвращаешь топК задач из кэша с условием и ответом. Далее по примеру текущей задачи кидаем в промт выгруженные похожие задачи с индекса и просим по аналогии решить текущую тестовую аля: "смотри LLM вот 1+1=2, 3+3=6, а тогда скок будет 4+5=?" Естествннно там будет пример сложнее, надеюсь, концепт поняли.
5. Пункт дополняет 4ый. Нагенерить синту из известных задач с разными параметрами и ответами, от них зависящими. Было 1+1=2 стало 3+3=6 и тп. Как? Думайте сами)
UPD.
6.Совсем забыл про MultiHop и Chain of thought) Можно разумеется юзать техники пошагового рассуждения статьи: раз, два.
+ два сета от NVIDIA спасибо @tsimboyolga
-https://huggingface.co/datasets/TIGER-Lab/MathInstruct
-https://huggingface.co/datasets/nvidia/OpenMathInstruct-1
Успехов)
Новый сорев по NLP на kaggle. Над решать олимпиадные задачки при помощи LLM. Вопреки тренду тут и тут, train сетик имеется
Что тут можно посоветовать:
1. Юзать модель LLEMMA и идеи из статьи.
2. Обратить внимание на статьи могут ли LLM решать мат задачки, быть калькуляторами и как: раз, два, три и думаю еще найдете.
3. Обратить внимание на токенизатор в ваших LLM, порой полезны модели с single цифрой на token , те токенизация по 0,1,2...,9.
4. Работать в few shot режиме, но хитро, используя RAG систему. По принципу: обкачал этот ресурс, закэшил, сверху взял ретривер и по задаче из теста возвращаешь топК задач из кэша с условием и ответом. Далее по примеру текущей задачи кидаем в промт выгруженные похожие задачи с индекса и просим по аналогии решить текущую тестовую аля: "смотри LLM вот 1+1=2, 3+3=6, а тогда скок будет 4+5=?" Естествннно там будет пример сложнее, надеюсь, концепт поняли.
5. Пункт дополняет 4ый. Нагенерить синту из известных задач с разными параметрами и ответами, от них зависящими. Было 1+1=2 стало 3+3=6 и тп. Как? Думайте сами)
UPD.
6.Совсем забыл про MultiHop и Chain of thought) Можно разумеется юзать техники пошагового рассуждения статьи: раз, два.
+ два сета от NVIDIA спасибо @tsimboyolga
-https://huggingface.co/datasets/TIGER-Lab/MathInstruct
-https://huggingface.co/datasets/nvidia/OpenMathInstruct-1
Успехов)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤4
Forwarded from что-то на DL-ском
Нашла очень приятную презентацию, которая может служить шпаргалкой к созданию мультиязычной😛 большой языковой модели из претрена в основном на одном языке
Материал не новый, но тут собрано все. В деталях и с примерами.
💛 Как расширить токенайзер модели
💛 Как дообучить так, чтобы модель перестала тупить на редких языках
💛 Как лучше инициализировать эмбединговый слой
💛 А какие данные взять
💛 Ну и кончено большое количество примеров в конце
Материал не новый, но тут собрано все. В деталях и с примерами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤3
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Богдан Булатов "Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 8 Апреля, 19.00 (по Москве)
Add to Google Calendar
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 Богдан Булатов "Deep-Q algorithm and autodidactic iteration algorithm for Cube Rube"
⌚️ Понедельник, 8 Апреля, 19.00 (по Москве)
Add to Google Calendar
Будет рассказано о применении Deep Q-algorithm и autodidactic iteration algorithm для решения задачи о нахождении короткого пути на графах Кэли (другими словами - решение Кубика Рубика).
Презентация доклада доступна по ссылке: https://docs.google.com/presentation/d/1JmvIHvAYjv1xxBcCPmiTWJ1PbFOi0XITfbv8yKGALzQ/edit?usp=sharing
Ноутбук: https://www.kaggle.com/code/bagdan/autodidactic-iteration-algorithm-for-cube-rube (апвоуты приветствуются).
Также будет дан разбор алгоритма Deep Q Network (DQN) на примере задачи по посадке лунного модуля (https://www.gymlibrary.dev/environments/box2d/lunar_lander/
см. ноутбук: https://www.kaggle.com/code/bagdan/dqn-lunar-rider
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
Google Workspace
Google Calendar - Easier Time Management, Appointments & Scheduling
Learn how Google Calendar helps you stay on top of your plans - at home, at work and everywhere in between.
🔥5❤1👍1