Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
Погнали с нами в летнюю школу от НИУ ВШЭ? Представьте: вы, белые ночи, Питер, лекции о машинном обучении от топового вуза. Вы прошли отбор и получили доступ к пяти крутым курсам: - Введение в NLP - Advanced NLP - Computer vision - Speech Recognition -…
Мы тут познакомились с преподавателями летней школы ISSCAI от НИУ ВШЭ, в которой примем участие с 1 по 7 июля, и были приятно шокированы

Встречали когда-нибудь человека, который успел поработать на ведущих ресерч-позициях вообще во всех крупных российских компаниях? Яндекс, Тинькофф, ВК, Сбер, а плюсом к этому куча публикаций, конференций и опыта в преподавании – это мы не про выдуманого супермена, а про вполне реального Ивана Карпухина. В ISSCAI он будет преподавать компьютерное зрение на практике. А если сильно попросить, расскажет, как разрабатывал речевые технологии для Яндекс.Алисы.

Но это не все! Вы не поверите, кто будет читать курс про NLP. Для этого ВШЭ пригласили известного индийского ученого профессора Маусама. Он входит в топ-70 самых влиятельных людей в ИИ. Его опыт в преподавании и ресерче не нуждается в представлении: ведущие университеты мира, более 100 статей, а его книги – это вообще классика.

Одним словом – восторг. Кстати, дедлайн по заявкам ребята продлили до 28 мая. Вы, белые ночи, Питер, лекции о машинном обучении от уникальных спикеров. Не упустите возможность и зарегистрируйтесь сейчас: https://spb.hse.ru/isscai/
🤯16👍11🔥10🤔11
Длины контекстов у современных LLM становятся все больше. Gemini-1.5 Pro недавно показала рекорд – 2M токенов. Но размер – не главное, и вот почему

Что такое длина контекста? Во время пре-трейна LLMке показывают последовательности определенной длины. Эта длина и становится длиной контекста. Для последовательностей длиннее модель может вести себя непредсказуемо.

У Gemini-1.5 Pro контекст равен 2M токенов, у Claude-3 – 1М, а у GPT-4, обратите внимание, всего 128k. При этом Google на своем рекорде не останавливается и обещает достичь бесконечного контекста. Но... будет ли это полезно?

На самом деле, есть множество исследований, которые показывают, что больший контекст != лучшие результаты:

➡️Здесь продемонтрировано, что добавление нерелевантного "лишнего" контекста резко ухудшает способности LLM
➡️Тут доказали, что LLM уделяют наибольшее внимание началу и концу контекста, а середина "теряется"
➡️А в этой работе показано, что оптимальная длина контекста вообще не означает максимально возможную

Да, пока что прирост контекста дает прирост качества, но это не означает, что при дальнейшем увеличении метрики не выйдут на плато или не начнется их стагнация. Вот так 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4212👍95🌭211
😳 16 июня выйдет NumPy 2.0

В нем появятся типы данных string, будут ускорены многие функции и улучшено API. Это первое большое обновление библиотеки с 2006 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
213👍332011🤯93
Новый китайский GPT отвечает в соответствии с политикой партии

С названием тоже все хорошо: Chat Xi PT. Обучена модель на трудах Си Цзиньпиня – действуйющего генерального секретаря ЦК КНР. Чат-бот умеет генерировать текст (очевидно в соответсвии с социалистическими ценностями), переводить с китайского на английский и работает локально на устройстве пользователя.
16216🔥7👍5🗿1
Вашему вниманию: основные виды статей по машинному обучению
😁14619🔥1674👍21🏆1😎1
Верим?
118😁2816🍌6😈5👍1
Data Secrets
Верим?
This media is not supported in your browser
VIEW IN TELEGRAM
Илон Маск в 2019: до 2020 наши роботы будут в продаже
Тем временем Optimus в 2024: *перекладывает батареечки, и то не сам*

Илон Маск в 2020: в течение года Tesla будет полностью беспилотной
Tesla в 2024: *может только припарковаться в стену*

Илон Маск в 2024: AGI появится до 2025
Тем временем как на самом деле работает Grok:
81😁2917🤨3🫡311👍1🔥1🐳1
🚀Вышла YOLOv.10

Юхууу, юбилей! И, в отличие от Форсажа, YOLO все-таки становится чуть лучше с каждым разом.

Сейчас исследователи поработали над оптимизацией, и новая версия содержит на 25% меньше параметров и сокращает задержку на 46%, при этом выбивает тот же скор, что и предыдущая YOLO9.

Теперь самое то для использования в браузере с Transformers.js.

Статья | Код
Please open Telegram to view this post
VIEW IN TELEGRAM
54🔥168👾32
Там Лекун опять выдает базу. Внезапно он решил высказать свое далеко не лестное мнение об OpenAI (он назвал компанию ClosedAI), их отношению к акционерам и к безопасности.

«Приходите работать в ClosedAI.
Поскольку AGI не за горами, ваши акции будут стоить 42 секстиллиона долларов. Однако поскольку мы частная компания, вы не сможете продать свои акции. Кроме того, мы можем фактически запретить вам их продавать.

И конечно вы не можете сказать ни слова о том, над чем мы работаем. Если вы это сделаете, мы уволим вас в течение часа, заберем ваши акции, и вы нам ничего не сделаете.

И, знаете, мы ооочень далеко впереди всех остальных, а ИИ ооочень опасен в руках немытых масс. Все будет безопасно, только если *мы* это сделаем.»


Прожарено.
11038😁18🔥6👍41🤓1👨‍💻1🦄1
Data Secrets
Ты должен был бороться со злом, а не примкнуть к нему! Пользователи Интернетов после вчерашней новости о сотрудничестве Stack Overflow с OpenAI начали припоминать, что раньше политика форума в отношении AI была другой. В частности, в 2022 году они полностью…
Кстати, недавно вышло интересное исследование на тему того, постарел ли Stack Overflow в эру ChatGPT.

В итоге 52% ответов ChatGPT из 517 вопросов со Stack Overflow о программировании оказались неверны. 77% ответов более многословны, чем человеческие ответы, а 78% ответов страдают от различной степени несоответствия человеческим ответам.
9923🤓8👍3🔥1
А вы знали, что у Mistral не так давно появился собственный cookbook?

Там лежат ноутбуки с интересными кейсами использования моделей Mistral от самой команды и контрибьюторов. Особенно полезно под ресерч и учебу, но для бытового использования кое-что тоже подойдет. Листинг самого интересного:

⚪️ RAG from scratch с использованием Mistral AI API
⚪️ Извлечение эмбеддингов и их использование для классификации и кластеризации
⚪️ text-to-sql с файнтюнингом и RAG
⚪️ RAG из статей на ArXiv (вот это точно очень полезно для жизни)
⚪️ Pandas на естественном языке

Кстати, прямо сейчас у Mistral проходит хакатон в Париже. Все-таки у опенсорса есть свои крутые преимущества.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥10733
print(“accuracy = 0.99”)
🔥132😁481611👍65🤗2👾2🤯1🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда нет денег на GPU, на помощь приходит Minecraft. Гений всего за 2 недели написал систему распознавания цифр, которую игрок пытается нарисовать.

YOLO тихо курит в сторонке.
201🔥34🤯206👍51
XOR
Там небезызвестный в ИИ кругах Ян Лекун выдал базу. Да-да, это тот самый перец, фото которого красовалось на башне Бурдж-Халифа со ставкой от властей ОАЭ на привлечение специалиста к себе. Так вот база: Язык имеет низкую пропускную способность: менее 12…
Сознателен ли искусственный интеллект?

Когда-то не так давно Ян Лекун высказывался о том, что AI никак не сможет стать AGI без обучения на прикосновениях и визуалах. Мы писали об этом тут. Так вот, эти рассуждения подверглись критике, некоторые в сообществе даже приводят аргументы в пользу того, что сознание - это вообще выдумка (см. карточку №4).

Давайте вместе разложим по полочкам: что такое AGI, может ли ИИ быть сознательным, и почему нет.

Источник: статья проректора Стэнфордского университета Джона Этчеменди
45🔥10👍7😐5🤨33👏1🌭1💯1🎃1
Илон Маск VS Ян Лекун

После прожарки OpenAI Лекун не остановился, и решил оторваться еще и на xAI.

Под постом, где Маск зовет специалистов на работу, он написал, что тот отвратительный босс, который генерирует бредовые теории заговора, ставит нереалистичные сроки и давит на сотрудников.

После этого Маск поставил под сомнение деятельность Лекуна, назвав ее наукой в кавычках. Он заявил, что 80 статей, которые ученый написал за два года – это «ничего», и Яну нужно «стараться лучше».

Как думаете, бой в клетке, как с Цукербергом, будет?
10075😁3821👌1