Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from котики
cuda, ты выполнила задание на 5 с плюсом !
ты меня зажгла.. появилось оч сильное и реальное желание войти в тебя.. нет.. именно засадить тебе хорошенько.

чтобы админ котиков и дальше был доволен, жду в ближайшее время всех описанных и перечисленных тобою тем. ну кроме GPU архитектур..)) хотя... ;)

кстати насчет гонки данных... синхронизировать потоки внутри kernel'а через __syncthreads() отлично, а я еще люблю когда они как бы случайно синхронизируются через warp операции типа __shfl() или __syncwarp()...
😁10663🤡11💔5👍2🤮1
Forwarded from Борис опять
😁115👍4😢3
Love. Death. Transformers.
а и в прошлые замеры насчитали что flash с ризонингом лучше всех
Увидел смешное продолжение треда про reasoning модели.

Тут другие исследователи намерили что на шахматах o1p жульничает чаще deepseek, но o3, o1, sonnet 3.5, 4o Не жульничают!


Blog

Paper
🍓8🤡2👍1
Забавный пост из 2022, хорошо состарился. В тот момент только вышла instruct gpt, во внутреннем ресерче была 3.5 и вероятно план на 4.

Теперь вспомним что мы в 2025, знаем все релизы между 22-25, кто вам из дня сегодняшнего кажется более верным?

Человек не верящий в LLM и AGI, но лидящий одну из богатейших ресерч центров.

Или илья суцкевер
1👍4827🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.
Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят

https://jackhopkins.github.io/factorio-learning-environment/

Factorio Learning Environment
https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf

https://github.com/JackHopkins/factorio-learning-environment

2 режима

Lab-play где 24 задачи и фиксированными ресурсами
Open-play на процедурной карте нужно построить самый большой завод

Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/

Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct
Sonnet из протестированных лучше всех себя показывает

Выводы авторов:
1. Навыки в кодинге имеют значение
Модели с более высокими способностями программирования (Claude 3.5-Sonnet, GPT-4o) достигли более высоких Production Scores и выполнили больше лабораторных задач. Claude превзошёл остальных, заработав PS равный 293 206 и достигнув 28 вех, продвинувшись за рамки добычи ресурсов на ранних этапах.

2. Инвестиции в технологии стимулируют рост
Только Claude стабильно инвестировал ресурсы в исследования новых технологий, несмотря на их важность для долгосрочного прогресса. После внедрения электрических буровых установок на шаге 3 000, PS Claude вырос на 50% (с 200 000 до 300 000), что демонстрирует ценность стратегических инвестиций.

3. Планирование является ключевым фактором в режиме открытой игры
В режиме открытой игры агенты часто преследуют краткосрочные цели — например, Gemini-2.0 вручную изготовил более 300 деревянных сундуков за 100 шагов — вместо того чтобы инвестировать в исследования или масштабировать существующее производство. Это выявляет существенное расхождение: хотя Gemini-2 и Deepseek демонстрируют возможности автоматизации на ранних этапах в структурированном лабораторном режиме, они редко пытаются создать согласованную фабричную систему во время открытых исследований, что приводит к ухудшению общей производительности.

4. Способности к пространственному мышление пока недостаточны
Все модели продемонстрировали ограничения в пространственном планировании при создании много-секционных фабрик. Распространённые ошибки включали размещение объектов слишком близко друг к другу, недостаточное выделение пространства для соединений или неправильное расположение инсертеров — проблемы, которые существенно влияют на производительность в сложных заданиях, требующих координации нескольких производственных линий.

5. Сейчас ллмкам сложно исправлять ошибки
Модели часто оказываются в повторяющихся циклах ошибок, повторяя одни и те же неверные операции вместо того чтобы искать альтернативные решения. Например, GPT-4o неверно повторял один и тот же метод API на протяжении 78 последовательных шагов, несмотря на идентичные сообщения об ошибке.

6. Стили программирования существенно различаются
Модели демонстрировали различные подходы к программированию: Claude предпочитал стиль REPL с большим количеством операторов вывода (43,3% строк кода), но с малым числом утверждений (2,0%), в то время как GPT-4o использовал оборонительный стиль с большим числом проверок валидации (12,8% утверждений) и меньшим количеством операторов вывода (10,3%).


Это просто бенч и тут просто потестили текущие ллмы. Результатам не сильно удивился.
Ждем пока специально пообучают ллмки, RL LLM накинут.


PS собираемся и собираем все крутое по нейронкам здесь: https://news.1rj.ru/str/researchim
👍53🔥21🤡4❤‍🔥2😨2
ждем gemma3, llama4, qwen3 ваши ставки по перфу?
🤔40👍6🌭5🍌53
Love. Death. Transformers.
ждем gemma3, llama4, qwen3 ваши ставки по перфу?
1,4,12,27B с поддержкой картинок, 140 языков

На lmsys 27b между v3 и r1

С точки зрения арены это локальный sonnet, но по вайбу скорее супер локальный v3/flash

Hf
Tech report
❤‍🔥58👏16👍84🔥3
Все телеграмм каналы после любого мажорного релиза:
😁135👍8
да где блин эта ваша вайбовость в 4.5??
😁132188🤔5🗿3❤‍🔥2💩1
Forwarded from Denis Sexy IT 🤖
Новый Gemini Flash 2.0 теперь умеет редактировать картинки текстом – видимо OpenAI правда эту же фичу скоро докатит

Я поигрался и такие выводы: пока она галлюцинирует и качество картинок на выходе не очень, но это временно и верное направление исследований – не очень понимаю что будет делать Adobe с фотошопом через пару лет 😮

Поиграться можно тут выбрав Gemini 2.0 Flash experimental (это бесплатно)

Оно умеет:
– реставрировать фото (немного)
– колоризировать (пока плохо)
– копировать текстуры на объекты
– оно пока не умеет переводить картинки, и часто само не знает с чем оно работает – с текстом или картинкой, часто путается
– увеличивать картинки оно пока не может нормально
– оно умеет продолжать последовательность картинок и даже сохранять внешность персонажа
– Оно умеет неплохо редактировать общий муд сцены

В общем, очень клевое направление – Google AI молодцы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45
разница поколений, первая - это imagen3, имхо лучшая t2i на данный момент, вторая - sdxl которую я запустил на айфоне
🔥60👍5💩11