Derp Learning – Telegram
Derp Learning
13.2K subscribers
3.26K photos
944 videos
9 files
1.37K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
🤩25💯22🤣21😁42
Forwarded from Dev Meme / devmeme
😁262
😁25👍5💯2🤣1
😁35🤩7🫡6🤣1
Forwarded from Neural Shit
Лол, Метачка хочет запатентовать технологию цифрового воскрешения.

Суть патента проста: нейронка жрёт для обучения все твои посты, переписки, лайки и комменты, чтобы создать твою полную цифровую копию.

В документе прямым текстом прописаны два сценария использования этого цифрового голема:

1) Когда ты просто решил отдохнуть от соцсетей (ну да, конечно).
2) Когда ты умер)

То есть, буквально сюжет той самой серии из "Черного зеркала". Ты уже давно почил, а твой аккаунт продолжает сраться в комментах, лайкать мемы и отвечать друзьям "лол, жиза".

Цукерберг решил, что смерть это не повод терять активную аудиторию. Теперь даже на том свете придется генерировать контент.
🤡9😁5🗿3🤬1
This media is not supported in your browser
VIEW IN TELEGRAM
Image Generation with a Sphere Encoder

Китайцы упоролись и запилили круглые тензоры сферический латент.

Мапят исходные картинки на сферу, решая проблему "углов" - отсутствия значения латента, которые не мапятся обратно в исходное распределение.

Таким образом, любое значение латента можно превратить в картинку из трейн сета.

project
paper
code - soon
🤩16🔥7😁73🌚3
В предыдущем посте был webm видос, пришлось запилить сервис по конвертации webp -> PNG, webm -> MP4

Все локально в браузере.

Webplease
1🔥18
🤩18😁12👍3
🤩18😁13
🔬 ML PAPERS (arXiv, Feb 19)

📄 Towards a Science of AI Agent Reliability — 12 metrics for agent eval beyond success rate
arxiv.org/abs/2602.16666

📄 Agent Skill Framework — Can SLMs benefit from agent skills (Copilot, LangChain style)? On-prem focus
arxiv.org/abs/2602.16653

📄 Framework of Thoughts (FoT) — Unifies CoT/ToT/GoT with dynamic reasoning + auto-tuning
arxiv.org/abs/2602.16512

📄 Calibrate-Then-Act — LLM agents that reason about cost vs uncertainty tradeoffs
arxiv.org/abs/2602.16699

📄 MMA: Multimodal Memory Agent — Reliability scoring for retrieved memories (decay, credibility, conflict)
arxiv.org/abs/2602.16493

📄 Self-Supervised Semantic Bridge — Diffusion bridge for unpaired img2img translation + text-guided editing
arxiv.org/abs/2602.16664

📄 TeCoNeRV — Neural video compression with 20× memory reduction, +5.35dB PSNR at 720p
arxiv.org/abs/2602.16711

📄 ReMoRa — Long-video MLLM using compressed representations (sparse keyframes + motion)
arxiv.org/abs/2602.16412
4👍1
Forwarded from Neural Shit
🔥23😁17😢71👍1
Forwarded from Осцилляции WaveCut (WaveCut)
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.

Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.

Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).

Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.

Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.

У меня голова идет кругом от мыслей к чему это может привести.


Ссылки:
Анонс
Демо (скорость реально впечатляет)
3410👍3
😁63😢11💯5🤩2
Forwarded from Stolen memes (al)
😁21🤣5🫡4
🤩33😁116🔥2💯2
😁28😢7😱4🤣2🤡1👀1
🫡18👀61🗿1
Claude Code - теперь сам себе девопс

Anthropic апдейтнули Claude Code и теперь он умеет буквально все кроме как выпить 6 пива до обеда (пока что).

Свежезавезенное:
- сам поднимает dev-серверы и показывает запущенное приложение прямо в интерфейсе
- находит баги и фиксит их без твоего участия
- code review прямо в diff view с комментами
- мониторит PR-ы на гитхабе в фоне, фиксит CI ошибки и мержит сам когда тесты зеленые
- сессии синхронятся между CLI, десктопом, вебом и мобилой

По сути теперь можно открыть PR, пойти пить кофе, а Claude сам разберется с комментами кожаных в ревью, починит pipeline и замержит. Ты вернешься - а там уже прод лежит все в main.

В целом, Claude code мне нравится больше в тех областях, где чтение кода мне не поможет 😁 привет реакт, но по обвязке он раньше сильно проигрывал курсору. Теперь - нет.


Мы в очередной раз обречены.

Подробнее

@derplearning
🔥18😁106😢1
⚡️ DAILY TECH DIGEST — Sun, Feb 22, 2026

🔬 ML PAPERS (Trending)

🔥 BitDance: Scaling Autoregressive Image Gen with Binary Tokens — AR model using binary diffusion head instead of codebook indices. FID 1.24 on ImageNet, 30x speedup for 1024px gen, 5.4x fewer params than SOTA
📄 https://arxiv.org/abs/2602.14041
💻 https://github.com/shallowdream204/BitDance

🔥 Qwen3-TTS — Multilingual TTS with voice cloning and controllable speech gen. Dual-track LM architecture with specialized speech tokenizers for streaming
📄 https://arxiv.org/abs/2601.15621

🎵 HeartMuLa — Open-source music foundation models. LLM-based song gen with lyrics, style control per section. Claims Suno-level quality with academic-scale resources. Scales to 7B params
📄 https://arxiv.org/abs/2601.10547

🎨 Art2Mus — Direct artwork-to-music generation via visual conditioning. 105K artwork-music pairs dataset. No image-to-text middleman
📄 https://arxiv.org/abs/2602.17599

🖼 RetouchIQ — MLLM agents for instruction-based image retouching with RL + generalist reward model
📄 https://arxiv.org/abs/2602.17558

👗 CORAL — DiT-based virtual try-on with correspondence alignment. Explicit person-garment query-key matching
📄 https://arxiv.org/abs/2602.17636

🎥 GraphThinker — RL finetuning for video reasoning with event graph scene graphs. Reduces hallucinations
📄 https://arxiv.org/abs/2602.17555

🤖 GLM-5: Vibe Coding → Agentic Engineering — Zhipu's new foundation model. DSA for cost reduction, async RL alignment, MIT license
📄 https://arxiv.org/abs/2602.15763
🔥21