Не айтишное, но тоже интересное
Сегодня ко мне пришла ещё одна любопытная посылочка, на этот раз я впервые в жизни заказал футболку с принтом музыкального исполнителя (возможно вам известен такой композитор DnB как Venjent).
А сподвиг меня на это мой хороший знакомый, он опубликовал сторис в телеграм с рекламой своего магазина и фотографией этой футболки, в общем отказаться было невозможно.
Сегодня ко мне пришла ещё одна любопытная посылочка, на этот раз я впервые в жизни заказал футболку с принтом музыкального исполнителя (возможно вам известен такой композитор DnB как Venjent).
А сподвиг меня на это мой хороший знакомый, он опубликовал сторис в телеграм с рекламой своего магазина и фотографией этой футболки, в общем отказаться было невозможно.
🔥10
⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.
Главные изменения:
• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.
Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.
⚡️ Подробности — сегодня в 20:00 по МСК.
PS. Поздравляю с 1м апреля!
Главные изменения:
• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.
Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.
⚡️ Подробности — сегодня в 20:00 по МСК.
1😁12❤10🤡3🕊2
Решил на днях увеличить количество доступной постоянной памяти для локальных моделей на gpu01.
У меня как-раз был незадействованный nvme на 512гб, только вот без адаптера в сервер его не поставить, так что пару дней сидел выбирал адаптер, и тут вспомнил, что у меня уже есть такой на антресолях.
Полез, достал, собрал, пойду поставлю.
#server
У меня как-раз был незадействованный nvme на 512гб, только вот без адаптера в сервер его не поставить, так что пару дней сидел выбирал адаптер, и тут вспомнил, что у меня уже есть такой на антресолях.
Полез, достал, собрал, пойду поставлю.
#server
1🔥17🆒3
Forwarded from Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: новые мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
🟡 Model Card
🟡 Веса
🟡 Релиз
@ai_machinelearning_big_data
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Изучил отчёт тестирования llama 4 и сравнил с llama 3.3.
Основной упор в тестах llama 4 сделан в сторону работы с изображениям и есть гипотеза, что авторы в принципе не проводили тесты работы с текстом, либо провели и они плохие, поэтому в отчёте их не показали.
Ещё забавно, что модель Behemoth нельзя скачать даже на huggingface, так что на результаты тестов данной модели я бы пока смотрел через призму поэзии.
Основной упор в тестах llama 4 сделан в сторону работы с изображениям и есть гипотеза, что авторы в принципе не проводили тесты работы с текстом, либо провели и они плохие, поэтому в отчёте их не показали.
Ещё забавно, что модель Behemoth нельзя скачать даже на huggingface, так что на результаты тестов данной модели я бы пока смотрел через призму поэзии.
👍2
RAG это call, теперь официально
При контексте 10M токенов есть мнение, что RAG(в классическом смысле: ретривер из векторной базы и ллм) в скором времени станет очень специализированной технологией для узкого спектра задач.
А учитывая тенденцию на постоянный рост максимального контекста вероятно и вовсе исчезнет из повестки.
При контексте 10M токенов есть мнение, что RAG
А учитывая тенденцию на постоянный рост максимального контекста вероятно и вовсе исчезнет из повестки.
🤔8🔥1
Поставил плашку с NVME в материнку (зеленая лампочка справа снизу) и между делом докинул пару вентиляторов корпусных на 120мм, через реобас подтюнил скорость вращения чтобы не шумело и теперь полезу ставить эту коробку на антресоль.
А на следующей неделе запущу на нем один публичный проект, о чем отдельно сообщу.
#server
А на следующей неделе запущу на нем один публичный проект, о чем отдельно сообщу.
#server
2🔥26🍾2
Запустить обучение Nvidia Canary 180M Flash на моей RTX 4090 было тем ещё приключением.
Причина: посредственная документация проекта NeMo, через который реализованы скрипты обучения.
Вывод: пишите документацию, будьте профессионалами.
Причина: посредственная документация проекта NeMo, через который реализованы скрипты обучения.
Вывод: пишите документацию, будьте профессионалами.
🔥4💯2
Прослушал курс про LangGraph от создателей LangChain
Недавно завершил обучение по курсу "Introduction to LangGraph" от команды разработчиков LangChain. Это отличный ресурс для тех, кто хочет продавать свои флоу под видом модных агентских систем, но пока ещё не знает как их делать.
В курсе подробно рассматриваются следующие темы:
- Построение сложных структур с использованием множества инструментов.
- Реализация операций выбора для передачи данных.
- Работа с короткосрочной и долгосрочной памятью.
- Интеракция с пользователем.
Курс рассчитан на 6 часов, но если проходить его, как я, по часу в день, то можно управиться за неделю.
Недавно завершил обучение по курсу "Introduction to LangGraph" от команды разработчиков LangChain. Это отличный ресурс для тех, кто хочет продавать свои флоу под видом модных агентских систем, но пока ещё не знает как их делать.
В курсе подробно рассматриваются следующие темы:
- Построение сложных структур с использованием множества инструментов.
- Реализация операций выбора для передачи данных.
- Работа с короткосрочной и долгосрочной памятью.
- Интеракция с пользователем.
Курс рассчитан на 6 часов, но если проходить его, как я, по часу в день, то можно управиться за неделю.
LangChain Academy
Foundation: Introduction to LangGraph - Python
Learn the basics of LangGraph - our framework for building agentic and multi-agent applications. Separate from the LangChain package, LangGraph helps developers add better precision and control into agentic workflows.
🔥6👍4❤2👎1🍌1
Про репозитории Nvidia CUDA
Не прошло и полгода, как принципиальная компания Nvidia, тихо и без лишнего шума, сняла блокировку с российских IP-адресов, поэтому теперь снова можно спокойно качать CUDA драйверы напрямую из репозиториев Nvidia.
Но я - калач тёртый, так что на всякий случай своё зеркало https://mirror.rpa.icu/ оставлю, просто отключу специальные методы обхода указанных ограничений, за ненадобностью.
Не прошло и полгода, как принципиальная компания Nvidia, тихо и без лишнего шума, сняла блокировку с российских IP-адресов, поэтому теперь снова можно спокойно качать CUDA драйверы напрямую из репозиториев Nvidia.
Но я - калач тёртый, так что на всякий случай своё зеркало https://mirror.rpa.icu/ оставлю, просто отключу специальные методы обхода указанных ограничений, за ненадобностью.
Telegram
Pavel Zloi
Не успел начаться новый год, как компания Nvidia решила порадовать ограничением доступа к репозиториям с CUDA.
Ошб:15 https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64 InRelease
403 Forbidden [IP: 184.51.88.149 443
Не скажу, что…
Ошб:15 https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64 InRelease
403 Forbidden [IP: 184.51.88.149 443
Не скажу, что…
👍19
Мой публичный API-сервер для распознавания речи
Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu
В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR), используя модель Whisper Large V3 Turbo, запущенную через docker-whisper-server и квантованную до
Система распределяет нагрузку по трём видеокартам: двум Intel Arc A770 и одной NVIDIA RTX 3050, обеспечивая высокую производительность и точность распознавания.
🔧 Как использовать API
Вы можете бесплатно использовать данный API с любым клиентом OpenAI, например, через Python-библиотеку openai.
Для работы с сервером необходимо указать адрес сервера и токен:
📄 Пример запроса с использованием `curl`
Замените
У сервера есть ограничение на максимальный размер файла равный 50Мб.
🐍 Пример использования на Python
Пример скрипта на Python для взаимодействия с API доступен по ссылке: openai-asr.py. Скрипт позволяет передавать аудиофайл, указывать формат ответа (text, json, srt, verbose_json), модель и язык.
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
#rpa
Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu
В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR), используя модель Whisper Large V3 Turbo, запущенную через docker-whisper-server и квантованную до
q4_0. Система распределяет нагрузку по трём видеокартам: двум Intel Arc A770 и одной NVIDIA RTX 3050, обеспечивая высокую производительность и точность распознавания.
🔧 Как использовать API
Вы можете бесплатно использовать данный API с любым клиентом OpenAI, например, через Python-библиотеку openai.
Для работы с сервером необходимо указать адрес сервера и токен:
OPENAI_BASE_URL=https://api.rpa.icu
OPENAI_API_KEY=https://news.1rj.ru/str/evilfreelancer
📄 Пример запроса с использованием `curl`
curl https://api.rpa.icu/audio/trannoscriptions \
-H "Authorization: Bearer https://news.1rj.ru/str/evilfreelancer" \
-F file=@your_audio_file.mp3 \
-F model=large-v3-turbo \
-F language=ru
Замените
your_audio_file.mp3 на путь к вашему аудиофайлу, а в параметре language можно указать язык аудио (например, ru для русского, en для английского и т.д.), если ничего не указать, то язык будет определён автоматически.У сервера есть ограничение на максимальный размер файла равный 50Мб.
🐍 Пример использования на Python
Пример скрипта на Python для взаимодействия с API доступен по ссылке: openai-asr.py. Скрипт позволяет передавать аудиофайл, указывать формат ответа (text, json, srt, verbose_json), модель и язык.
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
#rpa
10🔥30👍9❤1
Pavel Zloi
Мой публичный API-сервер для распознавания речи Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR)…
Добавил документацию в формате OpenAPI/Swagger и простенький UI.
Смотреть тут: https://api.rpa.icu/docs/
#rpa
Смотреть тут: https://api.rpa.icu/docs/
#rpa
52👍12❤2
Очень интересную фишечку обнаружил в Google Таблицах, оказывается можно редактировать/анализировать таблицу общаясь в формате чатика с Gemini интегрированную прямо в редактор.
Но что-то не могу разобраться как это себе настроить, удалось ли кому попробовать эту штуку и если да, то что надо для этого сделать?
Но что-то не могу разобраться как это себе настроить, удалось ли кому попробовать эту штуку и если да, то что надо для этого сделать?
Google
Работа с Gemini в Google Таблицах (Workspace Labs) - Cправка - Редакторы Google Документов
С помощью Gemini в Google Таблицах вы можете: создавать таблицы; создавать формулы; анализировать данные и получать статистику; создавать диаграммы и графики; получать краткий пересказ сод
Посмотрел посты блогеров которые по инерции всё ещё следят за анонсами новых продуктов от OpenAI.
Вот краткий пересказ:
Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещёвкуснее умнее.
Они доступны только по API, так что вкусить их смогут только самые упрямые.
На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.
Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.
Вот краткий пересказ:
Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещё
Они доступны только по API, так что вкусить их смогут только самые упрямые.
На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.
Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.
21👍10❤3
Forwarded from Хабр / ML & AI
Помощник читателя: визуализируем сюжет
Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:
- граф связей между героями;
- хронологию событий;
- карту мест действия. Читать далее
#python #machine_learning #artificial_intelligence #natural_language_processing #литература | @habr_ai
Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:
- граф связей между героями;
- хронологию событий;
- карту мест действия. Читать далее
#python #machine_learning #artificial_intelligence #natural_language_processing #литература | @habr_ai
Хабр
Помощник читателя: визуализируем сюжет
В текущих кодогенеративных реалиях создать что-то новое с нуля до уровня худо-бедной демонстрации стало предательски просто. Только успевай доходчиво формулировать свои хотелки, да вовремя давать по...
👍12❤4
Fish Speech API
Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.
Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио.
Работает через REST, всё максимально похоже на формат OpenAI
✅ Что умеет:
- Генерация речи на базе модели
- Стилизация речи под голос из аудио
- Кастомные параметры:
- Работает в докере или вручную через Python 3.12
🛠 Быстрый старт:
Пример запроса:
🎧 Хотите "подменить" голос? Просто добавьте
🔗 Исходники тут: https://github.com/EvilFreelancer/docker-fish-speech-server
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.
Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио.
Работает через REST, всё максимально похоже на формат OpenAI
/v1/audio/speech, так что можно просто подменить endpoint и не менять клиент.✅ Что умеет:
- Генерация речи на базе модели
fish-speech-1.5- Стилизация речи под голос из аудио
- Кастомные параметры:
top_p, temperature, max_new_tokens и др.- Работает в докере или вручную через Python 3.12
Работает только на Nvidia.
🛠 Быстрый старт:
git clone https://github.com/EvilFreelancer/docker-fish-speech-server
cd fish-speech-api
cp docker-compose.dist.yml docker-compose.yml
docker compose up -d
Пример запроса:
curl http://localhost:8000/audio/speech \
-X POST \
-F model="fish-speech-1.5" \
-F input="Hello, this is a test of Fish Speech API" \
--output "speech.wav"
🎧 Хотите "подменить" голос? Просто добавьте
reference_audio.🔗 Исходники тут: https://github.com/EvilFreelancer/docker-fish-speech-server
Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
5❤9👍6