Forwarded from e/acc
Сегодня твиттер взорвался. Экс-сотрудник OpenAI из команды Superalignment опубликовал 165-страничный документ о будущем ИИ.
Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ.
- AGI к 2027 году более чем вероятен.
- После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
- AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
- сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
- мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
- NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ
- к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня
- к 2026 году выручка одной из big tech компаний от ИИ превысит $100B
- это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д
Завтра продолжу со второй частью
Если вам лень читать, то можете послушать вышедший сегодня 4-часовой подкаст о том же самом: https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ.
- AGI к 2027 году более чем вероятен.
- После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
- AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
- сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
- мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
- NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ
- к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня
- к 2026 году выручка одной из big tech компаний от ИИ превысит $100B
- это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д
Завтра продолжу со второй частью
Если вам лень читать, то можете послушать вышедший сегодня 4-часовой подкаст о том же самом: https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
👍7💊1
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ
Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.
Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.
Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.
Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)
Сам пейпер тут:
https://arxiv.org/abs/2404.18739
Межвидовая коммуникация и АИ
Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.
Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.
Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.
Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)
Сам пейпер тут:
https://arxiv.org/abs/2404.18739
arXiv.org
Towards Dog Bark Decoding: Leveraging Human Speech Processing for...
Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the...
🔥6
Forwarded from Нейронавт | Нейросети в творчестве
Media is too big
VIEW IN TELEGRAM
Kling
Китайский конкурент Sora - генератор видео по тексту
Хронометраж до 2 минут в Full HD и 30 fps.
До Sora недотягивает, но выглядит получше всего остального что я видел.
- имитирует физику реального мира
- умеет сочетать разные концепции
- кинематографичность
- умеет в разное соотношение сторон
- бонусом умеет делать из картинки тиктоковые танцы. Если я ничего не путаю. Своими глазами вижу это в самом низу сайта
Говорят, доступ дадут обычным землянам
#humananimation #text2video #image2video
Китайский конкурент Sora - генератор видео по тексту
Хронометраж до 2 минут в Full HD и 30 fps.
До Sora недотягивает, но выглядит получше всего остального что я видел.
- имитирует физику реального мира
- умеет сочетать разные концепции
- кинематографичность
- умеет в разное соотношение сторон
- бонусом умеет делать из картинки тиктоковые танцы. Если я ничего не путаю. Своими глазами вижу это в самом низу сайта
Говорят, доступ дадут обычным землянам
#humananimation #text2video #image2video
🤯4👍2
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Сравнение генераций sora от OpenAI и китайского kling. Местами kling вообще не уступает sora, как по мне.
1)Видео от первого лица, на котором муравей перемещается по муравейнику.
2)Исторические кадры Калифорнии во время золотой лихорадки.
3)Молодой человек сидит на облаке в небе и читает книгу
4)В анимационной сцене крупным планом показан невысокий пушистый монстр, стоящий на коленях рядом с тающей красной свечой.
5)Фотореалистичное видео крупным планом, на котором два пиратских корабля сражаются друг с другом, плавая в чашке кофе
6)Бело-оранжевый полосатый бродячий кот мечется по переулку под проливным дождем в поисках убежища.
7)Гамбургер
1)Видео от первого лица, на котором муравей перемещается по муравейнику.
2)Исторические кадры Калифорнии во время золотой лихорадки.
3)Молодой человек сидит на облаке в небе и читает книгу
4)В анимационной сцене крупным планом показан невысокий пушистый монстр, стоящий на коленях рядом с тающей красной свечой.
5)Фотореалистичное видео крупным планом, на котором два пиратских корабля сражаются друг с другом, плавая в чашке кофе
6)Бело-оранжевый полосатый бродячий кот мечется по переулку под проливным дождем в поисках убежища.
7)Гамбургер
👍9🔥2
Forwarded from эйай ньюз
Ну что Тим Кук и его команда провели свой wwdc. Новостей много – интересно пощупать на деле. Очень надеюсь, что Siri наконец перестанет быть бесполезной звонилкой, которой народ обычно пользуется за рулём.
Выбрал для вас самое интересное:
Выкатили так называемую систему личного интеллекта Apple Intelligence (AI), которая будет глубоко интегрирована в iOS 18, iPadOS 18 и macOS Sequoia. Да, название звонкое придумали.
Новые чипы Apple Silicon A17 Pro и M-серии будут оптимизированы для работы с языковыми моделями и моделями генерации изображений. Вот что они смогут делать ЛОКАЛЬНО:
➖ Ассистент для письма, работающий по всей ОС
➖ Появятся новые AI-функции в приложениях Mail, Notes, Safari, Photos и других, включая генерацию текста и изображений:
* Самари и разметку приоритетов уведомлений
* Генерировать эмодзи и картинки
* Поправлять скетчи внутри заметок и генерить картинки по ним
* Поиск текстом по видео в вашей галлерее! И можно попросить слепить из них ролик по промпту.
➖ Новая Siri - основана на LLM, понимает контекст, с ней можно чатиться текстом. Вот здесь писал про слухи об этом.
* Siri может пользоваться приложениями
* У неё теперь есть доступ к эмейлам и другим приватным данным, которые обрабатываются локально
* На случай если локальной LLM не хватает есть Private Cloud Compute - возможность запускать облачную LLM на серваках Apple работающих на собственных чипах, обещают что данные нигде не сохраняются
* Теперь у Siri будет интеграция с ChatGPT, обещают другие модели позже
➖ Для разработчиков будут доступны API для интеграции AI-функций в их приложения без дополнительных усилий
Кроме этого, добавили всякую модную кастомизацию и так по мелочи. Вроде бы все неплохо, есть интересные моменты, но акции чет просели, видимо инвесторы ожидали большего 🤷♀
Ждем дальше когда Siri станет полноценным агентом.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10❤1👍1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
В последние пару недель много чего понавыходило, но больше всего шума от видеогенераторов.
На видео сравнительный тест, который даст вам понять без лишних слов, на что обратить внимание. Runway, Pika, Lumalabs — к последнему, как вы поняли, стоит присмотреться. Кроме того, у вас будет 30 бесплатных, возобновляемых генераций в месяц.
Из элементов управления пока мы имеем только текст, что означает, что мы всё ещё в начале пути. Но на скачкообразное повышение качества невозможно не обращать внимания.
Видео открывайте на полный экран.
Пробовать тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Вышла новая модель SD_V3. Как и в случае с SDXL пока не юзабельно. Ждем файнтэненных моделей, контролнета и ип адаптеров. Новая модель как и старые не знает как выглядит Пепе. Так что дали отсается лучшей для генерации изображений)) И ещё без clip модель весит 4гига, а с ним и t5xxl все 16, так что обновляйте железо. Ну и модель может воспроизводить по промту текст на изображениях что тоже плюс. В общем мне понравилось. Вижу потенциал. Stability AI молодцы
👍4