This media is not supported in your browser
VIEW IN TELEGRAM
Кто-нибудь шарит за анимацию?
Я тут тестирую Human Motion Diffusion Model, она позволяет создавать анимации по текстовому описанию.
Из коробки выдает качество как на видео. В этом есть здравое зерно, можно ли докрутить, или шлак и проще руками с нуля сделать?
Я тут тестирую Human Motion Diffusion Model, она позволяет создавать анимации по текстовому описанию.
Из коробки выдает качество как на видео. В этом есть здравое зерно, можно ли докрутить, или шлак и проще руками с нуля сделать?
👍2😁1
Съездил в Лос-Анджелес
Оказалось лучше, чем я ожидал. Из обзоров на ютубе складывалось впечатление, что бездомные будут на каждом шагу. По гугл картам казалось, что Санта-Моника и Голливуд находятся рядом, хотя на практике между ними 40 мин на машине.
На улице тепло и прохладный ветерок с океана. Даже есть места, где можно погулять пешком. Самое прикалдесное, что люди болтают с тобой на улице просто так. Официантка в забегаловке 10 мин рассказывала о том, как она умудряется жить в ЛА без машины, бомж на пляже расхваливал мои кроссовки, а охранник в ТЦ интересовался, где купить толстовку как у меня. Народ здесь не такой угрюмый, что создает приятный вайб.
Оказалось лучше, чем я ожидал. Из обзоров на ютубе складывалось впечатление, что бездомные будут на каждом шагу. По гугл картам казалось, что Санта-Моника и Голливуд находятся рядом, хотя на практике между ними 40 мин на машине.
На улице тепло и прохладный ветерок с океана. Даже есть места, где можно погулять пешком. Самое прикалдесное, что люди болтают с тобой на улице просто так. Официантка в забегаловке 10 мин рассказывала о том, как она умудряется жить в ЛА без машины, бомж на пляже расхваливал мои кроссовки, а охранник в ТЦ интересовался, где купить толстовку как у меня. Народ здесь не такой угрюмый, что создает приятный вайб.
🔥21👍2
Го буст канала, и я выложу в сторис еще видосиков из штатов.
https://news.1rj.ru/str/savostyanov_dmitry?boost
https://news.1rj.ru/str/savostyanov_dmitry?boost
Telegram
Дмитрий Савостьянов Вещает
Проголосуйте за канал, чтобы он получил больше возможностей.
🥴7
Последние пару лет я думал, что Цукерберг и Мета чего-то не понимают. После подкаста в метаверсе стало понятно, что это скорее я не понимал.
https://youtu.be/MVYrJJNdrEg?si=P_oRh7q59WgeQpzB
https://youtu.be/MVYrJJNdrEg?si=P_oRh7q59WgeQpzB
👍7
Andreessen Horowitz
Контент из параллельной вселенной. Вот такие фотки прилетают сегодня в рабочий Slack. На первой Кевин Харт, на второй Хоровитц и Андриссен.
В небольшой (6 человек) стартап, к которому я присоединился, инвестировал фонд a16z. Сегодня они устроили тусовку для своих LP. Мы в свою очередь пахали последние 2 недели как не в себя, чтобы подготовить материалов и попитчить толстосумам.
Контент из параллельной вселенной. Вот такие фотки прилетают сегодня в рабочий Slack. На первой Кевин Харт, на второй Хоровитц и Андриссен.
В небольшой (6 человек) стартап, к которому я присоединился, инвестировал фонд a16z. Сегодня они устроили тусовку для своих LP. Мы в свою очередь пахали последние 2 недели как не в себя, чтобы подготовить материалов и попитчить толстосумам.
🔥15
Кватернионы
Есть легенда, что 16 октября 1843 года сэр Уильям Гамильтон знатно накидался и, переходя мост в Дублине, придумал кватернионы. Почти 180 лет спустя я, будучи первый день в отпуске, бахнул пива, затем текилы, шлифанул вином и набрался смелости написать про кватернионы.
В 3D-графике регулярно возникает задача вращать различные объекты в пространстве: камеру, сцену, суставы персонажей. Из курса линейной алгебры вы вероятно помните, что описывать вращения можно с помощью матриц поворота. Например, вращение вокруг оси Ox можно описать матрицей 3х3
1 0 0
0 cos(phi) -sin(phi)
0 sin(phi) cos(phi)
Здесь мы по столбцам выражаем координаты нового (повернутого на угол phi) ортонормированного базиса в старом.
Так вот оказывается, что любое вращение 3D-пространства является вращением вокруг некоторой оси (теорема Эйлера), а описать его можно с помощью 4D-кватерниона
q = cos(phi/2) + sin(phi/2) * (xi + yj + zk),
где i^2 = j^2 = k^2 = -1 — мнимые единицы, ijk = -1,
(x, y, z)^T — ось вращения.
Если правильно понимаю, в компьютерных науках основной профит кватернионов в том, что вместо 3х3=9 чиселок для матрицы поворота в памяти хранятся всего 4 коэффициента (x, y, z, w). В чистой математике профит в том, что можно оперировать как с комплексными числами с поправкой на некоммутативность умножения.
Я в теме только начал разбираться, поэтому могу подсказать несколько видео, вдруг кому-нибудь будет интересно:
- Алгоритм использования кватернионов на практике
- Связь алгебры (кватернионов) и геометрии (вращений)
- Савватеев, Доказательство теоремы Эйлера об одной оси вращения (далее в плейлисте 17+ есть и вся теория кватернионов с доказательствами основных утверждений)
Есть легенда, что 16 октября 1843 года сэр Уильям Гамильтон знатно накидался и, переходя мост в Дублине, придумал кватернионы. Почти 180 лет спустя я, будучи первый день в отпуске, бахнул пива, затем текилы, шлифанул вином и набрался смелости написать про кватернионы.
В 3D-графике регулярно возникает задача вращать различные объекты в пространстве: камеру, сцену, суставы персонажей. Из курса линейной алгебры вы вероятно помните, что описывать вращения можно с помощью матриц поворота. Например, вращение вокруг оси Ox можно описать матрицей 3х3
1 0 0
0 cos(phi) -sin(phi)
0 sin(phi) cos(phi)
Здесь мы по столбцам выражаем координаты нового (повернутого на угол phi) ортонормированного базиса в старом.
Так вот оказывается, что любое вращение 3D-пространства является вращением вокруг некоторой оси (теорема Эйлера), а описать его можно с помощью 4D-кватерниона
q = cos(phi/2) + sin(phi/2) * (xi + yj + zk),
где i^2 = j^2 = k^2 = -1 — мнимые единицы, ijk = -1,
(x, y, z)^T — ось вращения.
Если правильно понимаю, в компьютерных науках основной профит кватернионов в том, что вместо 3х3=9 чиселок для матрицы поворота в памяти хранятся всего 4 коэффициента (x, y, z, w). В чистой математике профит в том, что можно оперировать как с комплексными числами с поправкой на некоммутативность умножения.
Я в теме только начал разбираться, поэтому могу подсказать несколько видео, вдруг кому-нибудь будет интересно:
- Алгоритм использования кватернионов на практике
- Связь алгебры (кватернионов) и геометрии (вращений)
- Савватеев, Доказательство теоремы Эйлера об одной оси вращения (далее в плейлисте 17+ есть и вся теория кватернионов с доказательствами основных утверждений)
❤9👏3🍌2
Капелька кринжатины
Благодаря сториз в телеге я узнал, что в моем списке контактов есть девушка, которая практикует сатанизм или что-то вроде того. Если правильно помню, 10 лет назад она была хозяйкой хаты на одной из вписок в медведково. Сейчас вот фотки с кладбищ выкладывает. Получается повезло, что в свое время мне удалось выбраться со вписки целым и невредимым.
Благодаря сториз в телеге я узнал, что в моем списке контактов есть девушка, которая практикует сатанизм или что-то вроде того. Если правильно помню, 10 лет назад она была хозяйкой хаты на одной из вписок в медведково. Сейчас вот фотки с кладбищ выкладывает. Получается повезло, что в свое время мне удалось выбраться со вписки целым и невредимым.
😁12👍1🤣1
Сходил на подскаст, вещал про генеративные нейросетки и некоторые приложения к играм.
Го слушать:
YouTube
mave
«Яндекс Музыка»
Apple
Castbox
Google
Содержание:
— Как нейросети помогают сделать игровую индустрию great again, экономят время художников и разработчиков.
— Где и кем еще применяются графические нейросети.
— Почему ИИ не отберёт у нас работу.
— Своя компания vs работа в найме
— Что такое Stable Diffusion, как она устроена изнутри и при чём тут диффузия.
— Как работает Clip. Зачем преобразовывать промпты в векторы и считать векторное произведение.
— Как обучалась Stable Diffusion. Что такое U-Net, шум и денойзинг. Рецепт крутой нейросети.
— Виды машинного обучения: Supervised Learning, Semi-Supervised learning, Unsupervised Learning и Reinforcement learning — как устроены и в чем разница.
— Fine tuning: как натренировать нейросеть под свои задачи.
— Что нужно, чтобы создать классную востребованную нейросеть и надо ли оно вам.
— Чем Stable Diffusion отличается от Midjourney и других конкурентов. Почему нейросети так ужасно рисуют руки и как это можно исправить.
— Как эволюционировали графические нейросети.
— Способен ли современный ИИ выполнять «серьёзную и полезную» работу или он годится лишь для генерации забавных картинок?
— Над чем сегодня бьются ML-разработчики и ученые в области искусственного интеллекта.
— Я фанат ИИ и хочу работать с нейросетями: куда мне пойти учиться, что читать и где работать?
Го слушать:
YouTube
mave
«Яндекс Музыка»
Apple
Castbox
Содержание:
— Как нейросети помогают сделать игровую индустрию great again, экономят время художников и разработчиков.
— Где и кем еще применяются графические нейросети.
— Почему ИИ не отберёт у нас работу.
— Своя компания vs работа в найме
— Что такое Stable Diffusion, как она устроена изнутри и при чём тут диффузия.
— Как работает Clip. Зачем преобразовывать промпты в векторы и считать векторное произведение.
— Как обучалась Stable Diffusion. Что такое U-Net, шум и денойзинг. Рецепт крутой нейросети.
— Виды машинного обучения: Supervised Learning, Semi-Supervised learning, Unsupervised Learning и Reinforcement learning — как устроены и в чем разница.
— Fine tuning: как натренировать нейросеть под свои задачи.
— Что нужно, чтобы создать классную востребованную нейросеть и надо ли оно вам.
— Чем Stable Diffusion отличается от Midjourney и других конкурентов. Почему нейросети так ужасно рисуют руки и как это можно исправить.
— Как эволюционировали графические нейросети.
— Способен ли современный ИИ выполнять «серьёзную и полезную» работу или он годится лишь для генерации забавных картинок?
— Над чем сегодня бьются ML-разработчики и ученые в области искусственного интеллекта.
— Я фанат ИИ и хочу работать с нейросетями: куда мне пойти учиться, что читать и где работать?
YouTube
Stable Diffusion, Midjourney и все‑все‑все: что под капотом у графических нейросетей
Гость. Дмитрий Савостьянов — CEO и основатель Artifactory. Сделал GOSU.AI — голосового помощника для геймеров.
— Как нейросети помогают сделать игровую индустрию great again и экономят время игроделов.
— Где и кем ещё применяются графические нейросети.…
— Как нейросети помогают сделать игровую индустрию great again и экономят время игроделов.
— Где и кем ещё применяются графические нейросети.…
🔥13👍4👌2
Воскресные философствования про систему ценностей
Смотрел сейчас интервью с Борисом Ким — сооснователем Qiwi. Понравился его подход к рассуждениям, особенно история про систему ценностей.
Пока смотрел видео, вспомнил, что задумывался над ценностями в университетские годы, когда читал книжку “Атлант расправил плечи”. Произведение достаточно радикальное, но в свое время подтолкнуло к размышлениям. Там это называлось кодекс ценностей, если я правильно помню.
Первый вопрос: что же такое система ценностей?
В математике есть аксиомы: между любыми двумя точками можно провести прямую; через три точки не лежащие на одной прямой — плоскость... Когда аксиомы определены, можно строить теорию, которая формулирует наборы теорем, вытекающих из аксиом.
Было бы прикольно иметь аксиомы для жизни. Но люди и мир не так идеальны как математика, поэтому сложно составить непротиворечивую систему аксиом для человека. Зато, исходя из поступков и предпочтений людей в прошлом, можно подмечать, что для кого-то деньги важнее славы, а для другого знания важнее денег, а для третьего семья важнее знаний и тд.
Так вот ценности для себя я определяю как набор утверждений:
- я люблю решать интересные задачки
- я люблю деньги
- я не люблю проигрывать
…
Причем между данными утверждениями определен порядок (хотя бы частично), т.е. я могу любить деньги больше, чем не любить проигрывать или наоборот.
Когда ценности определены, гораздо проще принимать решения по жизни, не метаться и не сожалеть. Например, вы футболист и вам предлагают слить матч за деньги. Если вы любите деньги больше побед, то вы с бОльшей вероятностью согласитесь слить матч, потому что это укладывается в вашу систему ценностей.
Второй вопрос: какая у меня система ценностей?
Так вот сегодня я понял, что хоть и обрисовал для себя идею ценностей, я так и не сформулировал их в явном виде на бумаге. С кем вообще такие вопросы обсуждают? Это к психологам, философам или коучам?)
Ссылка на интервью
Смотрел сейчас интервью с Борисом Ким — сооснователем Qiwi. Понравился его подход к рассуждениям, особенно история про систему ценностей.
Пока смотрел видео, вспомнил, что задумывался над ценностями в университетские годы, когда читал книжку “Атлант расправил плечи”. Произведение достаточно радикальное, но в свое время подтолкнуло к размышлениям. Там это называлось кодекс ценностей, если я правильно помню.
Первый вопрос: что же такое система ценностей?
В математике есть аксиомы: между любыми двумя точками можно провести прямую; через три точки не лежащие на одной прямой — плоскость... Когда аксиомы определены, можно строить теорию, которая формулирует наборы теорем, вытекающих из аксиом.
Было бы прикольно иметь аксиомы для жизни. Но люди и мир не так идеальны как математика, поэтому сложно составить непротиворечивую систему аксиом для человека. Зато, исходя из поступков и предпочтений людей в прошлом, можно подмечать, что для кого-то деньги важнее славы, а для другого знания важнее денег, а для третьего семья важнее знаний и тд.
Так вот ценности для себя я определяю как набор утверждений:
- я люблю решать интересные задачки
- я люблю деньги
- я не люблю проигрывать
…
Причем между данными утверждениями определен порядок (хотя бы частично), т.е. я могу любить деньги больше, чем не любить проигрывать или наоборот.
Когда ценности определены, гораздо проще принимать решения по жизни, не метаться и не сожалеть. Например, вы футболист и вам предлагают слить матч за деньги. Если вы любите деньги больше побед, то вы с бОльшей вероятностью согласитесь слить матч, потому что это укладывается в вашу систему ценностей.
Второй вопрос: какая у меня система ценностей?
Так вот сегодня я понял, что хоть и обрисовал для себя идею ценностей, я так и не сформулировал их в явном виде на бумаге. С кем вообще такие вопросы обсуждают? Это к психологам, философам или коучам?)
Ссылка на интервью
👍7
Вышла статья про DALL-E 3
Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.
Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.
С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.
На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.
Про архитектуру самой модели и процесс обучения информации почти нет.
Статья
Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.
Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.
С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.
На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.
Про архитектуру самой модели и процесс обучения информации почти нет.
Статья
👍33🔥4❤1🤝1
Жалко у меня не было такой фичи в университетские годы. В ChatGPT теперь можно подавать скриншоты формул, а он будет объяснять их простыми словами и писать код с реализацией — красота.
👍24🔥11