DragGAN이란 재미있는 합성 방식이 공개되었네요. GAN 기반으로 콘텐츠 합성을 하는데, 사용자가 이미지의 포인트를 목표 위치로 드래그하여 인터랙티브하게 조작할 수 있도록 하는 방식이라 훨씬 원하는 이미지를 손쉽게 만들수 있네요.
제목: Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
이 논문에서는 제너레이티브 이미지 매니폴드에서 인터랙티브 포인트 기반 조작을 위한 방법인 DragGAN을 소개하여 사용자가 생성된 오브젝트의 포즈, 모양, 표현, 레이아웃을 사용자 인터랙티브 방식으로 정밀하게 제어할 수 있도록 합니다.
주요 인사이트와 교훈
* GAN을 제어하는 기존의 접근 방식은 유연성, 정밀성, 범용성이 부족하고 주석이 달린 훈련 데이터나 3D 모델에 의존하는 경우가 많습니다.
* DragGAN은 사용자가 이미지의 포인트를 '드래그'하여 목표 위치에 도달할 수 있도록 하여 정밀한 조작을 가능하게 함으로써 새로운 방식으로 GAN을 제어할 수 있습니다.
* 제안된 방법은 특징 기반 모션 감독과 포인트 추적 접근 방식을 결합하여 이미지에 대한 원하는 제어를 달성합니다.
* DragGAN을 사용하면 픽셀 위치를 정밀하게 제어하여 이미지를 변형함으로써 동물, 자동차, 사람 등 다양한 객체 범주를 조작할 수 있습니다.
이 논문에서는 생성 이미지 매니폴드에서 인터랙티브한 포인트 기반 조작을 위한 강력한 방법으로서 DragGAN을 소개하여 사용자가 생성된 오브젝트의 포즈, 모양, 표현, 레이아웃을 정밀하게 제어할 수 있도록 합니다.
요약:
사용자의 요구를 충족하는 시각적 콘텐츠를 합성하려면 생성된 오브젝트의 포즈, 모양, 표정, 레이아웃을 유연하고 정밀하게 제어할 수 있어야 합니다. 기존 접근 방식은 수동으로 주석이 달린 훈련 데이터 또는 이전 3D 모델을 통해 생성적 적대 신경망(GAN)을 제어할 수 있지만 유연성, 정밀성, 일반성이 부족한 경우가 많습니다. 이 연구에서는 그림 1과 같이 이미지의 임의의 지점을 '드래그'하여 사용자 인터랙티브 방식으로 목표 지점에 정확하게 도달하도록 하는, 강력하지만 아직 많이 연구되지 않은 GAN 제어 방법을 연구합니다. 이를 위해 두 가지 주요 구성 요소로 구성된 DragGAN을 제안합니다: 1) 핸들 포인트를 목표 위치로 이동하도록 유도하는 특징 기반 모션 감독과 2) 판별 생성기 기능을 활용하여 핸들 포인트의 위치를 계속 파악하는 새로운 포인트 추적 접근 방식입니다. DragGAN을 사용하면 누구나 픽셀의 위치를 정밀하게 제어하여 이미지를 변형할 수 있으므로 동물, 자동차, 사람, 풍경 등 다양한 카테고리의 포즈, 모양, 표정, 레이아웃을 조작할 수 있습니다. 이러한 조작은 GAN의 학습된 생성 이미지 매니폴드에서 수행되므로 가려진 콘텐츠를 환각화하고 오브젝트의 강성을 일관되게 따르는 모양을 변형하는 등 까다로운 시나리오에서도 사실적인 결과물을 생성하는 경향이 있습니다. 정성적 및 정량적 비교를 통해 이미지 조작 및 포인트 추적 작업에서 이전 접근 방식에 비해 DragGAN의 이점을 확인할 수 있습니다. 또한 GAN 반전을 통해 실제 이미지를 조작하는 모습도 보여줍니다.
arXiv: https://arxiv.org/abs/2305.10973
PDF: https://arxiv.org/pdf/2305.10973.pdf
arXiv-vanity: https://www.arxiv-vanity.com/papers/2305.10973
Paper page: https://huggingface.co/papers/2305.10973
제목: Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
이 논문에서는 제너레이티브 이미지 매니폴드에서 인터랙티브 포인트 기반 조작을 위한 방법인 DragGAN을 소개하여 사용자가 생성된 오브젝트의 포즈, 모양, 표현, 레이아웃을 사용자 인터랙티브 방식으로 정밀하게 제어할 수 있도록 합니다.
주요 인사이트와 교훈
* GAN을 제어하는 기존의 접근 방식은 유연성, 정밀성, 범용성이 부족하고 주석이 달린 훈련 데이터나 3D 모델에 의존하는 경우가 많습니다.
* DragGAN은 사용자가 이미지의 포인트를 '드래그'하여 목표 위치에 도달할 수 있도록 하여 정밀한 조작을 가능하게 함으로써 새로운 방식으로 GAN을 제어할 수 있습니다.
* 제안된 방법은 특징 기반 모션 감독과 포인트 추적 접근 방식을 결합하여 이미지에 대한 원하는 제어를 달성합니다.
* DragGAN을 사용하면 픽셀 위치를 정밀하게 제어하여 이미지를 변형함으로써 동물, 자동차, 사람 등 다양한 객체 범주를 조작할 수 있습니다.
이 논문에서는 생성 이미지 매니폴드에서 인터랙티브한 포인트 기반 조작을 위한 강력한 방법으로서 DragGAN을 소개하여 사용자가 생성된 오브젝트의 포즈, 모양, 표현, 레이아웃을 정밀하게 제어할 수 있도록 합니다.
요약:
사용자의 요구를 충족하는 시각적 콘텐츠를 합성하려면 생성된 오브젝트의 포즈, 모양, 표정, 레이아웃을 유연하고 정밀하게 제어할 수 있어야 합니다. 기존 접근 방식은 수동으로 주석이 달린 훈련 데이터 또는 이전 3D 모델을 통해 생성적 적대 신경망(GAN)을 제어할 수 있지만 유연성, 정밀성, 일반성이 부족한 경우가 많습니다. 이 연구에서는 그림 1과 같이 이미지의 임의의 지점을 '드래그'하여 사용자 인터랙티브 방식으로 목표 지점에 정확하게 도달하도록 하는, 강력하지만 아직 많이 연구되지 않은 GAN 제어 방법을 연구합니다. 이를 위해 두 가지 주요 구성 요소로 구성된 DragGAN을 제안합니다: 1) 핸들 포인트를 목표 위치로 이동하도록 유도하는 특징 기반 모션 감독과 2) 판별 생성기 기능을 활용하여 핸들 포인트의 위치를 계속 파악하는 새로운 포인트 추적 접근 방식입니다. DragGAN을 사용하면 누구나 픽셀의 위치를 정밀하게 제어하여 이미지를 변형할 수 있으므로 동물, 자동차, 사람, 풍경 등 다양한 카테고리의 포즈, 모양, 표정, 레이아웃을 조작할 수 있습니다. 이러한 조작은 GAN의 학습된 생성 이미지 매니폴드에서 수행되므로 가려진 콘텐츠를 환각화하고 오브젝트의 강성을 일관되게 따르는 모양을 변형하는 등 까다로운 시나리오에서도 사실적인 결과물을 생성하는 경향이 있습니다. 정성적 및 정량적 비교를 통해 이미지 조작 및 포인트 추적 작업에서 이전 접근 방식에 비해 DragGAN의 이점을 확인할 수 있습니다. 또한 GAN 반전을 통해 실제 이미지를 조작하는 모습도 보여줍니다.
arXiv: https://arxiv.org/abs/2305.10973
PDF: https://arxiv.org/pdf/2305.10973.pdf
arXiv-vanity: https://www.arxiv-vanity.com/papers/2305.10973
Paper page: https://huggingface.co/papers/2305.10973
Arxiv-Vanity
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
Synthesizing visual content that meets users’ needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs)…
정말 또다시 하루하루 숨가쁘게 돌아가고 있네요.
- 현재까지 등록된 ChatGPT plugin이 86개
- iOS 앱스토어를 통한 official iOS ChatGPT 앱 출시 (Plugin 기능은 베타버전이라 웹에서만 연동되는 듯)
- 메타도 AI에 대한 세가지 뉴스 발표: MTIA v1: Meta’s first-generation AI inference accelerator, Meta’s Research SuperCluster, Reimagining Meta’s infrastructure for the AI age
- Amazon Burnham, Amazon AI Search
- Apple Voice Cloning, Alzheimer's Detection
- OpenAI에서도 Open-Source LLM 준비중
- 현재까지 등록된 ChatGPT plugin이 86개
- iOS 앱스토어를 통한 official iOS ChatGPT 앱 출시 (Plugin 기능은 베타버전이라 웹에서만 연동되는 듯)
- 메타도 AI에 대한 세가지 뉴스 발표: MTIA v1: Meta’s first-generation AI inference accelerator, Meta’s Research SuperCluster, Reimagining Meta’s infrastructure for the AI age
- Amazon Burnham, Amazon AI Search
- Apple Voice Cloning, Alzheimer's Detection
- OpenAI에서도 Open-Source LLM 준비중
개인 블로그를 만들었습니다. 당분간은 영어 컨텐츠만 올릴 예정인데 한글 컨텐츠도 따로 올릴지는 고민해볼 생각입니다. https://www.continuouslearningmatthew.com/
역발상을 받아들이다: 독립적 사고로 가는 길
주말에 친구가 The Strength of Being Misunderstood, (https://blog.samaltman.com/the-strength-of-being...) 글을 공유해줬다.
많은 사람들은 다른 사람의 생각을 너무 많이 신경쓰며 살아간다. 남들의 생각을 따라가다보면 평범해질 수 있다. 하지만, 가치있는 것을 만들기 위해서는 혼자 할 수 있는 일이 많지 않기에 다른 사람들과 잘 조화를 이루는 것 다른 의견에 열려있는 것 역시 중요하다. ‘누구의 의견을 들을 것인지’ 선택하는 것도 중요하지만, ‘얼마 기간동안’ 남들이 믿지 않는 사실을 믿거나 당연하다고 여기는 것을 당연하게 여기지 않는 것도 중요합니다. 일반적으로 저평가되어 있는 회사의 주식을 사서 우량주가 되기까지 기다리는 것을 가치투자라고 한다면, 남들은 다 동의하지 않는데 나는 강하게 믿고 있는 사실에 오랜기간 베팅해서 내가 믿는 사실이 옳다는 것을 증명해낸다면 큰 변화를 만들 수 있습니다.
그런데, 이 과정이 쉽지만은 않습니다. 일론이 Space X를 할 때 본인의 영웅이었던 Neil Armstrong이 Space X의 행보를 대놓고 비판했던 일(https://youtu.be/8P8UKBAOfGo)이나 Sam Altman이 큰 꿈을 꾸게 해준 Elon이 Sam의 행보를 비판하는 일(https://youtu.be/GKvC-C_uZrM)을 보면 일반 사람 뿐만 아니라 내가 존경했던, 도움 받았던 사람들이 나의 일을 비판할 때 그 신념을 유지하기가 얼마나 어려운지 볼 수 있죠.
이런 사람들을 Contrarian(역발상자, 적절한 단어을 못찾겠네요.)라고 합니다. Contrarian는 일반적으로 알려진 사실에 반대하는 사람입니다. 그들은 다른 관점에서 사물을 보기 때문에 반대합니다. 그들은 현상 유지에 도전하고, 통용되는 규범에 의문을 제기하며, 자신의 신념에 홀로 서는 것을 두려워하지 않습니다.
역발상자는 스타트업과 투자에서 상당한 이점을 가질 수 있습니다. 창업자와 투자자는 다른 사람들이 간과하는 기회를 발견할 수 있습니다. 예를 들어, 유명한 기술 거물이자 투자자인 Peter Thiel은 그의 반대 전략으로 유명합니다. 그는 당시에는 파격적으로 보였지만 나중에 큰 성공을 거둔 것으로 입증된 투자를 자주 했습니다.
역발상자는 회복력이 뛰어나기도 합니다. 그들은 불가능하다고 말하는 다른 사람들의 판단을 견딜 수 있습니다. 창업자이자 투자자로서 자신의 가설에 대한 확신이 있고 틀렸을 때 빠르게 수정할 수 있는 능력이 있다면 외부의 평가보다는 자신만의 기준에 집중하여 시도해보고 빠르게 수정할 수 있습니다. 전설적인 거시 투자자 Druckenmiller는 한 인터뷰에서 자신은 틀릴 때가 많지만, 틀렸을 때 손실을 볼 위험에 대해 깊이 생각하고, 틀렸을 때 빨리 고칠 준비가 되어 있다고 말했습니다.
역발상자는 비즈니스 세계에서만 국한된 것이 아닙니다. 그것은 널리 받아들여지는 신념에 의문을 제기하고 자신의 이해와 가치에 따라 결정을 내리도록 장려하는 삶의 방식입니다. 이는 사회적 규범에 어긋나더라도 스스로에게 진실해지는 것을 의미합니다.
역발상자가 되는 것은 다른 사람의 말을 전혀 듣지 않는 것이 아니라 자신의 생각에 귀를 기울이는 것입니다. 그것은 자신과 주변 사람들의 말을 경청하고 자신과 다른 사람들이 항상 틀릴 수 있다는 것을 인정하는 것입니다.
독립적으로 생각하도록 스스로 훈련하는 방법은 여러 가지가 있습니다.
1. 모든 것에 질문하기: 모든 것을 보이는 것 그대로 받아들이지 마세요. 항상 이유를 묻고 근본적인 이유를 이해하려고 노력하세요.
2. 불편함을 포용하세요: 독립적인 사고는 기존의 규범에 도전하기 때문에 종종 불편함을 유발합니다. 이러한 불편함에 익숙해지는 법을 배우세요.
3. 다양한 관점을 추구하세요: 나와 다른 생각을 가진 사람들과 함께하세요. 이를 통해 시야를 넓히고 자신의 신념에 도전할 수 있습니다.
4. 지속적으로 배우세요: 새로운 것을 계속 배우세요. 폴 그레이엄이 "말할 수 없는 것"이라는 에세이에서 지적했듯이, 새로운 것을 배우면 종종 상반된 견해를 갖게 됩니다.
5. 자신의 판단을 신뢰하세요: 자신의 견해가 인기가 없을지라도 자신의 판단을 신뢰하세요. 조사를 충분히 하고 충분히 생각했다면 자신의 신념을 고수하는 것을 두려워하지 마세요.
6. 역발상은 강력한 도구입니다. 스타트업 창업자, 투자자, 개인 모두에게 도움이 될 수 있습니다. 이제 역발상을 수용하고, 기존 관습에 도전하며, 자신만의 길을 개척해 보세요.
관련 글을 영어로 작성했고 블로그에 게시했습니다.
Resources related to being a contrarian.
1. http://www.paulgraham.com/think.html
2.https://hbr.org/2021/09/how-to-be-a-smart-contrarian
3. http://www.paulgraham.com/newthings.html
4. paulgraham.com/marginal.html
5. https://www.nytimes.com/.../the-contrarian-peter-thiel...
6. https://www.nytimes.com/.../review-contrarian-peter-thiel...
7. https://blog.samaltman.com/the-strength-of-being...
8. https://waitbutwhy.com/.../the-cook-and-the-chef-musks...
역발상을 받아들이다: 독립적 사고로 가는 길
주말에 친구가 The Strength of Being Misunderstood, (https://blog.samaltman.com/the-strength-of-being...) 글을 공유해줬다.
많은 사람들은 다른 사람의 생각을 너무 많이 신경쓰며 살아간다. 남들의 생각을 따라가다보면 평범해질 수 있다. 하지만, 가치있는 것을 만들기 위해서는 혼자 할 수 있는 일이 많지 않기에 다른 사람들과 잘 조화를 이루는 것 다른 의견에 열려있는 것 역시 중요하다. ‘누구의 의견을 들을 것인지’ 선택하는 것도 중요하지만, ‘얼마 기간동안’ 남들이 믿지 않는 사실을 믿거나 당연하다고 여기는 것을 당연하게 여기지 않는 것도 중요합니다. 일반적으로 저평가되어 있는 회사의 주식을 사서 우량주가 되기까지 기다리는 것을 가치투자라고 한다면, 남들은 다 동의하지 않는데 나는 강하게 믿고 있는 사실에 오랜기간 베팅해서 내가 믿는 사실이 옳다는 것을 증명해낸다면 큰 변화를 만들 수 있습니다.
그런데, 이 과정이 쉽지만은 않습니다. 일론이 Space X를 할 때 본인의 영웅이었던 Neil Armstrong이 Space X의 행보를 대놓고 비판했던 일(https://youtu.be/8P8UKBAOfGo)이나 Sam Altman이 큰 꿈을 꾸게 해준 Elon이 Sam의 행보를 비판하는 일(https://youtu.be/GKvC-C_uZrM)을 보면 일반 사람 뿐만 아니라 내가 존경했던, 도움 받았던 사람들이 나의 일을 비판할 때 그 신념을 유지하기가 얼마나 어려운지 볼 수 있죠.
이런 사람들을 Contrarian(역발상자, 적절한 단어을 못찾겠네요.)라고 합니다. Contrarian는 일반적으로 알려진 사실에 반대하는 사람입니다. 그들은 다른 관점에서 사물을 보기 때문에 반대합니다. 그들은 현상 유지에 도전하고, 통용되는 규범에 의문을 제기하며, 자신의 신념에 홀로 서는 것을 두려워하지 않습니다.
역발상자는 스타트업과 투자에서 상당한 이점을 가질 수 있습니다. 창업자와 투자자는 다른 사람들이 간과하는 기회를 발견할 수 있습니다. 예를 들어, 유명한 기술 거물이자 투자자인 Peter Thiel은 그의 반대 전략으로 유명합니다. 그는 당시에는 파격적으로 보였지만 나중에 큰 성공을 거둔 것으로 입증된 투자를 자주 했습니다.
역발상자는 회복력이 뛰어나기도 합니다. 그들은 불가능하다고 말하는 다른 사람들의 판단을 견딜 수 있습니다. 창업자이자 투자자로서 자신의 가설에 대한 확신이 있고 틀렸을 때 빠르게 수정할 수 있는 능력이 있다면 외부의 평가보다는 자신만의 기준에 집중하여 시도해보고 빠르게 수정할 수 있습니다. 전설적인 거시 투자자 Druckenmiller는 한 인터뷰에서 자신은 틀릴 때가 많지만, 틀렸을 때 손실을 볼 위험에 대해 깊이 생각하고, 틀렸을 때 빨리 고칠 준비가 되어 있다고 말했습니다.
역발상자는 비즈니스 세계에서만 국한된 것이 아닙니다. 그것은 널리 받아들여지는 신념에 의문을 제기하고 자신의 이해와 가치에 따라 결정을 내리도록 장려하는 삶의 방식입니다. 이는 사회적 규범에 어긋나더라도 스스로에게 진실해지는 것을 의미합니다.
역발상자가 되는 것은 다른 사람의 말을 전혀 듣지 않는 것이 아니라 자신의 생각에 귀를 기울이는 것입니다. 그것은 자신과 주변 사람들의 말을 경청하고 자신과 다른 사람들이 항상 틀릴 수 있다는 것을 인정하는 것입니다.
독립적으로 생각하도록 스스로 훈련하는 방법은 여러 가지가 있습니다.
1. 모든 것에 질문하기: 모든 것을 보이는 것 그대로 받아들이지 마세요. 항상 이유를 묻고 근본적인 이유를 이해하려고 노력하세요.
2. 불편함을 포용하세요: 독립적인 사고는 기존의 규범에 도전하기 때문에 종종 불편함을 유발합니다. 이러한 불편함에 익숙해지는 법을 배우세요.
3. 다양한 관점을 추구하세요: 나와 다른 생각을 가진 사람들과 함께하세요. 이를 통해 시야를 넓히고 자신의 신념에 도전할 수 있습니다.
4. 지속적으로 배우세요: 새로운 것을 계속 배우세요. 폴 그레이엄이 "말할 수 없는 것"이라는 에세이에서 지적했듯이, 새로운 것을 배우면 종종 상반된 견해를 갖게 됩니다.
5. 자신의 판단을 신뢰하세요: 자신의 견해가 인기가 없을지라도 자신의 판단을 신뢰하세요. 조사를 충분히 하고 충분히 생각했다면 자신의 신념을 고수하는 것을 두려워하지 마세요.
6. 역발상은 강력한 도구입니다. 스타트업 창업자, 투자자, 개인 모두에게 도움이 될 수 있습니다. 이제 역발상을 수용하고, 기존 관습에 도전하며, 자신만의 길을 개척해 보세요.
관련 글을 영어로 작성했고 블로그에 게시했습니다.
Resources related to being a contrarian.
1. http://www.paulgraham.com/think.html
2.https://hbr.org/2021/09/how-to-be-a-smart-contrarian
3. http://www.paulgraham.com/newthings.html
4. paulgraham.com/marginal.html
5. https://www.nytimes.com/.../the-contrarian-peter-thiel...
6. https://www.nytimes.com/.../review-contrarian-peter-thiel...
7. https://blog.samaltman.com/the-strength-of-being...
8. https://waitbutwhy.com/.../the-cook-and-the-chef-musks...
Startup, Investment and Life
Matthew Minseok Kim's Insights into Startups, Life, and Technology
Discover the intersection of startups, life, and technology with Matthew Minseok Kim. Explore investment strategies, leadership insights, and the latest in AI, energy, and more.
👍1
CBInsight의 Global AI 투자 관련 리포트. 보고서에 따르면 2023년 1분기에 AI에 대한 투자가 크게 감소한 것으로 밝혀졌습니다. 몇몇 생성형 AI 스타트업의 성장에도 불구하고, 전반적인 VC 시장의 침체를 AI 부문도 빗겨가지 못했습니다. 이 리포트의 주요 8가지 포인트를 정리하면 다음과 같습니다.
1. 글로벌 AI 벤처 투자금액은 전 분기 대비 43% 감소하여 총 54억 달러에 머물렀습니다. 이는 2018년 1분기 이후 분기당 투자액이 가장 낮은 수치입니다.
2. 투자 건수도 4분기 연속 감소하여 554건으로 2017년 4분기 이후 최저 수준을 기록했습니다.
3. 지난 분기 가장 큰 규모의 5개 투자 중 3개는 생성형 AI 스타트업이었습니다. 생성형 AI가 AI 섹터 전체에 대한 관심과 모멘템을 이끌어간다는 메시지로 읽을 수 있습니다. 하지만, 생성형 AI 부문에 대한 관심이 AI 섹터 전체에 대한 광범위한 불황을 극복하기는 역부족이었다는 평가입니다.
4. 2023년 1분기에 5개의 새로운 AI 유니콘이 등장했으며, 그중 3개는 생성형 AI 기업이었습니다: Anthropic, Adept, Character.AI. 미국은 AI 유니콘의 수중 64%를 배출했습니다.
5. AI애 대한 VC투자 중 Late stage에 대한 투자는 더욱 급격히 감소하여 25만 달러로 팬데믹 이전 수준보다 오히려 낮은 규모를 보였습니다.
6. 미국 전반적으로 AI 투자는 전 분기 대비 27% 감소했습니다. 그러나 실리콘밸리는 반등하여 직전 분기 대비 투자금이 41% 증가하고 거래건 수 기준 20% 증가했습니다. 주로 생성형 AI 스타트업에 대한 투자가 대부분이었습니다.
7. 아시아에 기반을 둔 스타트업에 대한 투자는 급감하여 2016년 4분기 이후 최저 수준에 도달했습니다. 이는 주로 중국에서 AI 투자 활동이 둔화되었기 때문으로 분석됩니다. 유럽의 AI 자금 조달도 하락했지만 팬데믹 이전 수준을 유지했습니다.
8. 전 분기 대비 AI 기업의 인수합병(M&A) 거래 건수는 12% 증가했지만, 기업공개(IPO) 및 특수목적 인수합병 회사(SPAC)와 같은 Exit 사례는 전무했습니다.
1. 글로벌 AI 벤처 투자금액은 전 분기 대비 43% 감소하여 총 54억 달러에 머물렀습니다. 이는 2018년 1분기 이후 분기당 투자액이 가장 낮은 수치입니다.
2. 투자 건수도 4분기 연속 감소하여 554건으로 2017년 4분기 이후 최저 수준을 기록했습니다.
3. 지난 분기 가장 큰 규모의 5개 투자 중 3개는 생성형 AI 스타트업이었습니다. 생성형 AI가 AI 섹터 전체에 대한 관심과 모멘템을 이끌어간다는 메시지로 읽을 수 있습니다. 하지만, 생성형 AI 부문에 대한 관심이 AI 섹터 전체에 대한 광범위한 불황을 극복하기는 역부족이었다는 평가입니다.
4. 2023년 1분기에 5개의 새로운 AI 유니콘이 등장했으며, 그중 3개는 생성형 AI 기업이었습니다: Anthropic, Adept, Character.AI. 미국은 AI 유니콘의 수중 64%를 배출했습니다.
5. AI애 대한 VC투자 중 Late stage에 대한 투자는 더욱 급격히 감소하여 25만 달러로 팬데믹 이전 수준보다 오히려 낮은 규모를 보였습니다.
6. 미국 전반적으로 AI 투자는 전 분기 대비 27% 감소했습니다. 그러나 실리콘밸리는 반등하여 직전 분기 대비 투자금이 41% 증가하고 거래건 수 기준 20% 증가했습니다. 주로 생성형 AI 스타트업에 대한 투자가 대부분이었습니다.
7. 아시아에 기반을 둔 스타트업에 대한 투자는 급감하여 2016년 4분기 이후 최저 수준에 도달했습니다. 이는 주로 중국에서 AI 투자 활동이 둔화되었기 때문으로 분석됩니다. 유럽의 AI 자금 조달도 하락했지만 팬데믹 이전 수준을 유지했습니다.
8. 전 분기 대비 AI 기업의 인수합병(M&A) 거래 건수는 12% 증가했지만, 기업공개(IPO) 및 특수목적 인수합병 회사(SPAC)와 같은 Exit 사례는 전무했습니다.
Founders, Prepare for the freezingly cold winter.
Series A is really fricking hard to do right now.
Investing with an unknown Series B and C market in 9-18 months is making a lot of Series A investors sit on the sidelines for the time being.
@HarryStebbings
님에게 보내는 답글
Always shocks me how momentum driven the VC market is. Investing into a downturn results in the best returns.
The biggest businesses will be built out of this downturn, yet VC’s are all pulling back out of fear.
Series A is really fricking hard to do right now.
Investing with an unknown Series B and C market in 9-18 months is making a lot of Series A investors sit on the sidelines for the time being.
@HarryStebbings
님에게 보내는 답글
Always shocks me how momentum driven the VC market is. Investing into a downturn results in the best returns.
The biggest businesses will be built out of this downturn, yet VC’s are all pulling back out of fear.
다음주 AI 관련 밋업을 준비중인데요 ㅎㅎ
지금 고려하고 있는 주제는 아래와 같아요!
1. 의료 관련 AI Status: Google's Medical Palmistry (Med-Palm)
2. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold:
3. AI 관련 새롭게 나올 수 있는 인프라 사업들
4. Vision 동향
5. 스타트업 창업/ 투자의 기회
혹시 AI 밋업에서 깊게 논의할만한 주제가 어떤 게 있을까요?~ 아이디어 있으신 분들은 편하게 @MatthewMinseokKim으로 DM 주세요 🙏
제가 AI 뉴비라…. 여러분들의 많은 관심과 도움이 절실합니다 ㅎㅎ 🤗
지금 고려하고 있는 주제는 아래와 같아요!
1. 의료 관련 AI Status: Google's Medical Palmistry (Med-Palm)
2. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold:
3. AI 관련 새롭게 나올 수 있는 인프라 사업들
4. Vision 동향
5. 스타트업 창업/ 투자의 기회
혹시 AI 밋업에서 깊게 논의할만한 주제가 어떤 게 있을까요?~ 아이디어 있으신 분들은 편하게 @MatthewMinseokKim으로 DM 주세요 🙏
제가 AI 뉴비라…. 여러분들의 많은 관심과 도움이 절실합니다 ㅎㅎ 🤗
👍1
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
YouTube
Google for Startups Residency Program
Google for Startups Residency brings growth-stage startups the best of Google's products, connections, and best practices. Each startup receives tailored mentorship and workspace at Google for Startups Campuses in London, Madrid, São Paulo, Seoul, Tel Aviv…
맨해튼 프로젝트는 팔십 여년 전 기술이 힘이 됨을 핵무기를 통해 전인류를 대상으로 강렬하게 어필했다. 물리학은 더이상 낭만의 대상이 아니라 투자의 대상이었다. 그렇게 시작된 생계형 물리학자의 시대는 우주 계획과 입자물리학으로 연결되는 거대 과학 분야로의 변화로 이어졌다. 그 날 밤 숙소로 귀가하며 함께하는 멤버들에게 메세지를 보냈다. “우리 이제 언어 모델 개발은 하지 말죠. 이제부턴 따라가려면 돈이 부족할 겁니다.”
엄청나게 많은 “AI 기업” 들이 생겼다. 하지만 그 대부분은 2년 후 코인회사나 메타버스 회사가 되었다.
기술은 계속 발전하고, 동일 연산 자원에 들어가는 비용은 계속 감소한다. 이런 발전이 지속된다면 결국 AI의 대중화가 진행 될 것이고, 그 시점에서 가장 중요한 포인트는 다른 모든 시장에서도 동일한 가격 경쟁력이 될 것이었다. “AI도 가격 경쟁력 시대가 올 것이다” 써 붙였다. 그 때 까지 망하지 않기를 기원하면서.
몇 년 간 분산 처리 및 분산 훈련 플랫폼을 만들면서 가끔 ‘우리가 아무런 수요가 없는 플랫폼을 만들고 있는 것이 아닐까’ 하는 생각을 종종 했었다.
=> 너무 공감가기도 하고, 이 때 터널 안에 있던 대표님과 팀이 그 터널을 잘 뚫고 나온 것에 대해서 존경합니다.
엄청나게 많은 “AI 기업” 들이 생겼다. 하지만 그 대부분은 2년 후 코인회사나 메타버스 회사가 되었다.
기술은 계속 발전하고, 동일 연산 자원에 들어가는 비용은 계속 감소한다. 이런 발전이 지속된다면 결국 AI의 대중화가 진행 될 것이고, 그 시점에서 가장 중요한 포인트는 다른 모든 시장에서도 동일한 가격 경쟁력이 될 것이었다. “AI도 가격 경쟁력 시대가 올 것이다” 써 붙였다. 그 때 까지 망하지 않기를 기원하면서.
몇 년 간 분산 처리 및 분산 훈련 플랫폼을 만들면서 가끔 ‘우리가 아무런 수요가 없는 플랫폼을 만들고 있는 것이 아닐까’ 하는 생각을 종종 했었다.
=> 너무 공감가기도 하고, 이 때 터널 안에 있던 대표님과 팀이 그 터널을 잘 뚫고 나온 것에 대해서 존경합니다.
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
https://thegradient.pub/transformers-are-graph-neural-networks/
The attention mechanism used in Transformers can be seen as a form of message passing in GNNs
The attention mechanism in Transformers is a way of learning how to focus on specific parts of an input sequence. It does this by computing a weighted sum of the representations of all the parts of the sequence, where the weights are determined by how relevant each part is to the current task. This is similar to the way that message passing works in GNNs. In GNNs, each node in a graph can send messages to its neighbors, and these messages are used to update the node's representation. The attention mechanism in Transformers can be seen as a form of message passing where the nodes in the graph are the parts of the input sequence and the messages are the weights that determine how relevant each part is to the current task.
Transformers can be viewed as GNNs with a fully connected graph structure.
A graph is a data structure that consists of nodes and edges. A node represents a data point, and an edge represents a relationship between two data points. In a fully connected graph, every node is connected to every other node. Transformers can be viewed as GNNs with a fully connected graph structure. This is because the attention mechanism in Transformers allows each part of the input sequence to attend to any other part of the input sequence. This means that every part of the input sequence is connected to every other part of the input sequence, which is the definition of a fully connected graph.
The success of Transformers in various machine learning applications is due to their ability to model complex relationships between elements in a sequence or set.
Transformers have been successful in a variety of machine learning applications, including natural language processing, machine translation, and image recognition. This is because Transformers are able to model complex relationships between elements in a sequence or set. For example, in natural language processing, Transformers can be used to model the relationships between words in a sentence. This allows Transformers to perform tasks such as machine translation and text summarization.
The attention mechanism used in Transformers can be seen as a form of message passing in GNNs
The attention mechanism in Transformers is a way of learning how to focus on specific parts of an input sequence. It does this by computing a weighted sum of the representations of all the parts of the sequence, where the weights are determined by how relevant each part is to the current task. This is similar to the way that message passing works in GNNs. In GNNs, each node in a graph can send messages to its neighbors, and these messages are used to update the node's representation. The attention mechanism in Transformers can be seen as a form of message passing where the nodes in the graph are the parts of the input sequence and the messages are the weights that determine how relevant each part is to the current task.
Transformers can be viewed as GNNs with a fully connected graph structure.
A graph is a data structure that consists of nodes and edges. A node represents a data point, and an edge represents a relationship between two data points. In a fully connected graph, every node is connected to every other node. Transformers can be viewed as GNNs with a fully connected graph structure. This is because the attention mechanism in Transformers allows each part of the input sequence to attend to any other part of the input sequence. This means that every part of the input sequence is connected to every other part of the input sequence, which is the definition of a fully connected graph.
The success of Transformers in various machine learning applications is due to their ability to model complex relationships between elements in a sequence or set.
Transformers have been successful in a variety of machine learning applications, including natural language processing, machine translation, and image recognition. This is because Transformers are able to model complex relationships between elements in a sequence or set. For example, in natural language processing, Transformers can be used to model the relationships between words in a sentence. This allows Transformers to perform tasks such as machine translation and text summarization.
The Gradient
Transformers are Graph Neural Networks
My engineering friends often ask me: deep learning on graphs sounds great, but are there any real applications? While Graph Neural Networks are used in recommendation systems at Pinterest [https://medium.com/pinterest-engineering/pinsage-a-new-graph-convolutional…
https://www.microsoft.com/en-us/research/project/deepspeed/
DeepSpeed is a deep learning optimization library that makes distributed training easy, efficient, and effective. It enables unprecedented scale and speed for both training and inference of deep learning model
DeepSpeed is an easy-to-use deep learning optimization software suite that powers unprecedented scale and speed for both training and inference
DeepSpeed is part of Microsoft's AI at Scale initiative to enable next-generation AI capabilities at scale.
DeepSpeed offers a confluence of system innovations that has made large-scale deep learning training effective and efficient, greatly improved ease of use, and redefined the deep learning training landscape in terms of scale that is possible.
DeepSpeed offers new compressed-training strategies to support fast and low-cost training while reducing the time it takes to train large-scale models without adding additional hardware
DeepSpeed Inference can fuse multiple operators into a single kernel to reduce the number of kernel invocations and latency of main memory access across kernels.
DeepSpeed offers easy-to-use and flexible-to-compose compression techniques for researchers and practitioners to compress their models while delivering faster speed, smaller model size, and increased inference efficiency. DeepSpeed is an important part of Microsoft's new AI at Scale initiative to enable next-generation AI capabilities at scale.
DeepSpeed has enabled the world's most powerful language models like MT-530B and BLOOM.
DeepSpeed has been used to train Megatron-Turing Natural Language Generation model (MT-NLG), the largest and most powerful generative language model in the world.
DeepSpeed is constantly evolving based on feedback from its growing community of users to expand its capabilities.
DeepSpeed is a deep learning optimization library that makes distributed training easy, efficient, and effective. It enables unprecedented scale and speed for both training and inference of deep learning model
DeepSpeed is an easy-to-use deep learning optimization software suite that powers unprecedented scale and speed for both training and inference
DeepSpeed is part of Microsoft's AI at Scale initiative to enable next-generation AI capabilities at scale.
DeepSpeed offers a confluence of system innovations that has made large-scale deep learning training effective and efficient, greatly improved ease of use, and redefined the deep learning training landscape in terms of scale that is possible.
DeepSpeed offers new compressed-training strategies to support fast and low-cost training while reducing the time it takes to train large-scale models without adding additional hardware
DeepSpeed Inference can fuse multiple operators into a single kernel to reduce the number of kernel invocations and latency of main memory access across kernels.
DeepSpeed offers easy-to-use and flexible-to-compose compression techniques for researchers and practitioners to compress their models while delivering faster speed, smaller model size, and increased inference efficiency. DeepSpeed is an important part of Microsoft's new AI at Scale initiative to enable next-generation AI capabilities at scale.
DeepSpeed has enabled the world's most powerful language models like MT-530B and BLOOM.
DeepSpeed has been used to train Megatron-Turing Natural Language Generation model (MT-NLG), the largest and most powerful generative language model in the world.
DeepSpeed is constantly evolving based on feedback from its growing community of users to expand its capabilities.
Microsoft Research
DeepSpeed - Microsoft Research
DeepSpeed, part of Microsoft AI at Scale, is a deep learning optimization library that makes distributed training easy, efficient, and effective.
Continuous Learning_Startup & Investment
https://crossroads.apctp.org/cop/bbs/000000000000/selectArticleDetail.do?nttId=3973&fbclid=IwAR1yPHHfSd0AwSFXrYUScpehSMkf-jJgSVrMjdElPIgC5duhLtkC150IAUU
“BERT를 60초만에 파인튜닝하기”
복잡하고 정신 없는 변화속에 살며 생각거리가 하나 생겼다. 거대 언어 모델이 ‘언어’ 를 배우는 과정은 분류되지 않은 말뭉치를 대상으로 한다. 그 과정에서 거대 언어 모델이 ‘학습’ 하는 것은 무엇인가? 언어의 구조를 학습하기 위한 용도로 말뭉치를 쓰지만, 언어는 정보와 떼 놓을 수가 없다. 실제로 지식을 가르치지 않은 언어 모델들도 질문에 곧잘 대답하지 않는가? 애초에 언어는 인간이 정보를 서로 간에 전달하기 위한 프로토콜이다. 프로토콜로 전달된 데이터에 대한 답을 연산하여 다시 데이터로 답을 하는 것이 대화 과정이다. 그렇다면 우리가 ‘대화를 잘하는 AI’를 개발해 냈다고 느끼는 것은 정말 언어를 잘 만드는 AI 모델을 개발한 것일까, 그렇지 않으면 그 너머의 무언가를 만든 것인가?
내년은 기존의 서비스들을 AI로 개선한 서비스들이 아닌, AI로만 가능한 서비스들의 원년이 될 것이었다. 하지만 거대 언어 모델의 결과물들을 서비스하려는 생각은 아직 아무도 하지 않고 있었다. 그건 미래의 누군가가 할 일이었다.
잘 정의된 데이터로 훈련하는 것에 더해서, 답변들을 사람이 실제로 평가하여 더 나은 답변에 가중치를 주는 모델 튜닝 방식이다. 사람을 중간에 넣는 방식으로 강화학습을 언어 모델 훈련에 적용한 RLHF (Reinforcement Learning by Human Feedback) 방식은 2022년에 InstructGPT에 와서 같은 크기의 언어 모델 성능을 엄청나게 개선하는 결과를 보였다. 수많은 모델들이 RLHF를 적용하기 시작했다. 모델 크기에 스케일 법칙이 있다면 그걸 응용하지 못할 이유가 없을 것이었다. 3월에는 모델 훈련에 들어가는 비용을 엄청나게 줄일 수 있는 µ-Parametrization[19]이 발표되었다. 작은 모델에서 미리 큰 모델의 하이퍼파라미터를 예측하는 것이 가능하다는 연구의 결론은, 거대 모델을 만들 때 드는 파라미터 탐색 수고를 상대적으로 엄청나게 줄였다. 이 연구는 GPT-4 훈련의 기반이 되었다.
11월 말 OpenAI는 대중을 대상으로 챗봇 서비스를 열었다. GPT-3의 개선 버전인 GPT-3.5를 기반으로 한 모델이었다. 특이한 점은 인간 언어 모델에 프로그래밍 코드를 훈련시키는 방식으로 프로그래밍을 잘 하는 언어 모델을 만드는 대신, 프로그래밍 언어 데이터로 훈련된 모델에 인간 언어를 훈련시키는 방식으로 만들어진 모델이라는 점이었다.
더 큰 규모의 문제들이 기다리고 있다. 거대 언어 모델은 엄청난 전력을 소모한다. GPU는 어마어마한 전력을 소모한다. CPU에 비하면 전력 대 성능비가 엄청나게 좋은 기기이지만, 절대 전력 소모량이 너무 크다. NVIDIA A100 8대가 내장된 노드[22]는 약 7kW를, 2023년 기준 가장 성능이 높은 H100 GPU 8대가 내장된 노드는 약 12kW를 소모한다.[23] 기기를 설치하려면 이제 건물부터 지어야 한다는 말이 2019년 이후로 농담이 아니게 되었다. 2021년 브라질에 위치한 슈퍼컴퓨팅 클러스터에서 전력 문제를 겪은 후, 우리는 플랫폼을 통째로 Arm기반으로 이식했다. 몇 년 후 전력 문제가 이슈가 될 것이란 생각에서 였다. 마이크로소프트의 경우 전력 비용을 고려하여 아예 GPU 센터를 수력발전소 옆에 지은 경험을 공유하기도 했다.[24]
주말이 줄어들었다. 할 일이 너무 많아졌다. 시간이 없었다. 우리만 그런 것이 아니었다.
이제 모두에게 시간이 없었다.
- Flan-T5, 1100억 파라미터
- GLM-130B, 1300억 파라미터
- OPT-175B, 1750억 파라미터
- BLOOM, 1760억 파라미터
- PaLM, 5400억 파라미터
언젠가 올 것이라고 생각했던 "AI 가격 경쟁력 시대”가 왔다. 그런데 가격 자체의 허들이 너무 높았다. ChatGPT나 Bard는 경제논리로는 설명할 수 없을 정도로 고가의 서비스 비용을 소모한다.[25] 경쟁이 불러온 너무 빨리 당겨온 미래에 해당된다. 모든 사람들이 그 미래를 손으로 만져본 후였다. 기대치가 엄청나게 올라간 것이 문제였다.
모델이 작으면 창발 현상이 발견되지 않고 멀티 모달 모델로 쓸 수가 없다. 모델이 크면 실제 운영에 너무 큰 돈이 든다.
20억~120억 파라미터 정도의 다양한 ‘말을 잘하는’ 모델들에 대한 다양한 시도들이 하루에 몇 개씩 등장하고 있다. LLaMA는 의도치 않게 개인이 만져볼 수 있는 파운데이션 모델을 널리 퍼뜨렸다. 보통 사람들이 만족할 만한 대화를 만들어내는 “말 잘하는 모델”의 수준은 예전에 달성했음을 수많은 사람들이 깨닫게 되었다. 어느정도 컴퓨터에 지식이 있고 돈을 쓸 수 있는 개인이나 조직, 단체들이 언어 모델 파인 튜닝을 다양한 방법으로 시도할 수 있는 용기가 생겼다.
생각이 많은 밤이면, 모르는 사이에 관심에서 멀어져버린 튜링 테스트 마냥 우리 모두가 어떤 지점을 지나버렸을지도 모른다는 생각이 종종 든다. 풀어야 했던 문제를 풀었거나, 아직 풀면 안되는 문제를 풀어버렸을 것 같다. 설렘이 현기증이 되고 기대가 우울함이 되는 복잡한 감정이 오간다.
복잡하고 정신 없는 변화속에 살며 생각거리가 하나 생겼다. 거대 언어 모델이 ‘언어’ 를 배우는 과정은 분류되지 않은 말뭉치를 대상으로 한다. 그 과정에서 거대 언어 모델이 ‘학습’ 하는 것은 무엇인가? 언어의 구조를 학습하기 위한 용도로 말뭉치를 쓰지만, 언어는 정보와 떼 놓을 수가 없다. 실제로 지식을 가르치지 않은 언어 모델들도 질문에 곧잘 대답하지 않는가? 애초에 언어는 인간이 정보를 서로 간에 전달하기 위한 프로토콜이다. 프로토콜로 전달된 데이터에 대한 답을 연산하여 다시 데이터로 답을 하는 것이 대화 과정이다. 그렇다면 우리가 ‘대화를 잘하는 AI’를 개발해 냈다고 느끼는 것은 정말 언어를 잘 만드는 AI 모델을 개발한 것일까, 그렇지 않으면 그 너머의 무언가를 만든 것인가?
내년은 기존의 서비스들을 AI로 개선한 서비스들이 아닌, AI로만 가능한 서비스들의 원년이 될 것이었다. 하지만 거대 언어 모델의 결과물들을 서비스하려는 생각은 아직 아무도 하지 않고 있었다. 그건 미래의 누군가가 할 일이었다.
잘 정의된 데이터로 훈련하는 것에 더해서, 답변들을 사람이 실제로 평가하여 더 나은 답변에 가중치를 주는 모델 튜닝 방식이다. 사람을 중간에 넣는 방식으로 강화학습을 언어 모델 훈련에 적용한 RLHF (Reinforcement Learning by Human Feedback) 방식은 2022년에 InstructGPT에 와서 같은 크기의 언어 모델 성능을 엄청나게 개선하는 결과를 보였다. 수많은 모델들이 RLHF를 적용하기 시작했다. 모델 크기에 스케일 법칙이 있다면 그걸 응용하지 못할 이유가 없을 것이었다. 3월에는 모델 훈련에 들어가는 비용을 엄청나게 줄일 수 있는 µ-Parametrization[19]이 발표되었다. 작은 모델에서 미리 큰 모델의 하이퍼파라미터를 예측하는 것이 가능하다는 연구의 결론은, 거대 모델을 만들 때 드는 파라미터 탐색 수고를 상대적으로 엄청나게 줄였다. 이 연구는 GPT-4 훈련의 기반이 되었다.
11월 말 OpenAI는 대중을 대상으로 챗봇 서비스를 열었다. GPT-3의 개선 버전인 GPT-3.5를 기반으로 한 모델이었다. 특이한 점은 인간 언어 모델에 프로그래밍 코드를 훈련시키는 방식으로 프로그래밍을 잘 하는 언어 모델을 만드는 대신, 프로그래밍 언어 데이터로 훈련된 모델에 인간 언어를 훈련시키는 방식으로 만들어진 모델이라는 점이었다.
더 큰 규모의 문제들이 기다리고 있다. 거대 언어 모델은 엄청난 전력을 소모한다. GPU는 어마어마한 전력을 소모한다. CPU에 비하면 전력 대 성능비가 엄청나게 좋은 기기이지만, 절대 전력 소모량이 너무 크다. NVIDIA A100 8대가 내장된 노드[22]는 약 7kW를, 2023년 기준 가장 성능이 높은 H100 GPU 8대가 내장된 노드는 약 12kW를 소모한다.[23] 기기를 설치하려면 이제 건물부터 지어야 한다는 말이 2019년 이후로 농담이 아니게 되었다. 2021년 브라질에 위치한 슈퍼컴퓨팅 클러스터에서 전력 문제를 겪은 후, 우리는 플랫폼을 통째로 Arm기반으로 이식했다. 몇 년 후 전력 문제가 이슈가 될 것이란 생각에서 였다. 마이크로소프트의 경우 전력 비용을 고려하여 아예 GPU 센터를 수력발전소 옆에 지은 경험을 공유하기도 했다.[24]
주말이 줄어들었다. 할 일이 너무 많아졌다. 시간이 없었다. 우리만 그런 것이 아니었다.
이제 모두에게 시간이 없었다.
- Flan-T5, 1100억 파라미터
- GLM-130B, 1300억 파라미터
- OPT-175B, 1750억 파라미터
- BLOOM, 1760억 파라미터
- PaLM, 5400억 파라미터
언젠가 올 것이라고 생각했던 "AI 가격 경쟁력 시대”가 왔다. 그런데 가격 자체의 허들이 너무 높았다. ChatGPT나 Bard는 경제논리로는 설명할 수 없을 정도로 고가의 서비스 비용을 소모한다.[25] 경쟁이 불러온 너무 빨리 당겨온 미래에 해당된다. 모든 사람들이 그 미래를 손으로 만져본 후였다. 기대치가 엄청나게 올라간 것이 문제였다.
모델이 작으면 창발 현상이 발견되지 않고 멀티 모달 모델로 쓸 수가 없다. 모델이 크면 실제 운영에 너무 큰 돈이 든다.
20억~120억 파라미터 정도의 다양한 ‘말을 잘하는’ 모델들에 대한 다양한 시도들이 하루에 몇 개씩 등장하고 있다. LLaMA는 의도치 않게 개인이 만져볼 수 있는 파운데이션 모델을 널리 퍼뜨렸다. 보통 사람들이 만족할 만한 대화를 만들어내는 “말 잘하는 모델”의 수준은 예전에 달성했음을 수많은 사람들이 깨닫게 되었다. 어느정도 컴퓨터에 지식이 있고 돈을 쓸 수 있는 개인이나 조직, 단체들이 언어 모델 파인 튜닝을 다양한 방법으로 시도할 수 있는 용기가 생겼다.
생각이 많은 밤이면, 모르는 사이에 관심에서 멀어져버린 튜링 테스트 마냥 우리 모두가 어떤 지점을 지나버렸을지도 모른다는 생각이 종종 든다. 풀어야 했던 문제를 풀었거나, 아직 풀면 안되는 문제를 풀어버렸을 것 같다. 설렘이 현기증이 되고 기대가 우울함이 되는 복잡한 감정이 오간다.