1. 백종원 씨가 창업한지 무려 30년 만에 상장(IPO)을 준비 중이라고 한다.
2. 좀 더 정확하게 말하면, 백종원 씨가 창업한 더본코리아가 과거에도 상장을 시도한 바 있으나, 코로나 팬데믹 등으로 인해 상장이 스탑되었다가, 이번에 다시 도전한다고.
3. 사업을 시작한 후부터, 농담처럼 ‘단기적으로 빨리 성장하는 것보다는, 30년을 끈질기게 살아남아서, 그때쯤 상장할 수 있는 회사를 만드는 것이 바램이라면 바램"이라는 말을 종종 했는데..
4. 백종원 씨조차도 상장까지 가는 데 30년이 걸렸다니 괜히 마음이 겸허해졌다. 스타트업 씬에 있다 보면, 마치 빠른 게 진리이자 선인 것처럼 느껴지지만, 안정적인 기업을 만드는 데는 생각보다 훨씬 더 오랜 시간이 필요한지도 모른다.
2. 좀 더 정확하게 말하면, 백종원 씨가 창업한 더본코리아가 과거에도 상장을 시도한 바 있으나, 코로나 팬데믹 등으로 인해 상장이 스탑되었다가, 이번에 다시 도전한다고.
3. 사업을 시작한 후부터, 농담처럼 ‘단기적으로 빨리 성장하는 것보다는, 30년을 끈질기게 살아남아서, 그때쯤 상장할 수 있는 회사를 만드는 것이 바램이라면 바램"이라는 말을 종종 했는데..
4. 백종원 씨조차도 상장까지 가는 데 30년이 걸렸다니 괜히 마음이 겸허해졌다. 스타트업 씬에 있다 보면, 마치 빠른 게 진리이자 선인 것처럼 느껴지지만, 안정적인 기업을 만드는 데는 생각보다 훨씬 더 오랜 시간이 필요한지도 모른다.
Generative AI created a renewed interest in text-based interfaces. For the first time in history, computers can truly "understand" natural language and respond to open-ended questions and poorly structured commands.
For many, this was a callback to the UNIX philosophy as best articulated by @tszzl in his famous "Text is the Universal Interface" blog post that came out just a few months before ChatGPT.
While tools like DALLE and Midjourney are entirely driven by text, many apps like RunwayML augmented traditional UIs with prompt-based generative AI.
But actually, looking a little closer, you can start to see that Midjourney is growing its own JIT UI for controls inside the chat window.
Some more recent examples of JIT UIs:
- @perplexity_ai copilot where the AI can generate forms on the fly to get more information from the user to tune the search.
- ChatGPT Code Interpreter and products like @JuliusAI_ that can show charts or, in some cases, entire UI.
In computing, nothing ever is a silver bullet. Every new system creates new problems to solve and this one is no different.
As we're all finding out, Chatbots present novel UX challenges, which were best articulated by @Wattenberger in "Why Chatbots Are Not the Future". And JIT UI introduces a new set of challenges, such as how to think about state and persistence.
It's unclear that JIT UIs holds the answer, but it's a thread worth exploring. It's also unclear if this is the kind of thing that startups can innovate on, as it's predicated on having a platform, and UI innovations get copied super quickly.
However, clearly, it's time to try and reimagine UI and solve some issues with GUIs that have plagued computing for decades!
https://x.com/amasad/status/1749993684580593991?s=46&t=h5Byg6Wosg8MJb4pbPSDow
For many, this was a callback to the UNIX philosophy as best articulated by @tszzl in his famous "Text is the Universal Interface" blog post that came out just a few months before ChatGPT.
While tools like DALLE and Midjourney are entirely driven by text, many apps like RunwayML augmented traditional UIs with prompt-based generative AI.
But actually, looking a little closer, you can start to see that Midjourney is growing its own JIT UI for controls inside the chat window.
Some more recent examples of JIT UIs:
- @perplexity_ai copilot where the AI can generate forms on the fly to get more information from the user to tune the search.
- ChatGPT Code Interpreter and products like @JuliusAI_ that can show charts or, in some cases, entire UI.
In computing, nothing ever is a silver bullet. Every new system creates new problems to solve and this one is no different.
As we're all finding out, Chatbots present novel UX challenges, which were best articulated by @Wattenberger in "Why Chatbots Are Not the Future". And JIT UI introduces a new set of challenges, such as how to think about state and persistence.
It's unclear that JIT UIs holds the answer, but it's a thread worth exploring. It's also unclear if this is the kind of thing that startups can innovate on, as it's predicated on having a platform, and UI innovations get copied super quickly.
However, clearly, it's time to try and reimagine UI and solve some issues with GUIs that have plagued computing for decades!
https://x.com/amasad/status/1749993684580593991?s=46&t=h5Byg6Wosg8MJb4pbPSDow
X (formerly Twitter)
Amjad Masad (@amasad) on X
In computing, nothing ever is a silver bullet. Every new system creates new problems to solve and this one is no different.
As we're all finding out, Chatbots present novel UX challenges, which were best articulated by @Wattenberger in "Why Chatbots Are…
As we're all finding out, Chatbots present novel UX challenges, which were best articulated by @Wattenberger in "Why Chatbots Are…
GUI ->?
음성기반의 대화하는 듯한 UI: 텍스트 중심이 아닌 음성과 시각이 합쳐진 새로운 UI. 칠판을 놓고 혹은 여러 이미지, 비디오를 보며 사람과 대화하는 듯한 새로운 인터페이스.
GUI시절이 대형마트 매대에 있는 다양한 애플리케이션들을 비교해가며 구매했다면, AI기반 제품들이 많아지면 백화점에 가서 상담받으면서 제품을 구매하는 것처럼 애플리케이션 사용자 경험이 변경되지 않을까.
일방적으로 사용하기 위한 용도에서 대화가 가능한(사람이라고 느낄만큼의 맥락을 이해하고 약간의 친절함이 가미된) 서비스들이 더 나오지 않을까.
음성기반의 대화하는 듯한 UI: 텍스트 중심이 아닌 음성과 시각이 합쳐진 새로운 UI. 칠판을 놓고 혹은 여러 이미지, 비디오를 보며 사람과 대화하는 듯한 새로운 인터페이스.
GUI시절이 대형마트 매대에 있는 다양한 애플리케이션들을 비교해가며 구매했다면, AI기반 제품들이 많아지면 백화점에 가서 상담받으면서 제품을 구매하는 것처럼 애플리케이션 사용자 경험이 변경되지 않을까.
일방적으로 사용하기 위한 용도에서 대화가 가능한(사람이라고 느낄만큼의 맥락을 이해하고 약간의 친절함이 가미된) 서비스들이 더 나오지 않을까.
It feels good in the moment for hotheads to call for retaliation but we have to think through the second-order consequences. The U.S. only has about 4,000 Tomahawk missiles in its inventory. We can do about a week of Shock & Awe. Then what? Are we going to send in ground troops? Iran’s territory is vast, its forces are decentralized, and enough of its infrastructure is underground by now. It will also be supplied by China and Russia. In retaliation, our highly exposed bases in Syria and Iraq (which Neocons refused to remove, leading to this tragedy) will likely come under heavy fire; in fact our troops there are sitting ducks. Our carrier groups could even be targets. America will take meaningful casualties. Meanwhile, the Strait of Hormuz could be closed, compounding the situation in the Red Sea, causing a global oil shock. Assuming Iran wants to continue the war, we will have no exit strategy. Regime change will fail. We will be stuck in a new forever war. In fact, there’s a decent chance that we will get run out of large parts of the Middle East.
https://x.com/davidsacks/status/1751707656262455559?s=46&t=h5Byg6Wosg8MJb4pbPSDow
https://x.com/davidsacks/status/1751707656262455559?s=46&t=h5Byg6Wosg8MJb4pbPSDow
X (formerly Twitter)
David Sacks (@DavidSacks) on X
It feels good in the moment for hotheads to call for retaliation but we have to think through the second-order consequences. The U.S. only has about 4,000 Tomahawk missiles in its inventory. We can do about a week of Shock & Awe. Then what? Are we going to…
Forwarded from 전종현의 인사이트
"Selling work opens up markets that weren't attractive for software businesses"
"It’s not about selling "virtual employees". It's about unbundling the specific tasks or outcomes that employees have traditionally performed, and selling those."
https://www.sarahtavel.com/p/a-few-sell-work-not-software-updated#%C2%A7its-not-about-selling-virtual-employees-its-about-unbundling-the-specific-tasks-or-outcomes-that-employees-have-traditionally-performed-and-selling-those
"It’s not about selling "virtual employees". It's about unbundling the specific tasks or outcomes that employees have traditionally performed, and selling those."
https://www.sarahtavel.com/p/a-few-sell-work-not-software-updated#%C2%A7its-not-about-selling-virtual-employees-its-about-unbundling-the-specific-tasks-or-outcomes-that-employees-have-traditionally-performed-and-selling-those
Sarahtavel
A few "Sell Work, Not Software" updated thoughts
I am grateful for all the conversations I've had with founders tackling "sell work, not software" opportunities. Some follow-up reflections from those conversations.
Forwarded from 전종현의 인사이트
최근에 매우 인상깊게 본 자료중 하나. 1등이 계속해서 1등을 유지하란 법이 없다는걸 알려주었다. 특히 새롭게 형성되는 시장이라면 더더욱.
예전부터 Ramp 투자자들 코멘트들 보면 빠른 조직문화와 제품 개발력이 결국 승리를 가져올 것이라는 류의 내용이었는데, 그게 진짜로 1등을 만들어낼 줄은 몰랐다.
https://sacra.com/research/ramp-passes-brex/
예전부터 Ramp 투자자들 코멘트들 보면 빠른 조직문화와 제품 개발력이 결국 승리를 가져올 것이라는 류의 내용이었는데, 그게 진짜로 1등을 만들어낼 줄은 몰랐다.
https://sacra.com/research/ramp-passes-brex/
https://ai.atsit.in/posts/4891672901/
Google의 연구팀은 최근 크기와 성능 면에서 놀라운 효율성을 보여주는 최첨단 비전 언어 모델(VLM)인 PaLI-3를 도입하여 자연어 처리에 대한 혁신적인 접근 방식을 공개했습니다. 이 획기적인 VLM은 비슷한 기능을 갖춘 타사 제품에 비해 크기는 현저히 작지만, 10배 이상의 놀라운 결과를 달성하여 타사 제품을 능가합니다.
PaLI-3는 50억 개에 달하는 놀라운 파라미터 수를 가진 놀라운 시각 언어 모델로, 이미지와 언어를 모두 효과적으로 처리할 수 있는 능력을 갖추고 있습니다. 다양한 멀티모달 평가에서 이 뛰어난 VLM은 전담 연구팀의 보고에 따르면 크기가 훨씬 더 큰 다른 모델에 비해 우수한 성능을 입증했습니다.
시각 언어 모델(VLM)은 시각 미디어 관련 문의에 응답하고, 비디오 시퀀스의 내러티브를 제공하며, 이미지 내의 항목을 식별하고, 시각 콘텐츠 내에 존재하는 텍스트를 해독할 수 있는 기능을 보유하고 있습니다. VLM의 대표적인 사례는 OpenAI가 GPT-4-Vision 모델을 통해 제공하는 것이며, NVIDIA와 같은 기업에서는 이러한 모델을 미래 산업용 인공 지능 솔루션 개발의 기본 구성 요소로 간주하고 있습니다.
스케일링으로 VLM 성능 향상
비전 및 언어 모델(VLM)은 일반적으로 언어 모델 외에도 텍스트와 시각적 콘텐츠의 상관관계를 파악할 수 있는 사전 학습된 이미지 모델을 통합합니다. PaLI-3의 아키텍처는 묘사된 장면을 개별 토큰으로 변환하는 비전 트랜스포머를 특징으로 하여 이러한 구조를 준수합니다. 이러한 토큰은 텍스트 정보와 함께 인코더-디코더 트랜스포머 프레임워크를 통해 처리되어 최종 출력으로 생성된 텍스트를 생성합니다.
Google의 이전 모델인 PaLI와 PaLI-X는 지나치게 큰 규모의 비전 트랜스포머가 이미지넷과 같은 단일 모달 작업에서는 항상 최적의 결과를 얻지 못할 수 있지만 시각적 질문 답변과 같은 다중 모달 작업에서는 상당한 개선 효과를 발휘할 수 있음을 입증한 바 있습니다. 실제로 PaLI-X를 통해 Google은 매개변수 수를 무려 550억 개로 확장했습니다.
새로운 훈련 방법과 함께 익숙한 아키텍처에 의존하는 Google의 PaLI-3
Google의 PaLI-X에서 비전 트랜스포머 구현은 이미지 분류 작업을 위해 특별히 설계된 조인트 파인튜닝 트랜스포머를 활용하지만, PaLI-3는 CLIP과 유사한 SigLIP 비전 트랜스포머를 사용하는 대조적인 사전 훈련 방법을 사용합니다.시각적 양식에 20억 개의 매개변수만 할당되고 언어 모델 구성 요소에 50억 개의 매개변수가 추가로 할당된 PaLI-3는 기존 모델에 비해 더욱 간소화된 접근 방식을 보여줍니다.
PaLI-3와 같은 소형 모델은 훈련 및 배포의 용이성, 환경 영향 감소, 모델 개발을 위한 연구 주기 단축 등 대형 모델에 비해 여러 가지 이점을 제공합니다. 또한 PaLI-3는 크기가 작지만 다양한 이미지-음성 작업에서 많은 최첨단 초대형 모델(VLM)보다 성능이 뛰어나며, 비디오 처리를 위해 특별히 훈련되지 않은 특정 벤치마크에서도 새로운 기록을 세웠습니다.
PaLI-3, 차세대 대형 모델 구현 가능
일반적으로 SigLIP 접근 방식을 사용하여 훈련되고 비정형 웹 기반 데이터에서 조정된 소형 모델인 PaLI-3가 보여준 주목할 만한 성과로 인해 보다 실질적인 모델에 대한 선호도가 높아지는 경향이 있습니다. 다양한 멀티모달 정보에 대한 접근성을 고려할 때, 구글은 조만간 PaLI-3를 더욱 확장된 형태로 개발할 가능성이 높습니다.
50억 개라는 적은 매개변수 수를 가진 PaLI-3가 복잡한 초대형 모델(VLM)의 기초적인 측면을 탐구하는 데 관심을 다시 불러일으켰으며, 이러한 모델의 대규모 버전을 개발하는 데 촉매제 역할을 할 수 있다고 믿습니다.
Google의 연구팀은 최근 크기와 성능 면에서 놀라운 효율성을 보여주는 최첨단 비전 언어 모델(VLM)인 PaLI-3를 도입하여 자연어 처리에 대한 혁신적인 접근 방식을 공개했습니다. 이 획기적인 VLM은 비슷한 기능을 갖춘 타사 제품에 비해 크기는 현저히 작지만, 10배 이상의 놀라운 결과를 달성하여 타사 제품을 능가합니다.
PaLI-3는 50억 개에 달하는 놀라운 파라미터 수를 가진 놀라운 시각 언어 모델로, 이미지와 언어를 모두 효과적으로 처리할 수 있는 능력을 갖추고 있습니다. 다양한 멀티모달 평가에서 이 뛰어난 VLM은 전담 연구팀의 보고에 따르면 크기가 훨씬 더 큰 다른 모델에 비해 우수한 성능을 입증했습니다.
시각 언어 모델(VLM)은 시각 미디어 관련 문의에 응답하고, 비디오 시퀀스의 내러티브를 제공하며, 이미지 내의 항목을 식별하고, 시각 콘텐츠 내에 존재하는 텍스트를 해독할 수 있는 기능을 보유하고 있습니다. VLM의 대표적인 사례는 OpenAI가 GPT-4-Vision 모델을 통해 제공하는 것이며, NVIDIA와 같은 기업에서는 이러한 모델을 미래 산업용 인공 지능 솔루션 개발의 기본 구성 요소로 간주하고 있습니다.
스케일링으로 VLM 성능 향상
비전 및 언어 모델(VLM)은 일반적으로 언어 모델 외에도 텍스트와 시각적 콘텐츠의 상관관계를 파악할 수 있는 사전 학습된 이미지 모델을 통합합니다. PaLI-3의 아키텍처는 묘사된 장면을 개별 토큰으로 변환하는 비전 트랜스포머를 특징으로 하여 이러한 구조를 준수합니다. 이러한 토큰은 텍스트 정보와 함께 인코더-디코더 트랜스포머 프레임워크를 통해 처리되어 최종 출력으로 생성된 텍스트를 생성합니다.
Google의 이전 모델인 PaLI와 PaLI-X는 지나치게 큰 규모의 비전 트랜스포머가 이미지넷과 같은 단일 모달 작업에서는 항상 최적의 결과를 얻지 못할 수 있지만 시각적 질문 답변과 같은 다중 모달 작업에서는 상당한 개선 효과를 발휘할 수 있음을 입증한 바 있습니다. 실제로 PaLI-X를 통해 Google은 매개변수 수를 무려 550억 개로 확장했습니다.
새로운 훈련 방법과 함께 익숙한 아키텍처에 의존하는 Google의 PaLI-3
Google의 PaLI-X에서 비전 트랜스포머 구현은 이미지 분류 작업을 위해 특별히 설계된 조인트 파인튜닝 트랜스포머를 활용하지만, PaLI-3는 CLIP과 유사한 SigLIP 비전 트랜스포머를 사용하는 대조적인 사전 훈련 방법을 사용합니다.시각적 양식에 20억 개의 매개변수만 할당되고 언어 모델 구성 요소에 50억 개의 매개변수가 추가로 할당된 PaLI-3는 기존 모델에 비해 더욱 간소화된 접근 방식을 보여줍니다.
PaLI-3와 같은 소형 모델은 훈련 및 배포의 용이성, 환경 영향 감소, 모델 개발을 위한 연구 주기 단축 등 대형 모델에 비해 여러 가지 이점을 제공합니다. 또한 PaLI-3는 크기가 작지만 다양한 이미지-음성 작업에서 많은 최첨단 초대형 모델(VLM)보다 성능이 뛰어나며, 비디오 처리를 위해 특별히 훈련되지 않은 특정 벤치마크에서도 새로운 기록을 세웠습니다.
PaLI-3, 차세대 대형 모델 구현 가능
일반적으로 SigLIP 접근 방식을 사용하여 훈련되고 비정형 웹 기반 데이터에서 조정된 소형 모델인 PaLI-3가 보여준 주목할 만한 성과로 인해 보다 실질적인 모델에 대한 선호도가 높아지는 경향이 있습니다. 다양한 멀티모달 정보에 대한 접근성을 고려할 때, 구글은 조만간 PaLI-3를 더욱 확장된 형태로 개발할 가능성이 높습니다.
50억 개라는 적은 매개변수 수를 가진 PaLI-3가 복잡한 초대형 모델(VLM)의 기초적인 측면을 탐구하는 데 관심을 다시 불러일으켰으며, 이러한 모델의 대규모 버전을 개발하는 데 촉매제 역할을 할 수 있다고 믿습니다.
All Things IT @AI
10배 더 큰 모델의 성능을 달성하는 Google의 새로운 PaLI-3 비전 언어 모델
요약
Google의 연구팀은 최근 크기와 성능 면에서 놀라운 효율성을 보여주는 최첨단 비전 언어 모델(VLM)인 PaLI-3를 도입하여 자연어 처리에 대한 혁신적인 접근 방식을 공개했습니다. 이 획기적인 VLM은 비슷한 기능을 갖춘 타사 제품에 비해 크기는 현저히 작지만, 10배 이상의 놀라운 결과를 달성하여 타사 제품을 능가합니다.
PaLI-3는 50억 개에 달하는 놀라운 파라미터 수를 가진 놀라운 시각 언어 모델로, 이미지와 언어를 모두 효과적으로…
Google의 연구팀은 최근 크기와 성능 면에서 놀라운 효율성을 보여주는 최첨단 비전 언어 모델(VLM)인 PaLI-3를 도입하여 자연어 처리에 대한 혁신적인 접근 방식을 공개했습니다. 이 획기적인 VLM은 비슷한 기능을 갖춘 타사 제품에 비해 크기는 현저히 작지만, 10배 이상의 놀라운 결과를 달성하여 타사 제품을 능가합니다.
PaLI-3는 50억 개에 달하는 놀라운 파라미터 수를 가진 놀라운 시각 언어 모델로, 이미지와 언어를 모두 효과적으로…