Continuous Learning_Startup & Investment – Telegram
Continuous Learning_Startup & Investment
2.4K subscribers
513 photos
5 videos
16 files
2.72K links
We journey together through the captivating realms of entrepreneurship, investment, life, and technology. This is my chronicle of exploration, where I capture and share the lessons that shape our world. Join us and let's never stop learning!
Download Telegram
💡 AI 제품의 UX는 무엇이 달라야할까? - (1) 자동의 함정

Vrew, 뤼튼, 릴리스AI 까지 3개의 AI 제품을 만들며 배우고 느꼈던 것들을 하나씩 공유해보려합니다 🙂

인공지능의 놀라운 발전으로, 정말 많은 인간의 지적 작업을 ‘자동화‘할 수 있는 기회가 열리고 있습니다.
하지만 역설적이게도, 팀 릴리스는 제품의 UX에 대해 논의할 때 ‘자동의 함정‘에 빠지지 말자는 이야기를 많이 합니다.

AI에게 어떤 일을 시켰을 때 100점을 해내는 경우는 많지 않습니다. 대부분 70점 정도에 그치고 맙니다.
70점으로 초안만 만들어 줘도 충분히 많은 시간을 단축해주니 의미 있는 것이 아닐까? 라고 생각할 수도 있겠습니다. 하지만 사용자의 워크플로우를 따라가다보면, 결국 원하는 목적을 달성하기 위해서는 AI가 만들어준 70점 짜리 결과물을 다 부수고 처음부터 100을 만들어야 하는 경우가 빈번히 발생합니다.
이런 제품의 경우 사용자들이 처음엔 ‘와~ 신기하다~‘라고 반응하지만, 실제로는 쓸만한 레벨까지 가지 못해 리텐션이 잘 안 나오게 됩니다. (실제로 세콰이어 리포트에 따르면 기존 기업들에 비해 AI기업들의 리텐션은 아직 매우 낮습니다)

이런 현상을 저희는 ‘자동의 함정’이라 부릅니다.

그럼 나머지 30점은 어떻게 채워야 할까요?
엔지니어링과 UX레이어로 많은 부분을 해결할 수 있었습니다.

저희 제품으로 사례를 들어보겠습니다.
릴리스AI는 영상 요약 서비스를 제공하고 있는데요,
요약이 간혹 부정확하거나 지나치게 축약되어 신뢰도에 의심이 생기는 문제가 있었습니다. 기존의 다른 영상 요약 서비스를 이용해봤을 때, 신뢰도가 의심갈 때 사용자가 취할 수 있는 액션이 없어 결국엔 영상을 처음부터 다시 돌려보게 되는 불편함을 느꼈습니다.

그래서 저희는 1) 요약 문단별로 요약의 근거가 되는 원문스크립트를 바로 아래에 배치하고, 2) 영상 재생 플레이어를 좌측에 항상 고정시켜 요약에 해당하는 구간의 영상과 요약노트를 함께 볼 수 있도록 사용자 경험을 설계했습니다. 3) 최근에는 이해가 잘 안 가는 용어를 클릭하면 영상의 맥락 안에서 풀이해주는 기능도 추가했습니다.

(UX 보러가기 : https://lnkd.in/grYf4ygu)

이러한 제품 철학을 가지고 계속 서비스를 개선하다보니, D+1 Retention도 30%대에서 시작해 현재 56%로 계속 증가하는 중입니다.

https://www.linkedin.com/posts/yein-kim-a33627219_ai-%EC%A0%9C%ED%92%88%EC%9D%98-ux%EB%8A%94-%EB%AC%B4%EC%97%87%EC%9D%B4-%EB%8B%AC%EB%9D%BC%EC%95%BC%ED%95%A0%EA%B9%8C-1-%EC%9E%90%EB%8F%99%EC%9D%98-%ED%95%A8%EC%A0%95-vrew-activity-7167747546352742401-VLTq?utm_source=share&utm_medium=member_desktop
You just keep grinding. 90%of the battle is just staying alive in business and having oxygen to keep trying things and then eventually if you are lucky things can really break in your favors.
• 마이크로소프트가 프랑스 인공지능 스타트업 미스트랄과 협약을 맺음
• 이 협약은 마이크로소프트가 OpenAI 이외의 분야로 활동을 넓히려는 시도의 일환
• 미스트랄은 파리 기반의 회사로, AI 모델을 시장에 출시하는 데 도움을 받게 됨
협약의 내용
• 마이크로소프트는 미스트랄에 투자하며, 금융적인 세부 사항은 공개되지 않음
• 협약에는 유럽 전역의 정부를 위한 애플리케이션 개발을 위한 연구 및 개발 협력 포함
• 이 AI 모델들은 공공 부문의 특정 요구 사항을 해결하는 데 사용될 예정
미스트랄의 위치
• 미스트랄은 마이크로소프트의 Azure 클라우드 컴퓨팅 플랫폼에서 상업적 언어 모델을 제공하는 두 번째 회사
• 미스트랄의 공동 창립자 겸 CEO인 아서 멘쉬는 마이크로소프트의 신뢰가 중요한 발전이라고 언급
마이크로소프트와 OpenAI
• 마이크로소프트는 이미 샌프란시스코 기반의 OpenAI에 약 130억 달러를 투자
• 미국, EU, 영국의 경쟁 감시 기관에서 이 협력 관계를 검토 중
• 마이크로소프트는 OpenAI를 통제하지 않으며, 두 회사는 중요한 파트너라고 강조
AI 경제의 부상
• 구글과 아마존과 같은 다른 대형 기술 회사들도 생성 AI에 대한 투자를 확대
• 생성 AI는 텍스트, 이미지, 코드를 몇 초 만에 생성할 수 있는 소프트웨어
• 이 기술은 전 세계 산업을 변화시킬 것으로 분석가들은 믿음
미스트랄의 기술과 가치
• 미스트랄은 대규모 언어 모델을 구축하며, 이는 생성 AI 제품을 구동하는 기술
• 12월에 약 20억 유로의 가치 평가를 받으며 약 4억 유로 규모의 펀딩 라운드를 확보
• 미스트랄의 모델은 오픈 소스로, 기술 세부 사항이 공개적으로 공개될 예정
AI 모델 개발의 인프라
• 새로운 AI 모델을 훈련하고 개발하는 데 필요한 인프라는 막대한 비용이 듬
• 경쟁할 수 있는 회사는 몇 십 개에 불과
• 마이크로소프트는 독일과 스페인에 새로운 AI 데이터 센터에 56억 달러를 투자할 계획 발표
AI 칩 설계 및 개발에 대한 투자
• AI 칩 설계 및 개발에 더 많은 투자가 이루어질 것으로 예상
• 엔비디아는 이 분야를 선도하며, 최근 가치 순위에서 아마존과 구글 모회사 알파벳을 앞지름
• 마이크로소프트는 인텔과 AMD와 같은 경쟁사와 함께 자체 반도체를 개발할 투자 계획
GN⁺의 의견
• 이 협약은 마이크로소프트가 AI 분야에서 자사의 영향력을 확대하고자 하는 전략적 움직임을 보여줌. OpenAI와의 협력 외에도 다양한 AI 기술을 확보하려는 의도가 엿보임
• 미스트랄과의 파트너십은 마이크로소프트가 오픈 소스 AI 모델에 대한 지원을 계속하겠다는 의지를 나타냄. 이는 개발자 커뮤니티에 더 많은 협력과 혁신의 기회를 제공할 수 있음
• AI 기술의 빠른 발전과 상업화는 데이터 프라이버시, 알고리즘 투명성, 그리고 기술의 윤리적 사용에 대한 논의를 더욱 중요하게 만듦. 이러한 이슈들은 AI 기술을 도입할 때 반드시 고려해야 할 사항임
• 마이크로소프트가 AI 칩 설계 및 개발에 투자할 계획을 밝힌 것은, AI 기술의 핵심 구성 요소인 하드웨어에 대한 통제를 강화하려는 시도로 볼 수 있음. 이는 장기적으로 AI 시장에서의 경쟁력을 높이는 데 기여할 수 있음
• AI 모델을 개발하고 훈련하는 데 필요한 인프라의 비용과 복잡성을 고려할 때, 클라우드 서비스 제공업체와의 협력은 중소기업이나 스타트업에게 중요한 자원이 될 수 있음. 이러한 협력은 기술 혁신과 시장 다양성을 촉진하는 데 중요한 역할을 할 것임

https://www.ft.com/content/cd6eb51a-3276-450f-87fd-97e8410db9eb
Continuous Learning_Startup & Investment
OpenAI also is aiming to build a simulator which mimic the reality without gaps.
Modeling the world for action by generating pixels is as wasteful and doomed to failure.

If your goal is to train a world model for recognition or planning, using pixel-level prediction is a terrible idea," writes LeCun.
First of all, really appreciate the team for sharing helpful insights and design decisions – Sora is incredible and is set to transform the video generation community.

What we have learned so far:
- Architecture: Sora is built on our diffusion transformer (DiT) model (published in ICCV 2023) — it's a diffusion model with a transformer backbone, in short:
DiT = [VAE encoder + ViT + DDPM + VAE decoder].
According to the report, it seems there are not much additional bells and whistles.

- "Video compressor network": Looks like it's just a VAE but trained on raw video data. Tokenization probably plays a significant role in getting good temporal consistency. By the way, VAE is a ConvNet, so DiT technically is a hybrid model ;)

When Bill and I were working on the DiT project, instead of creating novelty (see my last tweet🤷‍♂️), we prioritized two aspects: simplicity and scalability. These priorities offer more than just conceptual advantages.

- Simplicity means flexibility. The cool thing about vanilla ViT that people often miss is how it makes your model way more flexible when it comes to working with input data. For example, in masked autoencoder (MAE), ViT helped us to just process the visible patches and ignore the masked ones. And similarly, Sora "can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid." UNet does not directly offer this flexibility.
👀Speculation: Sora might also use Patch n’ Pack (NaViT) from Google, to make DiT adaptable to variable resolutions/durations/aspect ratios.

- Scalability is the core theme of the DiT paper. First, an optimized DiT runs much faster than UNet in terms of wall-clock time per Flop. More importantly, Sora demonstrated that the DiT scaling law applies not just to images but now to videos as well -- Sora replicates the visual scaling behavior observed in DiT.
👀Speculation: In the Sora report, the quality for the first video is quite bad, I suspect it is using a base model size. A back-of-the-envelope calculation: DiT XL/2 is 5X GFLOPs of the B/2 model, so the final 16X compute model is probably 3X DiT-XL model size, which means Sora might have ~3B parameters – if true, this is not an unreasonable model size . It could suggest that training the Sora model might not require as many GPUs as one would anticipate – I would expect very fast iterations going forward.

The key takeaway is from the "Emerging simulation capabilities" section. Before Sora, it was unclear if long form consistency could emerge on its own or if it required complex subject-driven generation pipelines or even physics simulators. OpenAI has shown that, though not perfect, these behaviors can be achieved with end-to-end training. Yet, two essential points have not been discussed.

1. Training Data: No talk about training source and construction at all, which might just imply data is likely the most critical factor for Sora's success.
👀Speculations: There's already much speculation about data from game engines. I also anticipate the inclusion of movies, documentaries, cinematic long takes, etc. Quality really matters. Super curious where Sora got this data from (surely not YouTube, right?).

2. (Auto-regressive) Long Video Generation: a significant breakthrough in Sora is the ability to generate very long videos. The difference between producing a 2-second video and a 1-minute video is monumental.
In Sora, this is probably achieved through joint frame prediction that allows auto-regressive sampling, yet a major challenge is how to address error accumulation and maintain quality/consistency through time. A very long (and bi-directional) context for conditioning? Or could scaling up simply lessen the issue? These technical details can be super important and hopefully will be demystified in the future

https://x.com/gabor/status/1758295719788822866?s=46&t=h5Byg6Wosg8MJb4pbPSDow

DiT shines in Sora. Our team at NYU has recently released a new DiT model, called SiT.
지난 월요일(11월 27일), 알토스 오피스에서 스타트업 리더들과의 모임을 주최했습니다. 공간을 마련해주신 호스팅 오영택 님과 알토스 관계자분들께 감사의 말씀을 전합니다.

제한된 공간과 시간으로 신청해주신 모든 분들과 함께하지 못한 점은 아쉬웠습니다. CTO, 개발 리드, CEO분들과 '동기부여', '팀의 불완전성(특히 시니어의 부재)', 그리고 '타 팀과의 소통 문제'라는 주제로 시작한 토론은 흥미진진했습니다. 모든 분들이 열정적으로 참여해주시고 많은 인사이트와 고민을 함께 나눠 주셔서 다시 한번 너무 감사드립니다.

저는 2년간의 블록체인 오픈소스 활동과 약 5년간 해치랩스에서 경험을 바탕으로 Engineering Manager 경험을 공유했습니다. 모임에서 공유한 내용을 저처럼 팀을 위해 밤낮으로 고민하시는 분들께 조금이라도 도움이 되고자 짧게 공유드립니다. 🔍

1. 저는 Manager를 팀(사람)에 집중하여 조직에서 영향력을 발휘하는 사람으로 정의하고 있습니다.

2. IC(개별 기여자)에서 Manager로 전환하면서 정체성, 관계, 영향력의 전환이 일어났습니다.
- 정체성의 전환: '좋은 제품을 만드는 개발자'에서 '내재적 동기를 기반으로 팀원들의 성 장을 촉진하며, 지속가능하고 가치있는 결과를 달성하는 팀을 만들고 이끌어 가는 리더로 전환'
- 관계의 전환: 핵심 이해관계자들이 '엔지니어 팀원들'에서 'CEO, Head of BD, Head of TA, 주요 엔지니어 팀원'으로 전환
- 영향력의 전환: '제품 개발'에서 '구성원들의 성과 & 역량 성장 및 평가, 피드백, 채용, 팀의 문화와 방향성 구축'으로 전환

3. Manager로 팀의 미션을 달성하기 위한 팀의 Being(존재) 설정했습니다.
- 시장 변화에 신속하게 대응하고 지속적으로 빠르게 가치를 창출하는 엔지니어링 팀
- 단순 개발을 넘어 통합된 책임감을 가진 엔지니어링 팀

4. Top Down, Bottom Up 전략을 활용하여 목표를 달성하기 위해 노력했습니다.
Top Down 전략 (Manager로 방향성 제시)
- 개발 작업의 단위와 책임 범위 조정
- 기능별 배포 전략 & E2E 자동화 테스트 도입
- 역량 프레임워크 정의
- 생산성 지표 도입
Bottom Up 전략 (팀원에게 초점을 맞춰 내재적 동기를 기반으로 팀 방향성에 Align)
- 2주 단위의 1on1(방향성 Align & 성장에 초점)
- 역량 평가

5. 대부분의 어려움은 Bottom Up 전략을 실행하는 데에서 일어났습니다.

6. 아직 많이 부족하다고 생각하지만, 팀의 생산성을 크게 향상 시켰고, 통합된 책임감을 느끼는 문화가 자리 잡았으며, 기대하는 역량에 대한 합의를 통해 구성원들의 성장이 일어났습니다.

7. 이런 과정 속에서 제가 배운점은 다음과 같습니다(내용은 뻔하지만 잘 하는것은 어렵다고 생각합니다).
- Bottom Up 전략의 중요성 인식: 아무리 뛰어난 전략이더라도 구성원들이 제대로 실행해주지 않으면 실패함
- 구성원들의 문제에 대한 깊은 이해: 경청과 질문을 통해 구성원들의 문제에 대한 본질적 접근 및 이해가 중요함
- 나보다 역량이 뛰어난 IC와 일하는 법: 그들이 문제에 집중할때 팀의 관점에서 방향성을 제시하여 팀 성과를 높일 수 있음
- 구성원에 대한 명확한 기대치 설정: 구성원의 성과나 역량이 아쉽다면 명확하게 기대하는 바를 전달했는지를 고민해야함
👍1
은사님과의 대화 중 기억에 남는 구절들.

결국 창업자의 가치관, 세계관이 그 조직의 DNA이고 일하는 방식이다.

창업자의 나다움이 조직의 나다움을 만든다.

좋아하지만, 고객을 만족시킬만큼 지독하게 좋아하는 일을 창업해야한다.

짧고 빠른 성공이 아니라 나다운 여정을 가는 것이 중요하다.

너무 짧은 순간에 많은 것을 이뤘다고 착각하면 늙고 고인다.

주변을 보고 배우면 성장할 수 있고, 비교하면 불행해진다.

되는지 안되는지는 해보기 전까진 모른다. 가능한 많은 것들을 해보고 나면 그 일이 잘 안되더라도 새로운 세상과 기회가 보인다.

돈 많이 벌어서 남 좋은 일 많이 하자.

특정 목적을 성취하는 삶이 아니라 꾸준히 배우고 성장하고 감사하는 과정이 좋다.
2
Many people learn about the tools just enough to get the job done. I prefer to dive deeper; understanding my tools in detail makes my work much more fun.

Not sure if it's good or bad. Just more fun! Perhaps that’s what truly matters in the end.
🔥2
A rock pile ceases to be a rock pile the moment a single man contemplates it, bearing within him the image of a cathedral.

한 사람이라도 큰 성당의 이미지를 품고 돌무더기를 본다면, 그 순간 더 이상 그것은 돌무더기가 아니다.
💡Winning Instincts vs. Winning Ideas: Your instinct is correct 95% of the time; your ideas - 25% of the time. Trust your instincts, not your ideas.
💪 Small Ideas - Big Ambitions: Start small with big ambitions.
🧩 Proven, Better, New: Each product is an aggregation of individual features where some features are ‘proven’, other features are ‘better’ than the existing ones, and there are ‘new’ features that did not exist before. It is about making the product, as a whole, better. Otherwise (reciting Steve Jobs), by trying to make every feature 10% better, you may make the product 50% worse.
🆕 All New Fails: Assume new fails, and you can find a way to work around it.
🏡 Death By a Thousand Compromises: If you make too many compromises as a founder, you may end up building a company you don’t want to work at. Build a house you want to live in. Decide how ambitious you really are. No judgment, just intellectual honesty. Identify things that matter to you, lines you would not cross, trade-offs you would be willing to make. “I’m a team player; if I’m running the team, I have to be CEO”
🎈 Taste & creativity: You have to constantly increase your bar, develop your taste, make it better. Care at a pixel level. Keep an eye out for true signals.
⚙️ Lessons Learned: Can’t be naïve to a new space; have to learn on the go. Proven, better, new – copy what works well. Allow yourself to be too early – it may be hard but it has to be done to discover a new planet. Understand what your ego is and how to avoid pitfalls that come with it.
Happiness: Being and feeling useful to a community you care about.

Mark Pincus Founder and CEO of Zynga
https://www.klarna.com/international/press/klarna-ai-assistant-handles-two-thirds-of-customer-service-chats-in-its-first-month/

• The AI assistant has had 2.3 million conversations, two-thirds of Klarna’s customer service chats
• It is doing the equivalent work of 700 full-time agents
• It is on par with human agents in regard to customer satisfaction score
• It is more accurate in errand resolution, leading to a 25% drop in repeat inquiries
• Customers now resolve their errands in less than 2 mins compared to 11 mins previously
• It’s available in 23 markets, 24/7 and communicates in more than 35 languages
• It’s estimated to drive a $40 million USD in profit improvement to Klarna in 2024