LLM을 RAG 방식으로 써보시는 시도를 많이 하실텐데요 .
관련하여 스탠포드에서 LLM에 넣는 input들의 상대적 위치와 관련해 다양한 실험을 한 흥미로운 논문이 있어 정리해봤습니다.
당연히 서비스 상황마다, 이용하는 LLM마다 상황이 다르지만
실험 범위를 좁힐 수 있는 좋은 가이드가 되겠네요
(혹시 이런 RAG 실전에 도움되는 다른 논문을 알고 계시다면 공유해주시면 감사하곘습니다! ㅎㅎ )
<짧은 (제 맘대로) 결론>
RAG 접근에서는 ranked list truncation 전략, 즉 순위가 높은 document를 앞에 넣어주고 일정 수준 이하 document는 넣어주지 않는 전략을 쓰자
만약 위 1의 접근이 쉽지 않은 경우, 즉 중요한 부분을 골라내기 어려운 경우는 GPT-3.5말고 Claude를 검토해 볼법하다.
그 이유는 단순히 max context length가 길어서라기 보다는,
중요 정보 위치에 따른 결과 편차가 GPT에 비해 적어서
decoder-only 모델을 쓰는 경우(예: gpt-3.5-turbo)에는 Query-aware contextualization 방법, 즉 프롬프트에 documents 전후에 query 텍스트를 중복해서 넣어주는 방법을 시도해보자
-------------
<논문 내용 정리>
중요한 정보가 앞 또는 뒤쪽에 있을 때 성능이 높아진다.
• [첫번째 그림] 정답을 포함한 passage의 상대적 위치를 바꿔가면서 실험했더니 앞 또는 뒤쪽에 있을때와 중간에 있을 때 (실험 상) 정확도가 많이 차이남
• 심지어 GPT-3.5의 경우는, 중요 정보가 중간에 있는 경우에, 아무런 context를 주지 않고 실행한 경우보다 더 낮은 수치가 나오기도…ㄷㄷ
• 이러한 U-shape 결과는 instcruct 넣어주든 안넣어주든 유사하게 나타나며, encoder-decoder 모델보다 decoder-only 모델에서 더 심하게 나타남.
(근데 경향성이 저렇다는거지 결국 중요한건 모델 바이 모델입니다.
예를 들어 claude의 길이에 따른 성능 편차는 gpt-3.5에 비해 훨씬 적습니다.)
• [두번째 그림] 이 현상은 supervised instruction-tuning을 한 모델뿐만 아니라 하지 않은 모델에도 유사한 현상이 나타남.
즉 instruction-tuning할 때 instruct가 앞쪽에 위치해서 이런 현상이 나타나는건 아닌것으로 보임
decoder-only 모델에서 Query-aware contextualization 방법이 효과 있다.
• Query-aware contextualization 란 프롬프트에서 Query 텍스트를 documents 전후로 넣어주는 방법
• 즉 1번 결과에서 보듯 정보의 위치가 퍼포먼스에 영향을 많이 끼치는 decoder-only 모델의 경우에는 query 위치도 중요하단 얘기임
• multi-document QA에서는 상대적으로 이 기법의 효과는 적었지만, 이 때도 중요 document의 상대적 위치에 따라 영향 정도가 달라짐
(중요 document가 앞쪽에 위치하는 경우는 multi-document QA에서도 이 방법이 유효했음)
Context를 많이 넣어줄수록 항상 좋은가? -> 당연히 아니다
• 일정 수준의 context가 이미 있는 상황에서는 관련 있는 내용이라도 더 넣어봤자 성능 향상이 미미
• [세번째 그림] 관련 없는걸 넣으면 당연하게도 떨어지는 경향을 보임
• 또한 Extended-context 모델과 원 모델 비교헀을 때 동일 인풋에 대해서는 성능 차이 거의 없다
(여기서는 GPT-3.5-Turbo and GPT-3.5-Turbo (16K) 를 비교했습니다.
16k 가격이 두배고, 많이 넣어봤자 도움이 안되니 최대한 8k 모델에 맞춰서 이용하는게 이득)
참고: 실험환경
Task: multi-document QA, key-value retrieval
Model: OpenAI’s GPT-3.5-Turbo, Anthropic’s Claud, MPT-30B-Instruct, LongChat-13B(16K)
https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_are-vector-databases-here-to-stay-yes-activity-7085908435686285312-QVfB/?utm_source=share&utm_medium=member_android
관련하여 스탠포드에서 LLM에 넣는 input들의 상대적 위치와 관련해 다양한 실험을 한 흥미로운 논문이 있어 정리해봤습니다.
당연히 서비스 상황마다, 이용하는 LLM마다 상황이 다르지만
실험 범위를 좁힐 수 있는 좋은 가이드가 되겠네요
(혹시 이런 RAG 실전에 도움되는 다른 논문을 알고 계시다면 공유해주시면 감사하곘습니다! ㅎㅎ )
<짧은 (제 맘대로) 결론>
RAG 접근에서는 ranked list truncation 전략, 즉 순위가 높은 document를 앞에 넣어주고 일정 수준 이하 document는 넣어주지 않는 전략을 쓰자
만약 위 1의 접근이 쉽지 않은 경우, 즉 중요한 부분을 골라내기 어려운 경우는 GPT-3.5말고 Claude를 검토해 볼법하다.
그 이유는 단순히 max context length가 길어서라기 보다는,
중요 정보 위치에 따른 결과 편차가 GPT에 비해 적어서
decoder-only 모델을 쓰는 경우(예: gpt-3.5-turbo)에는 Query-aware contextualization 방법, 즉 프롬프트에 documents 전후에 query 텍스트를 중복해서 넣어주는 방법을 시도해보자
-------------
<논문 내용 정리>
중요한 정보가 앞 또는 뒤쪽에 있을 때 성능이 높아진다.
• [첫번째 그림] 정답을 포함한 passage의 상대적 위치를 바꿔가면서 실험했더니 앞 또는 뒤쪽에 있을때와 중간에 있을 때 (실험 상) 정확도가 많이 차이남
• 심지어 GPT-3.5의 경우는, 중요 정보가 중간에 있는 경우에, 아무런 context를 주지 않고 실행한 경우보다 더 낮은 수치가 나오기도…ㄷㄷ
• 이러한 U-shape 결과는 instcruct 넣어주든 안넣어주든 유사하게 나타나며, encoder-decoder 모델보다 decoder-only 모델에서 더 심하게 나타남.
(근데 경향성이 저렇다는거지 결국 중요한건 모델 바이 모델입니다.
예를 들어 claude의 길이에 따른 성능 편차는 gpt-3.5에 비해 훨씬 적습니다.)
• [두번째 그림] 이 현상은 supervised instruction-tuning을 한 모델뿐만 아니라 하지 않은 모델에도 유사한 현상이 나타남.
즉 instruction-tuning할 때 instruct가 앞쪽에 위치해서 이런 현상이 나타나는건 아닌것으로 보임
decoder-only 모델에서 Query-aware contextualization 방법이 효과 있다.
• Query-aware contextualization 란 프롬프트에서 Query 텍스트를 documents 전후로 넣어주는 방법
• 즉 1번 결과에서 보듯 정보의 위치가 퍼포먼스에 영향을 많이 끼치는 decoder-only 모델의 경우에는 query 위치도 중요하단 얘기임
• multi-document QA에서는 상대적으로 이 기법의 효과는 적었지만, 이 때도 중요 document의 상대적 위치에 따라 영향 정도가 달라짐
(중요 document가 앞쪽에 위치하는 경우는 multi-document QA에서도 이 방법이 유효했음)
Context를 많이 넣어줄수록 항상 좋은가? -> 당연히 아니다
• 일정 수준의 context가 이미 있는 상황에서는 관련 있는 내용이라도 더 넣어봤자 성능 향상이 미미
• [세번째 그림] 관련 없는걸 넣으면 당연하게도 떨어지는 경향을 보임
• 또한 Extended-context 모델과 원 모델 비교헀을 때 동일 인풋에 대해서는 성능 차이 거의 없다
(여기서는 GPT-3.5-Turbo and GPT-3.5-Turbo (16K) 를 비교했습니다.
16k 가격이 두배고, 많이 넣어봤자 도움이 안되니 최대한 8k 모델에 맞춰서 이용하는게 이득)
참고: 실험환경
Task: multi-document QA, key-value retrieval
Model: OpenAI’s GPT-3.5-Turbo, Anthropic’s Claud, MPT-30B-Instruct, LongChat-13B(16K)
https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_are-vector-databases-here-to-stay-yes-activity-7085908435686285312-QVfB/?utm_source=share&utm_medium=member_android
Linkedin
Philipp Schmid on LinkedIn: Are Vector Databases here to stay? 🔍 Yes, it seems LLMs are lost in the… | 116 comments
Are Vector Databases here to stay? 🔍 Yes, it seems LLMs are lost in the Middle and lose focus on long inputs.🗺👁🗨
In the “Lost in the Middle: How Language… | 116 comments on LinkedIn
In the “Lost in the Middle: How Language… | 116 comments on LinkedIn
<의사결정의 순서>
전문가와 비전문가의 차이가 크게 도드라지는 부분 중 하나는 일의 순서이다. 특히 인지적 과업일 경우 의사결정의 순서가 전문가와 비전문가를 가른다. 어떤 순서로 의사결정을 하면 일을 하기가 훨씬 수월한데, 그렇지 않으면 일하면서 헤매게 되고 어려움을 겪게 된다.
해야할 의사결정들이 많을 때 자신에게 물어야할 질문은 이렇다. "어느 의사결정을 먼저 하면 다른 의사결정들을 내리기가 훨씬 수월해질까?"
이것이 바로 건축학자 크리스토퍼 알렉산더가 말하는 시퀀스(sequence)라는 개념이다.
건축학자인 크리스토퍼 알렉산더에 따르면 작은 집 하나를 짓는데에만 해야할 의사결정이 수백개에 달한다고 한다. 그러면 가능한 의사결정의 순서는 천문학적으로 늘어나게 된다. 하지만 가장 핵심적인(center) 의사결정부터 하나씩 진행하게 되면 점점 일이 정돈되고 수월하게 풀리게 된다. 했던 걸 다시 되돌려야 할 확률도 확 줄어든다.
예를 들어, 그는 부엌을 만들 때에 가장 우선적으로 할 의사결정 중 하나로 식탁의 위치 정하기를 꼽는다. 왜냐하면 결국 (서양식) 부엌의 가장 핵심이 되는 활동은 가족이 함께 식사를 하는 것이기 때문이다. 이게 정해지면 다른 모든 것들은 부차적인 의사결정이 되어 굉장히 쉽게 풀려버린다. 근데, 이걸 정하지 않은 상태에서 냉장고를 어디에 둘지 정하는 것은 기준이 명확하지 않아 어려움이 많을 것이다.
건축뿐만이 아니다. 인지적 작업을 하는 경우 모두가 해당한다. 내가 의사결정을 내려야 하는데 감도 잘 안오고 모호하다면 순서가 잘못된 거 아닌가 생각해 보는 것이 도움이 될 것이다.
전문가와 비전문가의 차이가 크게 도드라지는 부분 중 하나는 일의 순서이다. 특히 인지적 과업일 경우 의사결정의 순서가 전문가와 비전문가를 가른다. 어떤 순서로 의사결정을 하면 일을 하기가 훨씬 수월한데, 그렇지 않으면 일하면서 헤매게 되고 어려움을 겪게 된다.
해야할 의사결정들이 많을 때 자신에게 물어야할 질문은 이렇다. "어느 의사결정을 먼저 하면 다른 의사결정들을 내리기가 훨씬 수월해질까?"
이것이 바로 건축학자 크리스토퍼 알렉산더가 말하는 시퀀스(sequence)라는 개념이다.
건축학자인 크리스토퍼 알렉산더에 따르면 작은 집 하나를 짓는데에만 해야할 의사결정이 수백개에 달한다고 한다. 그러면 가능한 의사결정의 순서는 천문학적으로 늘어나게 된다. 하지만 가장 핵심적인(center) 의사결정부터 하나씩 진행하게 되면 점점 일이 정돈되고 수월하게 풀리게 된다. 했던 걸 다시 되돌려야 할 확률도 확 줄어든다.
예를 들어, 그는 부엌을 만들 때에 가장 우선적으로 할 의사결정 중 하나로 식탁의 위치 정하기를 꼽는다. 왜냐하면 결국 (서양식) 부엌의 가장 핵심이 되는 활동은 가족이 함께 식사를 하는 것이기 때문이다. 이게 정해지면 다른 모든 것들은 부차적인 의사결정이 되어 굉장히 쉽게 풀려버린다. 근데, 이걸 정하지 않은 상태에서 냉장고를 어디에 둘지 정하는 것은 기준이 명확하지 않아 어려움이 많을 것이다.
건축뿐만이 아니다. 인지적 작업을 하는 경우 모두가 해당한다. 내가 의사결정을 내려야 하는데 감도 잘 안오고 모호하다면 순서가 잘못된 거 아닌가 생각해 보는 것이 도움이 될 것이다.
2. <생성적 순서>
다음은 건축가 Christopher Alexander의 역작 Nature of Order 2권(p. 317)에 나오는 일화를 내가 번역하고(급하게 하느라 좀 거칠다) 편집한 것이다. 여기에 애자일의 오의奧義가 숨어 있다. 사실 이런 게 회고니 스크럼 미팅이니 하는 것보다 오백배 더 중요하다.
- ---
건축은 복잡하기 때문에 디자이너는 모든 걸 한번에 해야한다는 이야기가 퍼져있다. "복잡한 전체가, 부분으로 나뉘지 않는 하나로 존재하는데 어떻게 한 번에 하나씩 처리하면서 설계를 성공적으로 할 수 있겠어요?" 같은 질문을 보면 알 수 있다.
건축을 공부하는 학생 하나를 가르치려고 내가 여러달 노력을 했다. 그는 뛰어난 학생이었지만 설계에 대해 취약했다. 그러다가 그 친구가 집 하나를 설계해야 하는 디자인 수업에 같이 참여하게 되었다. 그 학생은 제대로 설계를 하려고 아무리 노력해도 잘 되지 않았다. 그의 드로잉 보드 위에는 난잡한 흔적이 가득했다.
누군가 설계를 제대로 못할 때에는 통상 잘못된 순서로 접근을 하기 때문이다. 모든 가능한 이슈들 사이를 오가면서 계속 혼돈 속에 빠지기 때문이다.
그러다가 어느날 그 학생이랑 같이 앉아서 대화를 하게 됐다.
"오늘 당신의 설계를 저랑 대화하면서 풀어보면 어떨까요. 일단 이미 갖고 있는 건 잊으세요. 전체 설계를 다 지워버리고요. 아무것도 없는 거로 시작합시다."
"그 현장(site)에서 가장 중요한 건 뭐고, 또 그 현장과 관련해 당신의 설계가 해야할 가장 중요한 것은 무엇인가요? 나머지는 걱정하지 마세요. 이 질문 하나에 대해서만 얘기해주세요."
"좋아요. 그럼 표시를 해보죠. 그거 하나만 딱 넣어봐요. 나머지는 모두 잊어먹고요."
"좋아요. 이제 다음으로 가장 중요한 게 뭔지 말해주세요."
이렇게 한시간 가량 지속했다. 학생이 뭔가가 중요하다고 했지만 내가 느끼기에 그 학생이 실제로 그걸 중요하게 느낀 건지 의심이 가면, 나는 그 학생을 쳐다보면서 아뇨, 다음으로 진짜로 가장 중요한 게 뭔가요? 라고 묻기도 했다.
그렇게 한시간이 끝나갈 때 쯤에는 그는 아름다운 건물을 완성할 수 있었다.
그 학생이 나에게 와서 이렇게 말했다. "이게 이렇게 간단하리라고는 생각도 못했어요. 전에는 한번도 이걸 이해한 적이 없었어요. 근데 이제 마침내 이해를 했어요. 선생님이 이제껏 얘기해 온 게 무슨 말인지요. 선생님은 그냥 한번에 딱 하나씩만 갖고 하시고 또 그걸 바른 순서로 하시는 거에요. 그게 전부죠. 단지 가장 중요한 걸 하라는 거. 그리고 그걸 끝내라는 거."
이게 작동하는 이유는 자연의 모든 시스템과 같이, 실제로 펼쳐지는 과정이 그 자제로 "전체"(whole)라는 것 때문이다. 인간의 모든 펼쳐지는 과정의 핵심은, 예술가 혹은 건축가가 바로 첫날부터 자기가 만드는 걸 전체로, 온전한 하나의 것으로 시각화할 수 있어야 한다는 거다. 심지어 당신이 시작하기도 전에, 그걸 선택하고 그게 바로 전체인 거처럼 봐야 한다. 그걸 전체로서 느끼고 그 전체성 속에서 그 부분을 상상해야 하며... 점진적으로 거기에서 이 전체성의 특성들을 끌어내야 한다.
김창준 님
다음은 건축가 Christopher Alexander의 역작 Nature of Order 2권(p. 317)에 나오는 일화를 내가 번역하고(급하게 하느라 좀 거칠다) 편집한 것이다. 여기에 애자일의 오의奧義가 숨어 있다. 사실 이런 게 회고니 스크럼 미팅이니 하는 것보다 오백배 더 중요하다.
- ---
건축은 복잡하기 때문에 디자이너는 모든 걸 한번에 해야한다는 이야기가 퍼져있다. "복잡한 전체가, 부분으로 나뉘지 않는 하나로 존재하는데 어떻게 한 번에 하나씩 처리하면서 설계를 성공적으로 할 수 있겠어요?" 같은 질문을 보면 알 수 있다.
건축을 공부하는 학생 하나를 가르치려고 내가 여러달 노력을 했다. 그는 뛰어난 학생이었지만 설계에 대해 취약했다. 그러다가 그 친구가 집 하나를 설계해야 하는 디자인 수업에 같이 참여하게 되었다. 그 학생은 제대로 설계를 하려고 아무리 노력해도 잘 되지 않았다. 그의 드로잉 보드 위에는 난잡한 흔적이 가득했다.
누군가 설계를 제대로 못할 때에는 통상 잘못된 순서로 접근을 하기 때문이다. 모든 가능한 이슈들 사이를 오가면서 계속 혼돈 속에 빠지기 때문이다.
그러다가 어느날 그 학생이랑 같이 앉아서 대화를 하게 됐다.
"오늘 당신의 설계를 저랑 대화하면서 풀어보면 어떨까요. 일단 이미 갖고 있는 건 잊으세요. 전체 설계를 다 지워버리고요. 아무것도 없는 거로 시작합시다."
"그 현장(site)에서 가장 중요한 건 뭐고, 또 그 현장과 관련해 당신의 설계가 해야할 가장 중요한 것은 무엇인가요? 나머지는 걱정하지 마세요. 이 질문 하나에 대해서만 얘기해주세요."
"좋아요. 그럼 표시를 해보죠. 그거 하나만 딱 넣어봐요. 나머지는 모두 잊어먹고요."
"좋아요. 이제 다음으로 가장 중요한 게 뭔지 말해주세요."
이렇게 한시간 가량 지속했다. 학생이 뭔가가 중요하다고 했지만 내가 느끼기에 그 학생이 실제로 그걸 중요하게 느낀 건지 의심이 가면, 나는 그 학생을 쳐다보면서 아뇨, 다음으로 진짜로 가장 중요한 게 뭔가요? 라고 묻기도 했다.
그렇게 한시간이 끝나갈 때 쯤에는 그는 아름다운 건물을 완성할 수 있었다.
그 학생이 나에게 와서 이렇게 말했다. "이게 이렇게 간단하리라고는 생각도 못했어요. 전에는 한번도 이걸 이해한 적이 없었어요. 근데 이제 마침내 이해를 했어요. 선생님이 이제껏 얘기해 온 게 무슨 말인지요. 선생님은 그냥 한번에 딱 하나씩만 갖고 하시고 또 그걸 바른 순서로 하시는 거에요. 그게 전부죠. 단지 가장 중요한 걸 하라는 거. 그리고 그걸 끝내라는 거."
이게 작동하는 이유는 자연의 모든 시스템과 같이, 실제로 펼쳐지는 과정이 그 자제로 "전체"(whole)라는 것 때문이다. 인간의 모든 펼쳐지는 과정의 핵심은, 예술가 혹은 건축가가 바로 첫날부터 자기가 만드는 걸 전체로, 온전한 하나의 것으로 시각화할 수 있어야 한다는 거다. 심지어 당신이 시작하기도 전에, 그걸 선택하고 그게 바로 전체인 거처럼 봐야 한다. 그걸 전체로서 느끼고 그 전체성 속에서 그 부분을 상상해야 하며... 점진적으로 거기에서 이 전체성의 특성들을 끌어내야 한다.
김창준 님
#스타트업 아이디어: LLM을 위한 QA 플랫폼
LLM을 활용한 서비스가 많아지면, LLM의 Hallucination을 잡는 게 중요하고 이를 위해서 여러 Iteration을 돌면서 엔지니어링을 해야하는데요.
예를들어, 챗봇 애플리케이션을 쇼핑몰에 도입하려고 한다면 이커머스 환경에서 챗봇의 유용성은 제품 클릭 수와 같은 지표에 연결되어야 하며, 이 지표를 기반으로 피드백 및 모델 조정이 이루어져야해요. 그런데 이런 걸 하기엔 되게 어려운 점들이 많죠. 그리고 이 챗봇 애플리케이션의 성능을 높이기 위해서는 여러가지 요소(데이터 품질, 학습 방식, 디버깅 방식, 프롬프트 등을 개선해야하는데요. 이걸 자체적으로 하기엔 좀 빡세보이네요 ㅎㅎ
https://snorkel.ai/도 이런 비즈니스 해보고 싶어하는 것 같고요.
https://dust.tt/는 ML 엔지니어가 아닌 쉬운 GUI로 봇을 만드는데에 집중하는 팀인 것 같고요 ㅎㅎ
LLM을 활용한 서비스가 많아지면, LLM의 Hallucination을 잡는 게 중요하고 이를 위해서 여러 Iteration을 돌면서 엔지니어링을 해야하는데요.
예를들어, 챗봇 애플리케이션을 쇼핑몰에 도입하려고 한다면 이커머스 환경에서 챗봇의 유용성은 제품 클릭 수와 같은 지표에 연결되어야 하며, 이 지표를 기반으로 피드백 및 모델 조정이 이루어져야해요. 그런데 이런 걸 하기엔 되게 어려운 점들이 많죠. 그리고 이 챗봇 애플리케이션의 성능을 높이기 위해서는 여러가지 요소(데이터 품질, 학습 방식, 디버깅 방식, 프롬프트 등을 개선해야하는데요. 이걸 자체적으로 하기엔 좀 빡세보이네요 ㅎㅎ
https://snorkel.ai/도 이런 비즈니스 해보고 싶어하는 것 같고요.
https://dust.tt/는 ML 엔지니어가 아닌 쉬운 GUI로 봇을 만드는데에 집중하는 팀인 것 같고요 ㅎㅎ
### What is Flash Attention?
FlashAttention is an algorithm designed to improve the performance, cost, and latency of attention mechanisms in transformer models, particularly in large language models (LLMs) and other transformer-based architectures**[1](https://www.quora.com/How-does-flash-attention-work)**. It can replace standard attention mechanisms in various applications, offering significant benefits in terms of speed, memory efficiency, and training costs**[1](https://www.quora.com/How-does-flash-attention-work)**. It has been widely adopted in large language model (LLM) libraries due to its significant speedup and memory efficiency**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)[11](https://github.com/Dao-AILab/flash-attention)**.
### Model Performance
FlashAttention-2, the latest version, is 2x faster than its predecessor, FlashAttention, and 5-9x faster than standard attention implementations**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. This speedup allows for training models with twice as long context for the same training cost as before**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. When used end-to-end to train GPT-style language models, FlashAttention-2 reaches a training speed of up to 225 TFLOPs/s**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)[5](https://twitter.com/_akhaliq/status/1680988185776607237)**.
### Cost and Latency
FlashAttention-2 addresses the inefficiencies of its predecessor by reformulating the algorithm to reduce non-matmul FLOPs, improve parallelism, and optimize work partitioning between thread blocks and warps on GPUs**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. Non-matmul FLOPs are more expensive than matmul FLOPs, so these improvements lead to significant speedup and reduced latency**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**.The algorithm also minimizes communication and synchronization between warps, further improving performance**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. FlashAttention-2 is more memory-efficient than exact attention baselines, with memory usage linear in sequence length rather than quadratic**[3](https://arxiv.org/pdf/2205.14135.pdf)[16](https://www.adept.ai/blog/flashier-attention)**. This allows it to scale to much longer sequence lengths, enabling the training of higher-quality models**[2](https://arxiv.org/abs/2205.14135)**.
### What is better?
Incumbents, or standard attention mechanisms, have quadratic memory usage and slower training times due to their computation and memory access patterns**[4](https://crfm.stanford.edu/2023/01/13/flashattention.html)**. FlashAttention, on the other hand, offers the following advantages:
1. Faster training times: FlashAttention-2, the latest version, is 2x faster than its predecessor, FlashAttention, and 5-9x faster than standard attention implementations**[1](https://www.quora.com/How-does-flash-attention-work)**. This speedup allows for faster training times and longer context lengths for the same training cost as before**[1](https://www.quora.com/How-does-flash-attention-work)**.
2. Longer context lengths(Memory efficiency): FlashAttention reduces memory usage from quadratic to linear in sequence length by leveraging tiling and recomputation techniques**[4](https://crfm.stanford.edu/2023/01/13/flashattention.html)**. This allows it to scale to much longer sequence lengths, enabling the training of higher-quality models**[2](https://github.com/HazyResearch/flash-attention)**.
3. Reduced training costs: The improvements in training speed and memory efficiency can result in reduced training costs**[1](https://www.quora.com/How-does-flash-attention-work)**.
### How is it possible?
The improvements in FlashAttention-2 were made by:
FlashAttention is an algorithm designed to improve the performance, cost, and latency of attention mechanisms in transformer models, particularly in large language models (LLMs) and other transformer-based architectures**[1](https://www.quora.com/How-does-flash-attention-work)**. It can replace standard attention mechanisms in various applications, offering significant benefits in terms of speed, memory efficiency, and training costs**[1](https://www.quora.com/How-does-flash-attention-work)**. It has been widely adopted in large language model (LLM) libraries due to its significant speedup and memory efficiency**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)[11](https://github.com/Dao-AILab/flash-attention)**.
### Model Performance
FlashAttention-2, the latest version, is 2x faster than its predecessor, FlashAttention, and 5-9x faster than standard attention implementations**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. This speedup allows for training models with twice as long context for the same training cost as before**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. When used end-to-end to train GPT-style language models, FlashAttention-2 reaches a training speed of up to 225 TFLOPs/s**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)[5](https://twitter.com/_akhaliq/status/1680988185776607237)**.
### Cost and Latency
FlashAttention-2 addresses the inefficiencies of its predecessor by reformulating the algorithm to reduce non-matmul FLOPs, improve parallelism, and optimize work partitioning between thread blocks and warps on GPUs**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. Non-matmul FLOPs are more expensive than matmul FLOPs, so these improvements lead to significant speedup and reduced latency**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**.The algorithm also minimizes communication and synchronization between warps, further improving performance**[1](https://crfm.stanford.edu/2023/07/17/flash2.html)**. FlashAttention-2 is more memory-efficient than exact attention baselines, with memory usage linear in sequence length rather than quadratic**[3](https://arxiv.org/pdf/2205.14135.pdf)[16](https://www.adept.ai/blog/flashier-attention)**. This allows it to scale to much longer sequence lengths, enabling the training of higher-quality models**[2](https://arxiv.org/abs/2205.14135)**.
### What is better?
Incumbents, or standard attention mechanisms, have quadratic memory usage and slower training times due to their computation and memory access patterns**[4](https://crfm.stanford.edu/2023/01/13/flashattention.html)**. FlashAttention, on the other hand, offers the following advantages:
1. Faster training times: FlashAttention-2, the latest version, is 2x faster than its predecessor, FlashAttention, and 5-9x faster than standard attention implementations**[1](https://www.quora.com/How-does-flash-attention-work)**. This speedup allows for faster training times and longer context lengths for the same training cost as before**[1](https://www.quora.com/How-does-flash-attention-work)**.
2. Longer context lengths(Memory efficiency): FlashAttention reduces memory usage from quadratic to linear in sequence length by leveraging tiling and recomputation techniques**[4](https://crfm.stanford.edu/2023/01/13/flashattention.html)**. This allows it to scale to much longer sequence lengths, enabling the training of higher-quality models**[2](https://github.com/HazyResearch/flash-attention)**.
3. Reduced training costs: The improvements in training speed and memory efficiency can result in reduced training costs**[1](https://www.quora.com/How-does-flash-attention-work)**.
### How is it possible?
The improvements in FlashAttention-2 were made by:
Quora
How does flash attention work?
Answer (1 of 7): Flash attention is a type of attention mechanism that is used in natural language processing (NLP) and other areas of machine learning to improve the performance of neural networks. It works by allowing a network to "pay attention" to certain…
1. Tweaking the algorithm to reduce the number of non-matmul FLOPs**[1](https://github.com/HazyResearch/flash-attention)**.
2. Parallelizing the attention computation, even for a single head, across different thread blocks to increase occupancy**[1](https://github.com/HazyResearch/flash-attention)**.
3. Distributing the work between warps within each thread block to reduce communication through shared memory**[1](https://github.com/HazyResearch/flash-attention)**.
It achieves this by exploiting the asymmetric GPU memory hierarchy, bringing significant memory savings (linear instead of quadratic) and runtime speedup**[4](https://arxiv.org/abs/2205.14135)**. Additionally, FlashAttention-2 minimizes communication and synchronization between warps, further improving performance**[1](https://github.com/HazyResearch/flash-attention)**.
### Implication for industry players
2. Parallelizing the attention computation, even for a single head, across different thread blocks to increase occupancy**[1](https://github.com/HazyResearch/flash-attention)**.
3. Distributing the work between warps within each thread block to reduce communication through shared memory**[1](https://github.com/HazyResearch/flash-attention)**.
It achieves this by exploiting the asymmetric GPU memory hierarchy, bringing significant memory savings (linear instead of quadratic) and runtime speedup**[4](https://arxiv.org/abs/2205.14135)**. Additionally, FlashAttention-2 minimizes communication and synchronization between warps, further improving performance**[1](https://github.com/HazyResearch/flash-attention)**.
### Implication for industry players
GitHub
GitHub - Dao-AILab/flash-attention: Fast and memory-efficient exact attention
Fast and memory-efficient exact attention. Contribute to Dao-AILab/flash-attention development by creating an account on GitHub.
1. Chipmakers: FlashAttention reduces the computational and memory requirements for attention mechanisms in transformer models, driving the demand for more efficient and specialized hardware to further optimize the performance of these models**[11](https://www.ft.com/content/8352e84b-284c-4ebe-a7c1-5e2093566e0d)**. This could lead to innovations in GPU architectures and the development of specialized AI accelerators.
This could lead to innovations in GPU architectures and the development of specialized AI accelerators that are better suited for handling the reduced computational and memory requirements of attention mechanisms in transformer models.Some components that could be affected include:
1. Memory hierarchy: FlashAttention exploits the asymmetric GPU memory hierarchy, which could lead to the development of new memory architectures that further optimize memory access patterns for attention mechanisms**[4](https://openreview.net/forum?id=H4DqfPSibmx)**.
2. Parallelism: FlashAttention improves parallelism in attention computation, which could influence the design of GPU architectures and AI accelerators to better support parallel processing for transformer models**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
3. Communication and synchronization: FlashAttention reduces communication and synchronization between warps, which could impact the design of interconnects and synchronization mechanisms in GPU and AI accelerator architectures**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
2. LLM makers: FlashAttention can help improve the efficiency of large language models (LLMs) by speeding up training times, allowing for longer context lengths, and reducing training costs**[1](https://arxiv.org/abs/2205.14135)**. This can lead to the development of more powerful LLMs and the creation of new AI services based on these models.
- By speeding up the attention mechanism and reducing memory requirements, FlashAttention allows for longer context lengths during training, which can lead to better model performance**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This efficiency enables LLM makers to train more powerful models without sacrificing quality, as FlashAttention computes exact attention without any approximation**[3](https://arxiv.org/pdf/2205.14135.pdf)**.
- FlashAttention can also help reduce the cost for training, scaling, deploying, or fine-tuning LLMs by offering faster training times, longer context lengths, and reduced training costs**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This is achieved through its improved memory efficiency, which allows it to scale to much longer sequence lengths, and its faster training times compared to standard attention mechanisms**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**.
- FlashAttention could affect the open-source ecosystem by providing an efficient alternative to standard attention mechanisms. Its open-source implementation**[11](https://aws.amazon.com/blogs/machine-learning/new-performance-improvements-in-amazon-sagemaker-model-parallel-library/)** can be integrated into various open-source libraries and frameworks, leading to wider adoption and further development of the algorithm. This can drive innovation and efficiency across various industries and players, leading to the development of more powerful AI models and services.
3. Infrastructure builders for LLMs (e.g., Mosaic ML): By integrating FlashAttention into their infrastructure offerings, these companies can enable more efficient and cost-effective training and deployment of LLMs**[15](https://www.mosaicml.com/blog/mpt-7b)**. This can lead to wider adoption of AI technologies and more advanced AI services.
This could lead to innovations in GPU architectures and the development of specialized AI accelerators that are better suited for handling the reduced computational and memory requirements of attention mechanisms in transformer models.Some components that could be affected include:
1. Memory hierarchy: FlashAttention exploits the asymmetric GPU memory hierarchy, which could lead to the development of new memory architectures that further optimize memory access patterns for attention mechanisms**[4](https://openreview.net/forum?id=H4DqfPSibmx)**.
2. Parallelism: FlashAttention improves parallelism in attention computation, which could influence the design of GPU architectures and AI accelerators to better support parallel processing for transformer models**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
3. Communication and synchronization: FlashAttention reduces communication and synchronization between warps, which could impact the design of interconnects and synchronization mechanisms in GPU and AI accelerator architectures**[1](https://arxiv.org/pdf/2205.14135.pdf)**.
2. LLM makers: FlashAttention can help improve the efficiency of large language models (LLMs) by speeding up training times, allowing for longer context lengths, and reducing training costs**[1](https://arxiv.org/abs/2205.14135)**. This can lead to the development of more powerful LLMs and the creation of new AI services based on these models.
- By speeding up the attention mechanism and reducing memory requirements, FlashAttention allows for longer context lengths during training, which can lead to better model performance**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This efficiency enables LLM makers to train more powerful models without sacrificing quality, as FlashAttention computes exact attention without any approximation**[3](https://arxiv.org/pdf/2205.14135.pdf)**.
- FlashAttention can also help reduce the cost for training, scaling, deploying, or fine-tuning LLMs by offering faster training times, longer context lengths, and reduced training costs**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**. This is achieved through its improved memory efficiency, which allows it to scale to much longer sequence lengths, and its faster training times compared to standard attention mechanisms**[1](https://ahmdtaha.medium.com/flashattention-fast-and-memory-efficient-exact-attention-with-io-awareness-2a0aec52ed3d)**.
- FlashAttention could affect the open-source ecosystem by providing an efficient alternative to standard attention mechanisms. Its open-source implementation**[11](https://aws.amazon.com/blogs/machine-learning/new-performance-improvements-in-amazon-sagemaker-model-parallel-library/)** can be integrated into various open-source libraries and frameworks, leading to wider adoption and further development of the algorithm. This can drive innovation and efficiency across various industries and players, leading to the development of more powerful AI models and services.
3. Infrastructure builders for LLMs (e.g., Mosaic ML): By integrating FlashAttention into their infrastructure offerings, these companies can enable more efficient and cost-effective training and deployment of LLMs**[15](https://www.mosaicml.com/blog/mpt-7b)**. This can lead to wider adoption of AI technologies and more advanced AI services.
Ft
Subscribe to read | Financial Times
News, analysis and comment from the Financial Times, the worldʼs leading global business publication
4. LLM-using services (e.g., Perplexity): Services that rely on LLMs, such as natural language processing, machine translation, text summarization, and sentiment analysis, can benefit from the improved performance and efficiency provided by FlashAttention**[6](https://www.wsj.com/articles/memory-chip-makers-struggle-with-decline-in-demand-and-price-falls-11665141235)**. Faster training times and longer context lengths can lead to better performance in these tasks, enabling the development of more advanced AI services.
WSJ
Memory Chip Makers Struggle With Declines in Demand, Price
Memory chips provide a key barometer of health for the semiconductor industry, which is reckoning with a sudden shift from pandemic strength to an abrupt drop-off in demand.
LLM(Large Language Model) 학습 및 서비스 운영에 관심이 많은 AI 엔지니어 분들을 초대합니다.
LLM 모델을 실제로 학습시키고 서비스를 제공하기 위해서는 많은 어려움들이 존재합니다. 실제로 LLM 학습시켜 서비스를 만들어본 경험들을 나눠봐요 🙂
세션 참가 신청하기: https://lu.ma/agitownjuly2
해당 세션에서는 아래 내용에 대해서 다룰 예정입니다.
1️⃣ 자체 LLM 학습의 장단점: LLM 직접 학습시켜야할까요 아니면 Third Party 솔루션을 써야할까요? 직접 학습하게 되면 특정 요구사항에 맞게 모델을 수정하고, 모델 디버깅이 편하지만, 높은 학습비용과 고품질의 데이터 가공 등 신경써야할 부분이 많습니다.
2️⃣ Quality, Cost, Latency 간의 트레이드오프: 비용 집약적인 GPU 추론부터 비용 관리를 위한 엔지니어링의 기본에 이르기까지 성능, 비용, 시간 간의 균형을 맞추는 방법을 살펴봅니다.
3️⃣ 신뢰, 안정성 및 개인 정보 보호: LLM에서 흔히 발생하는 'Hallucination'의 함정, 좋은 데이터를 얻기 위한 기술, 개인 정보를 보호하면서 높은 데이터 품질을 유지하는 방법에 대해 알아보세요. 또한 모델 편향성, 독성, 품질 관리의 복잡성과 모델 설명 가능성 및 투명성 문제에 대해서도 논의할 예정입니다.
4️⃣ Latency: 지연 시간이 문제가 되는 이유는 무엇이며 어떻게 해결할 수 있을까요? Transformer 아키텍처의 한계와 the potential of models like sequential state space models, Flash Attention Model의 잠재력에 대해 알아보세요.
5️⃣ 모델 학습 방법 및 엔지니어링: GPT-4에서 전문가 혼합 모델(MoE)을 성공적으로 구현한 사례, 다중 쿼리 주의(MQA)의 잠재력, 그리고 모델의 미래에 대한 예측에 대해 알아보세요.
해당 세션 관련 읽을거리
1. [Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta](https://youtu.be/ByhMpN2iSbc)
2. [Real-time machine learning: challenges and solutions](https://huyenchip.com/.../real-time-machine-learning...)
3. [Building LLM applications for production](https://huyenchip.com/2023/04/11/llm-engineering.html)
4. [Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference](https://youtu.be/AVccFl8-5-8)
5. [Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)
6. [Solving the Last Mile Problem of Foundation Models with Data-Centric AI](https://youtu.be/-oDgV6q6KtI...)
1. [Everyone will soon be using foundation models (FMs) like GPT-4.](https://threadreaderapp.com/thread/1642666624091312129.html)
7. [Debugging LLMs: Best Practices for Better Prompts and Data Quality](https://youtu.be/OsP1PAKyHq0)
LLM 모델을 실제로 학습시키고 서비스를 제공하기 위해서는 많은 어려움들이 존재합니다. 실제로 LLM 학습시켜 서비스를 만들어본 경험들을 나눠봐요 🙂
세션 참가 신청하기: https://lu.ma/agitownjuly2
해당 세션에서는 아래 내용에 대해서 다룰 예정입니다.
1️⃣ 자체 LLM 학습의 장단점: LLM 직접 학습시켜야할까요 아니면 Third Party 솔루션을 써야할까요? 직접 학습하게 되면 특정 요구사항에 맞게 모델을 수정하고, 모델 디버깅이 편하지만, 높은 학습비용과 고품질의 데이터 가공 등 신경써야할 부분이 많습니다.
2️⃣ Quality, Cost, Latency 간의 트레이드오프: 비용 집약적인 GPU 추론부터 비용 관리를 위한 엔지니어링의 기본에 이르기까지 성능, 비용, 시간 간의 균형을 맞추는 방법을 살펴봅니다.
3️⃣ 신뢰, 안정성 및 개인 정보 보호: LLM에서 흔히 발생하는 'Hallucination'의 함정, 좋은 데이터를 얻기 위한 기술, 개인 정보를 보호하면서 높은 데이터 품질을 유지하는 방법에 대해 알아보세요. 또한 모델 편향성, 독성, 품질 관리의 복잡성과 모델 설명 가능성 및 투명성 문제에 대해서도 논의할 예정입니다.
4️⃣ Latency: 지연 시간이 문제가 되는 이유는 무엇이며 어떻게 해결할 수 있을까요? Transformer 아키텍처의 한계와 the potential of models like sequential state space models, Flash Attention Model의 잠재력에 대해 알아보세요.
5️⃣ 모델 학습 방법 및 엔지니어링: GPT-4에서 전문가 혼합 모델(MoE)을 성공적으로 구현한 사례, 다중 쿼리 주의(MQA)의 잠재력, 그리고 모델의 미래에 대한 예측에 대해 알아보세요.
해당 세션 관련 읽을거리
1. [Unleashing LLMs in Production: Challenges & Opportunities. Chip Huyen, Amjad Masad & Michele Catasta](https://youtu.be/ByhMpN2iSbc)
2. [Real-time machine learning: challenges and solutions](https://huyenchip.com/.../real-time-machine-learning...)
3. [Building LLM applications for production](https://huyenchip.com/2023/04/11/llm-engineering.html)
4. [Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference](https://youtu.be/AVccFl8-5-8)
5. [Cost Optimization and Performance // LLMs in Production Conference Panel Discussion 2](https://youtu.be/wxq1ZeAM9fc)
6. [Solving the Last Mile Problem of Foundation Models with Data-Centric AI](https://youtu.be/-oDgV6q6KtI...)
1. [Everyone will soon be using foundation models (FMs) like GPT-4.](https://threadreaderapp.com/thread/1642666624091312129.html)
7. [Debugging LLMs: Best Practices for Better Prompts and Data Quality](https://youtu.be/OsP1PAKyHq0)
lu.ma
AGI Town in Seoul 7월 밋업 (7월 21일 금요일 6:30 pm) 신청 · Luma
안녕하세요. AGI Town입니다.
이번 7월 밋업은 각 주제별로 경험과 고민의 깊이가 깊은 분들끼리 심도있는 대화를 나눌 수 있는 포맷을 준비해봤습니다. 해당 세션에 참여해서 적극적으로 토론에 참여해주실 분은 컨트리뷰터로 신청해주시고 컨트리뷰터로 신청해주시지 않은 세션은 모두 참여자로 구분합니다.
컨트리뷰터: 경험, 지식을 나눠서 세션의 내용을 풍성하게...
이번 7월 밋업은 각 주제별로 경험과 고민의 깊이가 깊은 분들끼리 심도있는 대화를 나눌 수 있는 포맷을 준비해봤습니다. 해당 세션에 참여해서 적극적으로 토론에 참여해주실 분은 컨트리뷰터로 신청해주시고 컨트리뷰터로 신청해주시지 않은 세션은 모두 참여자로 구분합니다.
컨트리뷰터: 경험, 지식을 나눠서 세션의 내용을 풍성하게...
Like this newsletter, unsexy business. Wait what? I believe earning money and being profitable is sexy.
https://maily.so/unsexybusinesskr
https://maily.so/unsexybusinesskr
언섹시 비즈니스
화려하지 않은 비즈니스들을 소개드립니다.
음악 진짜 좋아하는 애요 ㅎㅎ Like her message.
https://youtu.be/HDtNYi5bnms
https://youtu.be/HDtNYi5bnms
YouTube
[인터뷰] "음악 진짜 좋아하는 애" 손열음의 '새로운 도전' / JTBC 뉴스룸
손끝으로 감동을 전하는 건반 위의 젊은 거장, 세계적인 피아니스트 손열음 씨 모셨습니다. 반갑습니다. '젊은 거장' 이런 호칭 들으실 때 어떤 느낌이 드세요?
▶ 기사 전문 https://news.jtbc.co.kr/article/article.aspx?news_id=NB12134211
▶ 시리즈 더 보기 https://www.youtube.com/playlist?list=PL3Eb1N33oAXhNHGe-ljKHJ5c0gjiZkqDk
#손열음 #피아니스트…
▶ 기사 전문 https://news.jtbc.co.kr/article/article.aspx?news_id=NB12134211
▶ 시리즈 더 보기 https://www.youtube.com/playlist?list=PL3Eb1N33oAXhNHGe-ljKHJ5c0gjiZkqDk
#손열음 #피아니스트…
Back in 1997, Netflix was just 6 people in a 1000 sqft office in Santa Cruz. Today, the business is worth $200b+, has 10k+ employees globally, and is the world's largest streaming platform with 230m+ subscribers. Foundation Capital was lucky to be the first investor in the company and witness the journey from inception through IPO.
I recently sat down with my friend Jim Cook, one of the co-founders of Netflix, to hear some stories about the company in the early days. Below are a few lessons that will hopefully be valuable to those in the tech and startup ecosystem:
- Obsess over your customers - Netflix truly obsessed over making their early customers happy. They would never ask the question "would you pay for this?" (because the answer is often a lazy yes) but rather "what would make you rave about this to your friends?" Despite having many opportunities to sell ads on the red envelopes they shipped DVDs in, they always refused, citing that ads would only ruin the experience. The company always focused on creating experiences that made people rave, leading to insane organic growth in the early years.
- Do things that don't scale - in the early days of Netflix, Jim would spend hours stuffing envelopes with DVDs and hauling packages to and from the post office. The early "machine learning" recommendations for the website were literally crowdsourced from small focus groups on Usenet forums.
- Word-of-mouth is the best GTM strategy - Netflix did not spend a dime on advertising until 2005, 8 years after its founding! They focused entirely on word-of-mouth to acquire customers and ensured they had very strong product-market fit before scaling paid acquisition.
- Compensate innovatively and generously - Today, Netflix is well known for paying top talent well above market rates. In the early days, they were the first major company to offer "flexible compensation" allowing new hires to chose their ideal mix of base, bonus and equity. Flexible and generous compensation packages have allowed Netflix to hire and retain the very best in the industry.
- Have multiple "why now" moments - Netflix made 2 (then) non-obvious and big bets. The first was on DVDs usurping VHS as the primary video storage format. The second was on eCommerce taking over brick-and-mortar as the best channel for acquiring customers in the video rental segment. The company rode multiple tailwinds, ensuring that even if one didn't pan out, the business would be able to succeed.
- Carrot not stick - the core philosophy of the company was to never piss off users, no matter what. This meant having systems in place that incented users and never penalized them. For example, early users were never fined for returning a DVD late; instead they simply couldn't get their next DVD until they returned their old one.
https://www.linkedin.com/feed/update/urn:li:activity:7086870579282104320/
I recently sat down with my friend Jim Cook, one of the co-founders of Netflix, to hear some stories about the company in the early days. Below are a few lessons that will hopefully be valuable to those in the tech and startup ecosystem:
- Obsess over your customers - Netflix truly obsessed over making their early customers happy. They would never ask the question "would you pay for this?" (because the answer is often a lazy yes) but rather "what would make you rave about this to your friends?" Despite having many opportunities to sell ads on the red envelopes they shipped DVDs in, they always refused, citing that ads would only ruin the experience. The company always focused on creating experiences that made people rave, leading to insane organic growth in the early years.
- Do things that don't scale - in the early days of Netflix, Jim would spend hours stuffing envelopes with DVDs and hauling packages to and from the post office. The early "machine learning" recommendations for the website were literally crowdsourced from small focus groups on Usenet forums.
- Word-of-mouth is the best GTM strategy - Netflix did not spend a dime on advertising until 2005, 8 years after its founding! They focused entirely on word-of-mouth to acquire customers and ensured they had very strong product-market fit before scaling paid acquisition.
- Compensate innovatively and generously - Today, Netflix is well known for paying top talent well above market rates. In the early days, they were the first major company to offer "flexible compensation" allowing new hires to chose their ideal mix of base, bonus and equity. Flexible and generous compensation packages have allowed Netflix to hire and retain the very best in the industry.
- Have multiple "why now" moments - Netflix made 2 (then) non-obvious and big bets. The first was on DVDs usurping VHS as the primary video storage format. The second was on eCommerce taking over brick-and-mortar as the best channel for acquiring customers in the video rental segment. The company rode multiple tailwinds, ensuring that even if one didn't pan out, the business would be able to succeed.
- Carrot not stick - the core philosophy of the company was to never piss off users, no matter what. This meant having systems in place that incented users and never penalized them. For example, early users were never fined for returning a DVD late; instead they simply couldn't get their next DVD until they returned their old one.
https://www.linkedin.com/feed/update/urn:li:activity:7086870579282104320/
Linkedin
Vinay Iyengar on LinkedIn: Back in 1997, Netflix was just 6 people in a 1000 sqft office in Santa…
Back in 1997, Netflix was just 6 people in a 1000 sqft office in Santa Cruz. Today, the business is worth $200b+, has 10k+ employees globally, and is the…
https://airtable.com/shrzPkZvLTZtcsnbI/tbl3DWXXfhWZ2sTNT
A database of how the 42 top consumer brands (e.g. TikTok, DoorDash, McDonald’s, H&M, Amazon, Airbnb, Uber) handle attribution for their growth and marketing work.
A database of how the 42 top consumer brands (e.g. TikTok, DoorDash, McDonald’s, H&M, Amazon, Airbnb, Uber) handle attribution for their growth and marketing work.
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
김창준님
<불확실성이 높을 때 효과적인 전략>
== generative sequence의 중요성 ==
10개의 동전이 있다. 그걸 던져서 모든 동전이 앞면이 나오게 하고 싶다. 어떤 전략이 좋은가?
* 동시에 10개를 던진다. 모두 앞면 나올 때까지. 평균 기대 횟수 1024회
* 하나씩 앞면 나올 때까지 해서 모두 10개를 순서대로 던진다. 평균 기대 횟수 20회
한번에 10개 던지려면 약 8초(흩어진 동전 모으고, 던지고, 갯수 확인하기) : 2시간 16분 32초
한번에 1개 던지려면 약 2초(동전 집어서 던지고 확인) : 40초
만약 동전갯수가 30개라면?
30개 동시: 약 272년
1개씩 순서대로: 2분
== asymmetry와 non-linearity의 중요성 ==
우리가 1미터에서 1000번 뛰어 내렸을 때 오는 데미지 총합과 1000미터에서 1번 뛰어 내렸을 때 오는 데미지는 어떻게 다를까?
예산 1000만원짜리 프로젝트를 1000개 수행해서 나온 초과비용 총합과 100억(1000만원*1000개)짜리 프로젝트 하나를 수행해서 나온 초과비용을 비교하면 어떨까?
이 사실을 고려할 때 우리는 어떤 전략을 쓰는 것이 효과적일까?
<불확실성이 높을 때 효과적인 전략>
== generative sequence의 중요성 ==
10개의 동전이 있다. 그걸 던져서 모든 동전이 앞면이 나오게 하고 싶다. 어떤 전략이 좋은가?
* 동시에 10개를 던진다. 모두 앞면 나올 때까지. 평균 기대 횟수 1024회
* 하나씩 앞면 나올 때까지 해서 모두 10개를 순서대로 던진다. 평균 기대 횟수 20회
한번에 10개 던지려면 약 8초(흩어진 동전 모으고, 던지고, 갯수 확인하기) : 2시간 16분 32초
한번에 1개 던지려면 약 2초(동전 집어서 던지고 확인) : 40초
만약 동전갯수가 30개라면?
30개 동시: 약 272년
1개씩 순서대로: 2분
== asymmetry와 non-linearity의 중요성 ==
우리가 1미터에서 1000번 뛰어 내렸을 때 오는 데미지 총합과 1000미터에서 1번 뛰어 내렸을 때 오는 데미지는 어떻게 다를까?
예산 1000만원짜리 프로젝트를 1000개 수행해서 나온 초과비용 총합과 100억(1000만원*1000개)짜리 프로젝트 하나를 수행해서 나온 초과비용을 비교하면 어떨까?
이 사실을 고려할 때 우리는 어떤 전략을 쓰는 것이 효과적일까?
👍2
#AI실제사용후기
본원에서 실제로 AI 기술을 적용해서 사용하는 기술은 Lunit insight 뿐이다. (coreline software로 lung nodule판독도 하나, 이건 영상의학과만 쓰고 있음)
해당 기술을 썼을때의 효용성에 대해서 입사할때 이사장님이 소개하기로는, 간호사들이 그렇게 좋아한다고 했다. 사실 X-ray중 어디가 병변인지 잘 모르는 간호사도 많았는데, 해당 software가 들어오고 나서는 어디가 병변인지 더 잘 알게 되었다고 한다.
개인적인 후기로 외래에서 사용할때, 가장 효용가치가 있다고 느낄때는 환자 설명용이다. 생각보다 환자들이 검사를 하면 설명을 듣고싶어하지만, 설명에 할애할 시간도 그렇게 많지 않을분더러 사진을 보고 설명한다고 해도 정확하게 이해하지 못하는 경우가 많다.
이때 그림을 하나 붙여주면서 "저희 AI software도 쓰고 있는데, 여기가 문제입니다." 라고 하면 갑자기 이해가 안가던 사람도 이해가 가는것 같은 표정을 짓는다.
이건 어떤 효과가 있냐면, 보통 환자들이 빅5미만 종합병원은 약간 잡병원이라는 인식이 기저에 깔려있는데, 이런 환경에서 "객관적인 지표"를 대변한다. (망할 저평가 의사인력..) 그러면서 신뢰도가 높은 병원의 모습을 보여줄 수 있고, 그 이후 내가 하는 말의 신뢰성이 높아지는 효과를 가져온다.
또, 환자가 폐렴이 있었다가 치료가 된다거나 하면 병변이 없어지는데 CT에서 내눈에 (전문의) 확연히 좋아지는 병변도 GGO인 경우는 환자들에게 호전추세인지 뚜렷하지 않은경우가 종종있다. 그럴때 "lunit insight를 꺼내서 빨갛던 병변이 이렇게 없어졌다." 하면 갑자기 눈이 초롱초롱해지면서 신뢰를 하기 시작한다.
요즘은 그런 설명을 몇번 들어서인지, 주변 친구들 (대학병원 조교수)에게 간 환자들이 "이병원은 AI software 안쓰나요?"라고 묻는다고 한다. 앞으로 "신뢰성"이라는 측면에서 AI software의 효용성이, 그 가치를 증명하지 않을까 싶다.
sensitivity, specificity가 중요하긴 하지만, disease severity와의 alignment가 이런면에서 더 중요할지도...
p.s. disease severity와의 상관성은 lunit insight가 임상적으로 쓸정도로 정확하지는 않다. 다만, 처음과 끝에서 설명용으로 보여주기엔 충분한듯하다.
형준님 페북 https://www.facebook.com/100001635080111/posts/pfbid0pSJPEPrSBAjUgSkGxBcRYnVtwvbXFajf1yCMAsATd1yq57jxECUMoUCb39tKDhFSl/?mibextid=cr9u03
본원에서 실제로 AI 기술을 적용해서 사용하는 기술은 Lunit insight 뿐이다. (coreline software로 lung nodule판독도 하나, 이건 영상의학과만 쓰고 있음)
해당 기술을 썼을때의 효용성에 대해서 입사할때 이사장님이 소개하기로는, 간호사들이 그렇게 좋아한다고 했다. 사실 X-ray중 어디가 병변인지 잘 모르는 간호사도 많았는데, 해당 software가 들어오고 나서는 어디가 병변인지 더 잘 알게 되었다고 한다.
개인적인 후기로 외래에서 사용할때, 가장 효용가치가 있다고 느낄때는 환자 설명용이다. 생각보다 환자들이 검사를 하면 설명을 듣고싶어하지만, 설명에 할애할 시간도 그렇게 많지 않을분더러 사진을 보고 설명한다고 해도 정확하게 이해하지 못하는 경우가 많다.
이때 그림을 하나 붙여주면서 "저희 AI software도 쓰고 있는데, 여기가 문제입니다." 라고 하면 갑자기 이해가 안가던 사람도 이해가 가는것 같은 표정을 짓는다.
이건 어떤 효과가 있냐면, 보통 환자들이 빅5미만 종합병원은 약간 잡병원이라는 인식이 기저에 깔려있는데, 이런 환경에서 "객관적인 지표"를 대변한다. (망할 저평가 의사인력..) 그러면서 신뢰도가 높은 병원의 모습을 보여줄 수 있고, 그 이후 내가 하는 말의 신뢰성이 높아지는 효과를 가져온다.
또, 환자가 폐렴이 있었다가 치료가 된다거나 하면 병변이 없어지는데 CT에서 내눈에 (전문의) 확연히 좋아지는 병변도 GGO인 경우는 환자들에게 호전추세인지 뚜렷하지 않은경우가 종종있다. 그럴때 "lunit insight를 꺼내서 빨갛던 병변이 이렇게 없어졌다." 하면 갑자기 눈이 초롱초롱해지면서 신뢰를 하기 시작한다.
요즘은 그런 설명을 몇번 들어서인지, 주변 친구들 (대학병원 조교수)에게 간 환자들이 "이병원은 AI software 안쓰나요?"라고 묻는다고 한다. 앞으로 "신뢰성"이라는 측면에서 AI software의 효용성이, 그 가치를 증명하지 않을까 싶다.
sensitivity, specificity가 중요하긴 하지만, disease severity와의 alignment가 이런면에서 더 중요할지도...
p.s. disease severity와의 상관성은 lunit insight가 임상적으로 쓸정도로 정확하지는 않다. 다만, 처음과 끝에서 설명용으로 보여주기엔 충분한듯하다.
형준님 페북 https://www.facebook.com/100001635080111/posts/pfbid0pSJPEPrSBAjUgSkGxBcRYnVtwvbXFajf1yCMAsATd1yq57jxECUMoUCb39tKDhFSl/?mibextid=cr9u03
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
❤1
빠르게 불행해지는 법
1. 늦게 자고, 늦게 일어난다. 가능하면 햇빛 보지 않고, 어두운 방에 있는다.
2. 건강한 식사하지 않는다. 자연식은 먹지 말고, 인스턴트나 배달음식 위주로 먹는다.
3. 운동을 하지 않는다. 스트레칭하지 않는다. 가급적 누워있는다.
4. 친구들 만나지 않는다. 혼자서 휴대폰 만지는 시간을 늘린다. 휴대폰으로는 인스타그램, 유튜브를 반복하며 시청한다.
5. 집을 정리하지 않는다. 옷을 입은 것은 아무 데나 내팽개치고, 절대로 접지 않는다.
6. 설거지와 빨래를 하지 않는다. 가능한 수준에서 최대한 미룬다.
7. 쓰레기 청소도 하지 않는다. 가능한 수준에서 최대한 미룬다.
8. 앞으로 뭐 할지 보다, 과거에 대한 생각들을 더 많이 한다.
9. 내가 잘되지 않는 이유는 내가 아닌 밖에 있다고 생각한다.
10. 어차피 아무리 노력해도 바뀌는 것이 없다고 생각한다.
나는 이 반대로 살기 위해서 노력한다. 천천히 행복은 해질 수 있다고 생각한다.
1. 늦게 자고, 늦게 일어난다. 가능하면 햇빛 보지 않고, 어두운 방에 있는다.
2. 건강한 식사하지 않는다. 자연식은 먹지 말고, 인스턴트나 배달음식 위주로 먹는다.
3. 운동을 하지 않는다. 스트레칭하지 않는다. 가급적 누워있는다.
4. 친구들 만나지 않는다. 혼자서 휴대폰 만지는 시간을 늘린다. 휴대폰으로는 인스타그램, 유튜브를 반복하며 시청한다.
5. 집을 정리하지 않는다. 옷을 입은 것은 아무 데나 내팽개치고, 절대로 접지 않는다.
6. 설거지와 빨래를 하지 않는다. 가능한 수준에서 최대한 미룬다.
7. 쓰레기 청소도 하지 않는다. 가능한 수준에서 최대한 미룬다.
8. 앞으로 뭐 할지 보다, 과거에 대한 생각들을 더 많이 한다.
9. 내가 잘되지 않는 이유는 내가 아닌 밖에 있다고 생각한다.
10. 어차피 아무리 노력해도 바뀌는 것이 없다고 생각한다.
나는 이 반대로 살기 위해서 노력한다. 천천히 행복은 해질 수 있다고 생각한다.