Harvey charges his customers a lot of money and they don't seem to mind paying it.
https://twitter.com/leveredvlad/status/1680977288467234817
https://twitter.com/leveredvlad/status/1680977288467234817
Twitter
0/ Let me show you why @gabepereyra's Harvey AI is a great business, and why other "Copilots for X" may not be.
A very quick thread 🧵
A very quick thread 🧵
새로운 블로그 게시물! 제너레이티브 AI x 게임의 가장 큰 기회는 새로운 카테고리의 플레이를 여는 것입니다 ��. 유니티는 AI 퍼스트 게임의 초기 모습을 엿보고 있으며 그 잠재력은 엄청납니다. 유니티가 기대하는 몇 가지 분야를 소개합니다 ��.
1/ 제너레이티브 에이전트 - 시뮬레이션 게임 내 에이전트에 LLM을 적용하여 놀랍도록 실제와 같은 행동을 구현합니다. 소셜 웹에서 학습된 LLM을 통해 게임 디자이너의 상상력뿐만 아니라 인간 사회의 예측 불가능성을 반영하는 새로운 종류의 시뮬레이션 게임이 등장하고 있습니다. 24시간 내내 멀티 에이전트 시뮬레이션을 보는 것은 차세대 트루먼 쇼가 될 수 있으며, 예상치 못한 방식으로 끝없이 재미있게 즐길 수 있습니다.
2/ 개인화 - 모든 플레이어에게 고유한 게임플레이 경험을 제공하여 몰입도와 재플레이 가능성을 극대화합니다. 사례 연구: GTA 5는 현재 공식 게임보다 개인화된 롤플레잉 서버에서 더 많은 플레이어를 만나고 있습니다.
3/ AI 스토리텔링 - 무한한 인내심을 가진 AI 스토리텔러의 안내에 따라 좋아하는 IP 세계에서 원하는 만큼 시간을 보낼 수 있습니다.
4/ 다이내믹 월드 - 플레이어가 게임을 진행하면서 실시간으로 레벨과 콘텐츠를 생성합니다. 스토리와 월드를 담당하는 AI 디렉터가 있으면 매번 플레이할 때마다 바뀌는 “네버엔딩” 게임을 만들 수 있습니다. 장기적으로는 게임이 더 이상 렌더링되지 않고 신경망을 사용하여 런타임에 생성되는 미래를 볼 수 있습니다. 언젠가 넷플릭스 영화에서 “상호작용“을 클릭하고 모든 장면이 생성되고 개인화된 가상 세계로 들어갈 수 있게 될 것입니다.
5/ AI 부조종사 - 모든 게임에 AI 동반자를 통합하여 원하는 대로 코치하고 함께 플레이할 수 있습니다. UGC 제작 도우미부터 협동 파트너, e스포츠 코치에 이르기까지 모든 게임에 AI 부조종사가 있는 미래는 “혼자서도 좋고, AI와 함께하면 더 좋고, 친구와 함께하면 더 좋다“는 모토에 따라 이루어질 것으로 보입니다.
아직 초기 단계이지만 유니티는 많은 재능 있는 AI x 게임 팀이 만들어지고 있다는 사실에 큰 기대를 걸고 있습니다. 더 많은 사례는 유니티 블로그에서 확인해보세요!
https://a16z.com/2023/07/19/the-neverending-game-how-ai-will-create-a-new-category-of-games/
1/ 제너레이티브 에이전트 - 시뮬레이션 게임 내 에이전트에 LLM을 적용하여 놀랍도록 실제와 같은 행동을 구현합니다. 소셜 웹에서 학습된 LLM을 통해 게임 디자이너의 상상력뿐만 아니라 인간 사회의 예측 불가능성을 반영하는 새로운 종류의 시뮬레이션 게임이 등장하고 있습니다. 24시간 내내 멀티 에이전트 시뮬레이션을 보는 것은 차세대 트루먼 쇼가 될 수 있으며, 예상치 못한 방식으로 끝없이 재미있게 즐길 수 있습니다.
2/ 개인화 - 모든 플레이어에게 고유한 게임플레이 경험을 제공하여 몰입도와 재플레이 가능성을 극대화합니다. 사례 연구: GTA 5는 현재 공식 게임보다 개인화된 롤플레잉 서버에서 더 많은 플레이어를 만나고 있습니다.
3/ AI 스토리텔링 - 무한한 인내심을 가진 AI 스토리텔러의 안내에 따라 좋아하는 IP 세계에서 원하는 만큼 시간을 보낼 수 있습니다.
4/ 다이내믹 월드 - 플레이어가 게임을 진행하면서 실시간으로 레벨과 콘텐츠를 생성합니다. 스토리와 월드를 담당하는 AI 디렉터가 있으면 매번 플레이할 때마다 바뀌는 “네버엔딩” 게임을 만들 수 있습니다. 장기적으로는 게임이 더 이상 렌더링되지 않고 신경망을 사용하여 런타임에 생성되는 미래를 볼 수 있습니다. 언젠가 넷플릭스 영화에서 “상호작용“을 클릭하고 모든 장면이 생성되고 개인화된 가상 세계로 들어갈 수 있게 될 것입니다.
5/ AI 부조종사 - 모든 게임에 AI 동반자를 통합하여 원하는 대로 코치하고 함께 플레이할 수 있습니다. UGC 제작 도우미부터 협동 파트너, e스포츠 코치에 이르기까지 모든 게임에 AI 부조종사가 있는 미래는 “혼자서도 좋고, AI와 함께하면 더 좋고, 친구와 함께하면 더 좋다“는 모토에 따라 이루어질 것으로 보입니다.
아직 초기 단계이지만 유니티는 많은 재능 있는 AI x 게임 팀이 만들어지고 있다는 사실에 큰 기대를 걸고 있습니다. 더 많은 사례는 유니티 블로그에서 확인해보세요!
https://a16z.com/2023/07/19/the-neverending-game-how-ai-will-create-a-new-category-of-games/
Andreessen Horowitz
The NeverEnding Game: How AI Will Create a New Category of Games
We believe the largest opportunity long-term is in leveraging AI to change not just how we create games, but the nature of the games themselves.
For years, the tech media had characterized John and Patrick, 34, as boyish business prodigies who monkishly shared an apartment, rode rented e-bikes to work, and preferred reading economic histories and science fiction to ostentatious displays of their growing wealth. John, a student of capitalism who encourages employees to read biographies about moguls like Larry Ellison and John Malone, has lately come into his own as a brass-knuckled manager who has assumed critical leadership roles as his company hurtles toward its next iteration. At the same time, he has been adding a new chapter to his own billionaire’s journey, with a much-loved phrase serving as an epigraph: “The world is a museum of passion projects.”
LLM 애플리케이션 아키텍처란? (RAG의 이해와 기술 스택 탐색)
- 비즈니스 도메인 기반으로 대형 언어 모델 (LLM) 애플리케이션을 개발하고자 할 때 (예를 들어, 금융사 고객 응대 챗봇) 문제가 되는 점은 LLM의 정보 부족과 이로 인한 제한된 답변 능력이다. 예를 들어, GPT 3.5는 2021년 9월 이후의 데이터가 없으므로 최신 뉴스에 대한 답변을 제공할 수 없다.
- 이 문제를 해결하기 위한 방안으로 LLM을 새로운 데이터로 파인튜닝하는 것이 있다. 그러나 이는 상당한 비용이 소요된다. 현재 기준으로 FLAN-T5-XXL (11B) 모델을 CNN 데일리 메일 데이터셋 1개에 대해 파인튜닝하면 약 77만 원이 들게 된다.
또 다른 대안으로는 우리가 원하는 정보가 담긴 문서를 직접 프롬프트 콘텍스트에 넣어주고 원하는 응답을 얻는 것이다. 연구에 따르면 프롬프트의 가치는 데이터 샘플 약 100개에 준하는 정도라고 한다.
- 하지만 모든 정보를 콘텍스트에 일일이 넣어주는 것은 현실적으로 불가능하다. GPT-4가 처리 가능한 입력은 최대 50페이지 정도로 제한된다. 이러한 상황에서는 우리가 가진 정보를 데이터베이스에 저장해두고, 사용자의 질의가 들어올 때 (예를 들어, 챗봇을 통해 은행 계좌를 개설하는 방법을 물었을 때) 관련된 정보를 검색하여 해당 정보가 담긴 문서들을 프롬프트를 통해 LLM에 전달하는 방식이 더 효율적이다. 이러한 서비스 아키텍처를 ‘검색 증강 생성’(Retrieval Augmented Generation, RAG)라고 한다.
- 우리는 정보를 얻기 위해 LLM을 활용하는데, LLM에게 정보를 입력하는 방식이 다소 이상해 보일 수 있다. 그러나 정보의 입수와 정보의 처리(해석)는 완전히 다른 기능이다. 제2차 세계 대전 때 영국 정보부는 독일군의 암호를 얻어와 앨런 튜링에게 전달했다. 그러면 튜링의 콜로서스 머신이 이 암호를 해석해 주었다. 이런 모습을 머릿속에 그려보면 이해가 빠를 것이다. 이렇게 분업이 가능한 이유는 배우지 않은 정보를 일반화하여 해석하는 LLM의 능력이 매우 우수해진 결과이다. (이를 제로샷 학습 또는 인-콘텍스트 학습이라고도 한다.) 다시 말해, 어느 정도 일반화 성능이 있는 언어 모델이 아니라면 이러한 아키텍처를 사용하기 어려울 것이다.
이전부터 언어 모델 성능을 향상시키기 위해 검색을 활용하는 시도가 많았으며, 대표적으로 RETRO와 REARM이 있다. 하지만 현재는 RAG 아키텍처가 산업계에서 주목받고 있다. 이는 비약적으로 향상된 인-콘텍스트 학습 능력과 모델 학습이 따로 필요하지 않은 편리함 때문이다.
- RAG 아키텍처의 주된 작업흐름을 살펴보자. 첫 번째 작업 흐름은, 우리가 가진 정보를 검색하기 위해 DB에 정보를 저장하는 일이다. 관계형 데이터베이스(RDB)에 정형화된 정보를 저장하고, LLM에게 SQL 문을 작성하여 검색하도록 하는 방법도 가능하다. 그러나 우리가 가진 정보는 자연어로 작성된 문서 파일인 경우(예: PDF) 가 더 흔하다.
자연어를 DB에 저장하려면, 일반적으로 숫자 형태로 변환해야 한다. 특정 단어나 문장들이 존재하는지 여부를 나타내는 이진값 벡터로 변환할 수 있지만, 보다 현대적인 기술은 의미가 유사한 문장들이 유사한 벡터 값을 갖도록 변환하는 것이다. 이렇게 함으로써 더 응축된 길이의 벡터 형태로 정보를 표현할 수 있게 된다.
‘의미가 유사하다’라는 표현이 나왔는데, 이는 ‘정보의 해석’ 과정이 필요함을 뜻한다. 이를 위해서도 언어 모델의 개입이 필요하다. (반드시 LLM이 아니어도 된다.) 수집한 문서들을 작은 조각들로 분할하고(청킹), 언어 모델의 해석을 통해 벡터 형태(임베딩)로 변환한 후, 이를 벡터 DB에 저장한다. 이 과정은 검색 엔진의 오랜 기술이지만, 최근에 다시 각광받고 있다.
- 문서를 정제하는 데이터 전처리 작업(ETL)은 주로 Databricks, Apache Airflow와 같은 기존 도구를 사용하며, LangChain 또는 LlamaIndex의 문서 로더 기능을 추가로 활용할 수도 있다.
임베딩 작업은 전처리에 포함되며, OpenAI의 API(text-embedding-ada-002), Cohere, 허깅페이스의 BERT, Sentence Transformer, GPT-J 등을 사용할 수 있다. 임베딩은 LLM 앱의 성능에 직접적인 영향을 미치므로, 매우 신중하게 선택해야 한다. 또한, 우수한 임베딩이더라도 우리가 원하는 언어를 지원하지 않는다면 사용할 수 없다.
데이터베이스는 RDB가 아닌 벡터 DB를 사용해야 한다. 클레이폿 AI 창립자인 칩 후옌이 ‘그래프 DB의 해가 2021년이라면, 벡터 DB의 해는 2023년’이라고 말한 것처럼 이 분야에 대한 관심이 높다. Pinecone은 안정적인 클라우드 호스팅 기반으로 서비스되며, Weaviate, Vespa, Qdrant는 단일 노드 기반의 오픈소스 DB이다. Chroma, Faiss는 로컬 벡터 관리 라이브러리로, 엄밀히 DB는 아니지만 (샤딩 및 복제를 통한 성능 보장, 내결함성 향상, 모니터링, 접근 제어, 백업과 컬렉션 등 DB의 주된 기능을 제공하지 않기 때문에) 임베딩 검색 용도로 가볍게 사용할 수 있다. pgvector와 같이 PostgreSQL OLTP 확장판도 드물지만 사용되는 예시가 있다.
- 작업 흐름으로 돌아가, 두 번째 흐름은 LLM 앱에 질의가 들어오면 (예를 들어, "은행 계좌를 개설하려면 어떻게 해야 하나요?") 이 문장을 임베딩 벡터로 만들고, 벡터 DB에서 수치적으로 거리가 가장 가까운 문서들을 검색하여 가져온다.
그러나 계산학적으로 '가장 가까운' 문서 벡터를 찾는 것은 벡터의 크기 (차원)이 커질수록 어려워진다. 따라서 '근사적으로 가까운' (Approximate Nearest Neighbor, ANN) 벡터를 빠르게 찾는 방법이 주로 사용된다. 빠른 검색을 위해 벡터는 미리 인덱싱되며, 이를 위해 무작위 투영, PQ (Product Quantization), LSH (Locality Sensitive Hashing), HNSW (Hierarchical Navigable Small World) 등의 기법들이 적용된다. 이러한 기법들의 유무와 구현은 벡터 DB마다 다르며, 이는 LLM 앱의 성능에 영향을 미치므로 주의가 필요하다. 또한, 벡터 인덱싱 대신에 트리나 지식 그래프 구조 또는 이들의 조합을 활용한 인덱싱을 고려하기도 한다.
또한 질의문이 너무 간결하다면 관련성 있는 문서를 찾아오기 어려울 수 있고 이를 보완하기 위한 연구들이 있다. 예컨대, 가상의 문서를 임베딩하여 질의를 보강한다거나 콘텍스트 문서 생성에 클러스터링 알고리즘을 적용한 '생성 후 읽기' (GenRead) 기법 등이 있다.
- 세 번째 작업흐름으로 진행될 내용을 설명해보자. 질의와 관련 있는 문서(예를 들어, 비대면 은행 계좌 개설 안내 문서)를 가져왔다면, 이를 프롬프트 콘텍스트에 입력하고 LLM에게 답변을 요청해야 한다. 이를 위해서는 질의에 대한 임베딩 처리, 검색 요청, 검색 결과를 활용한 프롬프트 엔지니어링 작업이 필요하다. 이러한 작업을 특정 주체가 중앙에서 제어해주는데, 이를 오케스트레이션 프레임워크라고 한다.
오케스트레이션 프레임워크 중 대표적인 것이 Langchain이며, LlamaIndex (최초 명칭은 GPT Index)도 주목받고 있다. Langchain은 장황한 인터페이스와 느린 구현으로 인해 파이썬으로 직접 개발하는 경우도 있다. 그러나 Langchain은 아직 0.0.239 버전으로 개발이 진행 중이므로 기다려봐야 할 필요가 있다. 재밌게도 ChatGPT에 플러그인을 사용하여 오케스트레이션을 시험해볼 수도 있다.
LLM의 챔피언은 당연히 OpenAI의 gpt-4, gpt-4–32k이며, 50배 저렴하고 빠른 gpt-3.5-turbo를 사용해볼 수도 있다. 또한, Anthropic의 Claude는 GPT-3.5 수준의 정확도와 신속한 추론 속도를 가지고 있으며, 특히 Claude 2는 100k 길이의 콘텍스트 창을 지원한다고 한다. 일부 단순한 요청은 오픈소스 모델로 분기하여 대응하면서 비용을 낮출 수도 있다.
- 비즈니스 도메인 기반으로 대형 언어 모델 (LLM) 애플리케이션을 개발하고자 할 때 (예를 들어, 금융사 고객 응대 챗봇) 문제가 되는 점은 LLM의 정보 부족과 이로 인한 제한된 답변 능력이다. 예를 들어, GPT 3.5는 2021년 9월 이후의 데이터가 없으므로 최신 뉴스에 대한 답변을 제공할 수 없다.
- 이 문제를 해결하기 위한 방안으로 LLM을 새로운 데이터로 파인튜닝하는 것이 있다. 그러나 이는 상당한 비용이 소요된다. 현재 기준으로 FLAN-T5-XXL (11B) 모델을 CNN 데일리 메일 데이터셋 1개에 대해 파인튜닝하면 약 77만 원이 들게 된다.
또 다른 대안으로는 우리가 원하는 정보가 담긴 문서를 직접 프롬프트 콘텍스트에 넣어주고 원하는 응답을 얻는 것이다. 연구에 따르면 프롬프트의 가치는 데이터 샘플 약 100개에 준하는 정도라고 한다.
- 하지만 모든 정보를 콘텍스트에 일일이 넣어주는 것은 현실적으로 불가능하다. GPT-4가 처리 가능한 입력은 최대 50페이지 정도로 제한된다. 이러한 상황에서는 우리가 가진 정보를 데이터베이스에 저장해두고, 사용자의 질의가 들어올 때 (예를 들어, 챗봇을 통해 은행 계좌를 개설하는 방법을 물었을 때) 관련된 정보를 검색하여 해당 정보가 담긴 문서들을 프롬프트를 통해 LLM에 전달하는 방식이 더 효율적이다. 이러한 서비스 아키텍처를 ‘검색 증강 생성’(Retrieval Augmented Generation, RAG)라고 한다.
- 우리는 정보를 얻기 위해 LLM을 활용하는데, LLM에게 정보를 입력하는 방식이 다소 이상해 보일 수 있다. 그러나 정보의 입수와 정보의 처리(해석)는 완전히 다른 기능이다. 제2차 세계 대전 때 영국 정보부는 독일군의 암호를 얻어와 앨런 튜링에게 전달했다. 그러면 튜링의 콜로서스 머신이 이 암호를 해석해 주었다. 이런 모습을 머릿속에 그려보면 이해가 빠를 것이다. 이렇게 분업이 가능한 이유는 배우지 않은 정보를 일반화하여 해석하는 LLM의 능력이 매우 우수해진 결과이다. (이를 제로샷 학습 또는 인-콘텍스트 학습이라고도 한다.) 다시 말해, 어느 정도 일반화 성능이 있는 언어 모델이 아니라면 이러한 아키텍처를 사용하기 어려울 것이다.
이전부터 언어 모델 성능을 향상시키기 위해 검색을 활용하는 시도가 많았으며, 대표적으로 RETRO와 REARM이 있다. 하지만 현재는 RAG 아키텍처가 산업계에서 주목받고 있다. 이는 비약적으로 향상된 인-콘텍스트 학습 능력과 모델 학습이 따로 필요하지 않은 편리함 때문이다.
- RAG 아키텍처의 주된 작업흐름을 살펴보자. 첫 번째 작업 흐름은, 우리가 가진 정보를 검색하기 위해 DB에 정보를 저장하는 일이다. 관계형 데이터베이스(RDB)에 정형화된 정보를 저장하고, LLM에게 SQL 문을 작성하여 검색하도록 하는 방법도 가능하다. 그러나 우리가 가진 정보는 자연어로 작성된 문서 파일인 경우(예: PDF) 가 더 흔하다.
자연어를 DB에 저장하려면, 일반적으로 숫자 형태로 변환해야 한다. 특정 단어나 문장들이 존재하는지 여부를 나타내는 이진값 벡터로 변환할 수 있지만, 보다 현대적인 기술은 의미가 유사한 문장들이 유사한 벡터 값을 갖도록 변환하는 것이다. 이렇게 함으로써 더 응축된 길이의 벡터 형태로 정보를 표현할 수 있게 된다.
‘의미가 유사하다’라는 표현이 나왔는데, 이는 ‘정보의 해석’ 과정이 필요함을 뜻한다. 이를 위해서도 언어 모델의 개입이 필요하다. (반드시 LLM이 아니어도 된다.) 수집한 문서들을 작은 조각들로 분할하고(청킹), 언어 모델의 해석을 통해 벡터 형태(임베딩)로 변환한 후, 이를 벡터 DB에 저장한다. 이 과정은 검색 엔진의 오랜 기술이지만, 최근에 다시 각광받고 있다.
- 문서를 정제하는 데이터 전처리 작업(ETL)은 주로 Databricks, Apache Airflow와 같은 기존 도구를 사용하며, LangChain 또는 LlamaIndex의 문서 로더 기능을 추가로 활용할 수도 있다.
임베딩 작업은 전처리에 포함되며, OpenAI의 API(text-embedding-ada-002), Cohere, 허깅페이스의 BERT, Sentence Transformer, GPT-J 등을 사용할 수 있다. 임베딩은 LLM 앱의 성능에 직접적인 영향을 미치므로, 매우 신중하게 선택해야 한다. 또한, 우수한 임베딩이더라도 우리가 원하는 언어를 지원하지 않는다면 사용할 수 없다.
데이터베이스는 RDB가 아닌 벡터 DB를 사용해야 한다. 클레이폿 AI 창립자인 칩 후옌이 ‘그래프 DB의 해가 2021년이라면, 벡터 DB의 해는 2023년’이라고 말한 것처럼 이 분야에 대한 관심이 높다. Pinecone은 안정적인 클라우드 호스팅 기반으로 서비스되며, Weaviate, Vespa, Qdrant는 단일 노드 기반의 오픈소스 DB이다. Chroma, Faiss는 로컬 벡터 관리 라이브러리로, 엄밀히 DB는 아니지만 (샤딩 및 복제를 통한 성능 보장, 내결함성 향상, 모니터링, 접근 제어, 백업과 컬렉션 등 DB의 주된 기능을 제공하지 않기 때문에) 임베딩 검색 용도로 가볍게 사용할 수 있다. pgvector와 같이 PostgreSQL OLTP 확장판도 드물지만 사용되는 예시가 있다.
- 작업 흐름으로 돌아가, 두 번째 흐름은 LLM 앱에 질의가 들어오면 (예를 들어, "은행 계좌를 개설하려면 어떻게 해야 하나요?") 이 문장을 임베딩 벡터로 만들고, 벡터 DB에서 수치적으로 거리가 가장 가까운 문서들을 검색하여 가져온다.
그러나 계산학적으로 '가장 가까운' 문서 벡터를 찾는 것은 벡터의 크기 (차원)이 커질수록 어려워진다. 따라서 '근사적으로 가까운' (Approximate Nearest Neighbor, ANN) 벡터를 빠르게 찾는 방법이 주로 사용된다. 빠른 검색을 위해 벡터는 미리 인덱싱되며, 이를 위해 무작위 투영, PQ (Product Quantization), LSH (Locality Sensitive Hashing), HNSW (Hierarchical Navigable Small World) 등의 기법들이 적용된다. 이러한 기법들의 유무와 구현은 벡터 DB마다 다르며, 이는 LLM 앱의 성능에 영향을 미치므로 주의가 필요하다. 또한, 벡터 인덱싱 대신에 트리나 지식 그래프 구조 또는 이들의 조합을 활용한 인덱싱을 고려하기도 한다.
또한 질의문이 너무 간결하다면 관련성 있는 문서를 찾아오기 어려울 수 있고 이를 보완하기 위한 연구들이 있다. 예컨대, 가상의 문서를 임베딩하여 질의를 보강한다거나 콘텍스트 문서 생성에 클러스터링 알고리즘을 적용한 '생성 후 읽기' (GenRead) 기법 등이 있다.
- 세 번째 작업흐름으로 진행될 내용을 설명해보자. 질의와 관련 있는 문서(예를 들어, 비대면 은행 계좌 개설 안내 문서)를 가져왔다면, 이를 프롬프트 콘텍스트에 입력하고 LLM에게 답변을 요청해야 한다. 이를 위해서는 질의에 대한 임베딩 처리, 검색 요청, 검색 결과를 활용한 프롬프트 엔지니어링 작업이 필요하다. 이러한 작업을 특정 주체가 중앙에서 제어해주는데, 이를 오케스트레이션 프레임워크라고 한다.
오케스트레이션 프레임워크 중 대표적인 것이 Langchain이며, LlamaIndex (최초 명칭은 GPT Index)도 주목받고 있다. Langchain은 장황한 인터페이스와 느린 구현으로 인해 파이썬으로 직접 개발하는 경우도 있다. 그러나 Langchain은 아직 0.0.239 버전으로 개발이 진행 중이므로 기다려봐야 할 필요가 있다. 재밌게도 ChatGPT에 플러그인을 사용하여 오케스트레이션을 시험해볼 수도 있다.
LLM의 챔피언은 당연히 OpenAI의 gpt-4, gpt-4–32k이며, 50배 저렴하고 빠른 gpt-3.5-turbo를 사용해볼 수도 있다. 또한, Anthropic의 Claude는 GPT-3.5 수준의 정확도와 신속한 추론 속도를 가지고 있으며, 특히 Claude 2는 100k 길이의 콘텍스트 창을 지원한다고 한다. 일부 단순한 요청은 오픈소스 모델로 분기하여 대응하면서 비용을 낮출 수도 있다.
이런 경우를 대비하여 Databricks, AnyScale, Mosaic, Modal, RunPod 플랫폼은 모델 파인튜닝 도구를, Hugging Face와 Replicate는 API 인터페이스를 제공하고 있다.
시중에는 다양한 상업용 오픈소스 LLM 모델이 존재하며(Together, Mosaic, Falcon, Mistral 등) 이들이 GPT-3.5의 정확도 수준에 다다른다면 산업계에서는 오픈소스 사용도 고려할 가능성이 보인다. 최근 Meta에서 Llama2를 릴리즈하면서 LLM 씬에도 개성있고 우수한 모델이 쏟아져 나오는 스테이블 디퓨전 모먼트가 발생하지 않을까 그 귀추가 주목되고 있다.
- 주된 작업흐름에 대한 이야기는 끝났다. 요약하자면, 어떤 임베딩, 벡터 DB, 그리고 LLM을 사용할지가 애플리케이션의 성능을 좌우하는 핵심 요소이다. MLOps와 비슷하게 RAG 주위로는 수많은 LLMOps 도구들의 생태계가 형성되고 있다. LLM 응답 캐싱을 위해 Redis, GPTCache가, LLM 출력 모니터링, 추적, 평가를 위해 W&B, MLflow, PromptLayer, Helicone이, 출력의 유해성 검증을 위해 Guardrails가, 그리고 프롬프트 주입 공격 방어를 위해 Rebuff가 제공되고 있다.
전체적인 RAG 아키텍처 호스팅은 주로 클라우드 공급자 서비스 내에서 이루어지겠지만, 흥미로운 두 가지 시도가 있다. Streamship은 LLM 앱을 엔드-투-엔드로 호스팅하면서 다양한 기능을 제공하려고 하고, 독자적인 LLM 모델을 갖추고 있는 AnyScale, Mosaic은 모델과 파이썬 코드를 한 곳에서 호스팅 가능하도록 지원하고 있다.
- 다음번에는 RAG 아키텍처에 대해 AWS 서비스로 한정하여 적어볼 예정이다.
참조:
- Emerging Architectures for LLM Applications(https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/)
- Knowledge Retrieval Architecture for LLM’s (2023)(https://mattboegner.com/knowledge-retrieval-architecture-for-llms/?fbclid=IwAR1zYHaStMU-DJuP84iZ-h9K1vMMb_qVtBsQ5FotPqAjv5Lb4fyyBG_nAoI)
- Building LLM Applications for Production(https://huyenchip.com//2023/04/11/llm-engineering.html)
- ChatGPT의 전두엽(장기기억 저장소)으로 각광받고 있는 Vector DB에 대해 알아보자(https://devocean.sk.com/experts/techBoardDetail.do?ID=164964&fbclid=IwAR2XOaqC8QwGjWoThJmUG-mldeuyiIpLefJHmzd9qJE-GuFhqXlQB-ODwi8)
시중에는 다양한 상업용 오픈소스 LLM 모델이 존재하며(Together, Mosaic, Falcon, Mistral 등) 이들이 GPT-3.5의 정확도 수준에 다다른다면 산업계에서는 오픈소스 사용도 고려할 가능성이 보인다. 최근 Meta에서 Llama2를 릴리즈하면서 LLM 씬에도 개성있고 우수한 모델이 쏟아져 나오는 스테이블 디퓨전 모먼트가 발생하지 않을까 그 귀추가 주목되고 있다.
- 주된 작업흐름에 대한 이야기는 끝났다. 요약하자면, 어떤 임베딩, 벡터 DB, 그리고 LLM을 사용할지가 애플리케이션의 성능을 좌우하는 핵심 요소이다. MLOps와 비슷하게 RAG 주위로는 수많은 LLMOps 도구들의 생태계가 형성되고 있다. LLM 응답 캐싱을 위해 Redis, GPTCache가, LLM 출력 모니터링, 추적, 평가를 위해 W&B, MLflow, PromptLayer, Helicone이, 출력의 유해성 검증을 위해 Guardrails가, 그리고 프롬프트 주입 공격 방어를 위해 Rebuff가 제공되고 있다.
전체적인 RAG 아키텍처 호스팅은 주로 클라우드 공급자 서비스 내에서 이루어지겠지만, 흥미로운 두 가지 시도가 있다. Streamship은 LLM 앱을 엔드-투-엔드로 호스팅하면서 다양한 기능을 제공하려고 하고, 독자적인 LLM 모델을 갖추고 있는 AnyScale, Mosaic은 모델과 파이썬 코드를 한 곳에서 호스팅 가능하도록 지원하고 있다.
- 다음번에는 RAG 아키텍처에 대해 AWS 서비스로 한정하여 적어볼 예정이다.
참조:
- Emerging Architectures for LLM Applications(https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/)
- Knowledge Retrieval Architecture for LLM’s (2023)(https://mattboegner.com/knowledge-retrieval-architecture-for-llms/?fbclid=IwAR1zYHaStMU-DJuP84iZ-h9K1vMMb_qVtBsQ5FotPqAjv5Lb4fyyBG_nAoI)
- Building LLM Applications for Production(https://huyenchip.com//2023/04/11/llm-engineering.html)
- ChatGPT의 전두엽(장기기억 저장소)으로 각광받고 있는 Vector DB에 대해 알아보자(https://devocean.sk.com/experts/techBoardDetail.do?ID=164964&fbclid=IwAR2XOaqC8QwGjWoThJmUG-mldeuyiIpLefJHmzd9qJE-GuFhqXlQB-ODwi8)
Andreessen Horowitz
Emerging Architectures for LLM Applications
A reference architecture for the LLM app stack. It shows the most common systems, tools, and design patterns used by AI startups and tech companies.
AI로 인해서 새로운 UX(음성, 이미지, 영상, 텍스트) 등 새로운 기기가 등장할 수도 있겠네요. 이 영상은 Iphone을 처음 개발하던 시기에 활동했던 임원들의 인터뷰입니다.
이 내러티브는 아이폰의 구상부터 대중에게 공개되기까지의 애플의 아이폰 개발 여정에 대해 설명합니다. 스티브 잡스가 이끄는 애플 팀은 처음에 아이팟을 개선하고 휴대폰과의 잠재적 경쟁에 맞서기 위해 아이팟을 휴대폰과 결합하여 시장 지위를 유지하는 것을 목표로 삼았습니다. 첫 번째 디자인은 아이팟의 인터페이스와 하드웨어 키보드를 통합했지만, 논리적이고 직관적인 다이얼링 메커니즘을 개발하는 데 어려움을 겪었습니다.
그러던 중 태블릿용으로 개발하던 터치 기술을 포켓 사이즈 휴대폰에 적용하는 아이디어를 떠올리게 되었습니다. 팀은 몇 가지 장애물과 격렬한 작업에 직면했고, 잡스는 유망한 결과물을 제시하지 못하면 프로젝트를 다른 팀에 넘기겠다고 위협했습니다.
가장 어려웠던 부분 중 하나는 기능적이고 사용자 친화적인 소프트웨어 키보드를 설계하는 것이었는데, 이미 잘 알려진 BlackBerry와 비교될 것을 알았기 때문입니다. 키보드 솔루션은 타이핑하는 동안 다음 글자가 닿을 가능성이 있는 영역을 확대하는 동적 타격 영역 시스템을 개발한 팀원으로부터 나왔습니다.
이 프로젝트는 Apple 내부에서도 일급 비밀로 유지되어 소프트웨어 팀과 하드웨어 팀이 서로의 작업 내용을 알지 못하는 경우가 많았습니다. 마침내 잡스가 라이브 데모를 통해 제품을 공개했고, 출시와 동시에 대중의 엄청난 관심을 받으며 아이폰이 곧 사회적으로 큰 영향을 미칠 것임을 암시했습니다.
관련해서는 이런 책들도 좋겠네요.
https://www.amazon.com/Creative-Selection-Inside-Apples-Process/dp/1250194466
https://www.amazon.com/Build-Unorthodox-Guide-Making-Things/dp/B09CF2YB6Z/ref=sr_1_1?crid=3MS1L5GA70UZ1&keywords=build&qid=1690167035&s=books&sprefix=build%2Cstripbooks-intl-ship%2C274&sr=1-1
이 내러티브는 아이폰의 구상부터 대중에게 공개되기까지의 애플의 아이폰 개발 여정에 대해 설명합니다. 스티브 잡스가 이끄는 애플 팀은 처음에 아이팟을 개선하고 휴대폰과의 잠재적 경쟁에 맞서기 위해 아이팟을 휴대폰과 결합하여 시장 지위를 유지하는 것을 목표로 삼았습니다. 첫 번째 디자인은 아이팟의 인터페이스와 하드웨어 키보드를 통합했지만, 논리적이고 직관적인 다이얼링 메커니즘을 개발하는 데 어려움을 겪었습니다.
그러던 중 태블릿용으로 개발하던 터치 기술을 포켓 사이즈 휴대폰에 적용하는 아이디어를 떠올리게 되었습니다. 팀은 몇 가지 장애물과 격렬한 작업에 직면했고, 잡스는 유망한 결과물을 제시하지 못하면 프로젝트를 다른 팀에 넘기겠다고 위협했습니다.
가장 어려웠던 부분 중 하나는 기능적이고 사용자 친화적인 소프트웨어 키보드를 설계하는 것이었는데, 이미 잘 알려진 BlackBerry와 비교될 것을 알았기 때문입니다. 키보드 솔루션은 타이핑하는 동안 다음 글자가 닿을 가능성이 있는 영역을 확대하는 동적 타격 영역 시스템을 개발한 팀원으로부터 나왔습니다.
이 프로젝트는 Apple 내부에서도 일급 비밀로 유지되어 소프트웨어 팀과 하드웨어 팀이 서로의 작업 내용을 알지 못하는 경우가 많았습니다. 마침내 잡스가 라이브 데모를 통해 제품을 공개했고, 출시와 동시에 대중의 엄청난 관심을 받으며 아이폰이 곧 사회적으로 큰 영향을 미칠 것임을 암시했습니다.
관련해서는 이런 책들도 좋겠네요.
https://www.amazon.com/Creative-Selection-Inside-Apples-Process/dp/1250194466
https://www.amazon.com/Build-Unorthodox-Guide-Making-Things/dp/B09CF2YB6Z/ref=sr_1_1?crid=3MS1L5GA70UZ1&keywords=build&qid=1690167035&s=books&sprefix=build%2Cstripbooks-intl-ship%2C274&sr=1-1
Relax. Not Everyone is Out to Get You
“If you ever feel that the world is against you, you are not alone. We all have a tendency to assume that when anything goes wrong, the fault lies within some great conspiracy against us. A co-worker fails to give you a report in time? They must be trying to derail your career and beat you to a promotion. Your child drops and breaks an expensive plate? They must be trying to annoy you and waste your time. WiFi in a coffee shop not working? The staff must be lying about having it to lure you in and sample their crappy espresso. But the simple fact is that these explanations which we tend to jump to are rarely true."
“If you ever feel that the world is against you, you are not alone. We all have a tendency to assume that when anything goes wrong, the fault lies within some great conspiracy against us. A co-worker fails to give you a report in time? They must be trying to derail your career and beat you to a promotion. Your child drops and breaks an expensive plate? They must be trying to annoy you and waste your time. WiFi in a coffee shop not working? The staff must be lying about having it to lure you in and sample their crappy espresso. But the simple fact is that these explanations which we tend to jump to are rarely true."
Who controls your focus?
“Focus was ingrained in Jobs’s personality and had been honed by his Zen training. He relentlessly filtered out what he considered distractions. Colleagues and family members would at times be exasperated as they tried to get him to deal with issues—a legal problem, a medical diagnosis—they considered important. But he would give a cold stare and refuse to shift his laserlike focus until he was ready.”
“Focus was ingrained in Jobs’s personality and had been honed by his Zen training. He relentlessly filtered out what he considered distractions. Colleagues and family members would at times be exasperated as they tried to get him to deal with issues—a legal problem, a medical diagnosis—they considered important. But he would give a cold stare and refuse to shift his laserlike focus until he was ready.”
Key questions for a new business
1. The customers
1. How big?
2. How fast growing?
2. Problems?
1. How severe?
3. Solutions
1. Why are or will customer not satisfied with this current solution?
4. Your Solution
1. What do we understand that others don’t?
- Could we do that better, cheaper, faster or totally different way?
- Do you understand the competition?
5. Competition
1. Do you have competition?
2. Do you have any proxy in other areas?
6. Distribution
1. Which channel is ideal to scale this idea to 10, 100x?
7. Unit Economics
1. if the difference between money spent and money earned per customer is (+), the business will make money someday.
2. Even if it's - now, if it's getting better, it's something to look forward to.
8. Why now?
1. How has this opportunity evolved?
2. Have technologies been evolved?
3. Have the regulation been changed?
9. Why you?
1. Do you want to address this problem for several years?
10. Idea space?
1. Does this area or problem have a good potential?
1. The customers
1. How big?
2. How fast growing?
2. Problems?
1. How severe?
3. Solutions
1. Why are or will customer not satisfied with this current solution?
4. Your Solution
1. What do we understand that others don’t?
- Could we do that better, cheaper, faster or totally different way?
- Do you understand the competition?
5. Competition
1. Do you have competition?
2. Do you have any proxy in other areas?
6. Distribution
1. Which channel is ideal to scale this idea to 10, 100x?
7. Unit Economics
1. if the difference between money spent and money earned per customer is (+), the business will make money someday.
2. Even if it's - now, if it's getting better, it's something to look forward to.
8. Why now?
1. How has this opportunity evolved?
2. Have technologies been evolved?
3. Have the regulation been changed?
9. Why you?
1. Do you want to address this problem for several years?
10. Idea space?
1. Does this area or problem have a good potential?
AI startup 하시는 분들 7월 30일까지 Sequioa Arc(초기 스타트업 투자 프로그램 like YC)가 열렸네요.
https://www.sequoiacap.com/arc
Pros
Sequioa네트워크를 활용할 수 있다.
Cons
만약 Sequioa가 후속투자 안 해주면 왜 못받았는지 질문을 많이 받을 수 있습니다.
https://www.sequoiacap.com/arc
Pros
Sequioa네트워크를 활용할 수 있다.
Cons
만약 Sequioa가 후속투자 안 해주면 왜 못받았는지 질문을 많이 받을 수 있습니다.
Sequoiacap
Sequoia Arc: Company Building Immersion
Learn Sequoia’s approach to Company Design from best-in-class founders, operators & Sequoia partners.
How will spatial services be redefined in the future?
https://www.linkedin.com/posts/genai-works_the-best-stop-motion-video-ever-produced-activity-7089135122884530176-WMBN?utm_source=share&utm_medium=member_desktop
https://www.linkedin.com/posts/genai-works_the-best-stop-motion-video-ever-produced-activity-7089135122884530176-WMBN?utm_source=share&utm_medium=member_desktop
Linkedin
Generative AI on LinkedIn: The best stop-motion video ever produced so far 🔥
Imagine 30 years ago… | 221 comments
Imagine 30 years ago… | 221 comments
The best stop-motion video ever produced so far 🔥
Imagine 30 years ago, when effects like this took THOUSANDS of hours to produce.
Enabled by AI tracking… | 221 comments on LinkedIn
Imagine 30 years ago, when effects like this took THOUSANDS of hours to produce.
Enabled by AI tracking… | 221 comments on LinkedIn
Bolt, a symbol of overheated financing and questionable due diligence during the pandemic, received an SEC subpoena over statements it made to investors, according to an investor letter. A separate suit says founder Ryan Breslow ousted three board members for not forgiving a $30 million loan.
https://www.theinformation.com/articles/bolt-probed-by-sec-investors-over-statements-made-during-fundraising?utm_medium=email&utm_campaign=article_email&utm_content=article-10930&utm_source=sg&rc=ocojsj
https://www.theinformation.com/articles/bolt-probed-by-sec-investors-over-statements-made-during-fundraising?utm_medium=email&utm_campaign=article_email&utm_content=article-10930&utm_source=sg&rc=ocojsj
The Information
Bolt Probed by SEC, Investors Over Statements Made During Fundraising
The Securities and Exchange Commission subpoenaed e-commerce software startup Bolt and sent a notice to co-founder and former CEO Ryan Breslow last year over their past statements to current and potential investors, according to an April 2023 letter from…
“실리콘밸리에서는 좁은 기회를 뚫기 위해 서로 싸우고 경쟁하기보다는, 공유하고 협력합니다. 성공한 사람을 질투하기 보다는, 다음 세대를 끌어주고 도와줍니다. 오늘 만난 인연으로 다함께 더 협력하고, 공유하여 AI를 발전시키기를 기원합니다.”
❤1
How innovation happens in bio pharma?
Builders will need to understand both a) how to exploit the latest and greatest AI tech, and (perhaps more importantly) b) how to commercialize a product or platform in biopharma and healthcare with a defensible product and go-to-market strategy. As such, we believe teams with depth in both (scientists, AI experts, healthcare builders and operators, product and go-to-market experts) will be best poised to lead and win in this new era.
Builders will need to understand both a) how to exploit the latest and greatest AI tech, and (perhaps more importantly) b) how to commercialize a product or platform in biopharma and healthcare with a defensible product and go-to-market strategy. As such, we believe teams with depth in both (scientists, AI experts, healthcare builders and operators, product and go-to-market experts) will be best poised to lead and win in this new era.
What AI startups should you keep an eye on? :robot_face: 🔥 We asked some incredible investors and founders for their picks. Here are 13 companies pushing the AI frontier 👇
1. Alife
Alife is revolutionizing IVF with AI-powered tools. It’s enhancing decision-making at crucial stages like ovarian stimulation & embryo selection, making fertility treatments more accessible and efficient.
- Rebecca Kaden, Union Square Ventures
2. Glean
Glean uses AI to provide unified, contextual search across apps. Quickly becoming more than just a tool - it’s an intuitive work assistant.
- Josh Coyne, Kleiner Perkins
3. LanceDB (YC W22)
Multi-modal AI is revolutionary, but data management remains a challenge. Lance optimizes storage and handling for this unstructured data, increasing performance, & reducing costs.
- Saar Gur, CRV
4. Abnormal Security
We’ve seen a surge in AI-powered fraud. As these sophisticated attacks rise, so does the need for AI defenses. Abnormal Security uses AI to counter AI threats.
- Saam Motamedi, Greylock
5. Factory
Factory is creating AI coding “droids” designed to take care of an engineer’s annoying busywork, tackling routine tasks like code review and debugging.
- Markie Wagner, Delphi Labs
6. Lamini
Lamini LLM engine creates and fine-tunes customized, private models. It also has a neat partnership with Databricks, making it even easier to get up and running.
- Todd Jackson & James C. Wu, First Round Capital
7. Sereact
Sereact is revolutionizing warehouse automation, leveraging AI to train its robot arm. From picking electronic devices to soft fruits, its arm navigates spatial and physical nuances v well.
- Nathan Benaich, Air Street Capital
8. Mistral AI
Mistral, founded by impressive AI talent, is developing superior OS language models. A potential European challenger to OpenAI.
- Stanislas Polu, Dust
9. poolside
Poolside is another player in the AI-programming space. Its approach is to create a dedicated foundation model focused on one use case: code generation.
- Matan Grinberg, Factory
10. NewLimit
NewLimit is using ML to change the game in epigenetic reprogramming. Their approach could be transformative for treating intractable diseases.
- Simon Barnett, Dimension
11. Runway
Runway is building a new creative suite with AI. It brings professional-grade video creation to anyone. Already used by Fortune 500 and major movies productsions.
- Grace Isford, Lux Capital
12. Labelbox
By making it easy to select, annotate, and assess data, Labelbox makes it easier to experiment with using AI models like GPT-4.
- Robert Kaplan, SoftBank
13. Dust
Dust leverages LLMs for enterprise productivity. The startup is building a “team operating system” designed to augment knowledge workers.
- Konstantine Buhler, Sequoia Capital
There’s a lot more insight and detail in the piece, linked below. Jump in and subscribe for more glimpses of the future 🙂
1. Alife
Alife is revolutionizing IVF with AI-powered tools. It’s enhancing decision-making at crucial stages like ovarian stimulation & embryo selection, making fertility treatments more accessible and efficient.
- Rebecca Kaden, Union Square Ventures
2. Glean
Glean uses AI to provide unified, contextual search across apps. Quickly becoming more than just a tool - it’s an intuitive work assistant.
- Josh Coyne, Kleiner Perkins
3. LanceDB (YC W22)
Multi-modal AI is revolutionary, but data management remains a challenge. Lance optimizes storage and handling for this unstructured data, increasing performance, & reducing costs.
- Saar Gur, CRV
4. Abnormal Security
We’ve seen a surge in AI-powered fraud. As these sophisticated attacks rise, so does the need for AI defenses. Abnormal Security uses AI to counter AI threats.
- Saam Motamedi, Greylock
5. Factory
Factory is creating AI coding “droids” designed to take care of an engineer’s annoying busywork, tackling routine tasks like code review and debugging.
- Markie Wagner, Delphi Labs
6. Lamini
Lamini LLM engine creates and fine-tunes customized, private models. It also has a neat partnership with Databricks, making it even easier to get up and running.
- Todd Jackson & James C. Wu, First Round Capital
7. Sereact
Sereact is revolutionizing warehouse automation, leveraging AI to train its robot arm. From picking electronic devices to soft fruits, its arm navigates spatial and physical nuances v well.
- Nathan Benaich, Air Street Capital
8. Mistral AI
Mistral, founded by impressive AI talent, is developing superior OS language models. A potential European challenger to OpenAI.
- Stanislas Polu, Dust
9. poolside
Poolside is another player in the AI-programming space. Its approach is to create a dedicated foundation model focused on one use case: code generation.
- Matan Grinberg, Factory
10. NewLimit
NewLimit is using ML to change the game in epigenetic reprogramming. Their approach could be transformative for treating intractable diseases.
- Simon Barnett, Dimension
11. Runway
Runway is building a new creative suite with AI. It brings professional-grade video creation to anyone. Already used by Fortune 500 and major movies productsions.
- Grace Isford, Lux Capital
12. Labelbox
By making it easy to select, annotate, and assess data, Labelbox makes it easier to experiment with using AI models like GPT-4.
- Robert Kaplan, SoftBank
13. Dust
Dust leverages LLMs for enterprise productivity. The startup is building a “team operating system” designed to augment knowledge workers.
- Konstantine Buhler, Sequoia Capital
There’s a lot more insight and detail in the piece, linked below. Jump in and subscribe for more glimpses of the future 🙂
👍1
“Nobody tells this to people who are beginners, I wish someone told me. All of us who do creative work, we get into it because we have good taste. But there is this gap. For the first couple years you make stuff, it’s just not that good. It’s trying to be good, it has potential, but it’s not. But your taste, the thing that got you into the game, is still killer. And your taste is why your work disappoints you. A lot of people never get past this phase, they quit. Most people I know who do interesting, creative work went through years of this. We know our work doesn’t have this special thing that we want it to have. We all go through this. And if you are just starting out or you are still in this phase, you gotta know its normal and the most important thing you can do is do a lot of work. Put yourself on a deadline so that every week you will finish one story. It is only by going through a volume of work that you will close that gap, and your work will be as good as your ambitions. And I took longer to figure out how to do this than anyone I’ve ever met. It’s gonna take awhile. It’s normal to take awhile. You’ve just gotta fight your way through.”
― Ira Glass
― Ira Glass