전종현의 인사이트
“주변 사람이 당신 안에서 당신보다 먼저 잠재력을 본다면, 그것만큼 강력한 축복은 없습니다.” https://m.blog.naver.com/thingschange_/224084241066?enterPage=feed
창업을 꿈꾸는 사람들을 위해 그 결정에 대해 더 이야기해 주시죠. 준비되었다고 느끼셨나요?
아뇨, 전혀요. 저는 살면서 한 번도 준비되었다고 느낀 적이 없습니다. 이건 모두가 적어둬야 할 교훈일 겁니다. 다른 사람들이 당신에게서 당신이 못 보는 무언가를 볼 때, 그건 놀라운 일입니다. 스티브, 찰리, 워런 모두 그랬습니다.
버크셔에서 처음 20~25억 달러 포트폴리오를 맡았는데 6개월 뒤 워런이 "두 배로 늘리자"고 했을 때도 저는 "음..." 했지만 그는 "넌 괜찮아"라고 했죠. 저는 헤이븐(Haven)도, 1년에 200개 인수를 검토하는 것도, 4만 명 직원의 회사를 운영하는 것도 준비되지 않았었습니다.
스티브 프리드먼을 만난 건 엘리엇 스피처(Eliot Spitzer) 검찰총장의 조사 때문이었습니다. 이사회는 스티브에게 마시를 맡아달라고 했고, 그는 보험 전문가를 찾다가 제가 이 회사를 2년 동안 공매도하고 있다는 걸 알게 된 지인을 통해 저에게 연락했습니다.
아침 식사를 하며 2시간 동안 마시 맥레넌에 대해 이야기했습니다. 끝날 무렵 스티브가 "혹시 다른 공매도하는 거 있어요?"라고 물었습니다. 저는 스티브가 패니메이(Fannie Mae) 이사회 의장인 줄도 모르고 순진하게 말했습니다.
"아, 패니메이는 마시보다 10배는 더 최악이에요."
"뭐라고?" 제가 말했죠. "완전 회계 부정이에요. 감옥 갈 사람 나올 겁니다." 그가 "나 거기 이사인 거 알아요?"라고 해서 "몰랐어요. 저라면 당장 그 이사회에서 나오겠어요"라고 했습니다.
그는 다음 날 또 아침을 먹자고 했고, 3시간 동안 파생상품 회계 등을 설명해 줬습니다. 변호사인 그는 회의에서 빠져나와 그날 저녁 5시에 이사회를 사임했습니다. 그리고 다음 날 와서 "우리가 당신 같은 사람을 7~8년 동안 찾고 있었는데, 펀드를 시작해라"라고 했습니다. 참 묘하게 일이 풀리죠.
—
복리 방정식으로 돌아가 보죠. 원칙(P)을 찾고(호기심), 성장률(R)을 높이는 법(능동적 학습, 노력)을 이야기했습니다. 이제 세 번째 변수인 시간(T), 지속성에 대해 이야기해 봅시다.
투자든 인생이든 5~7년은 잘하다가 멈추는 경우가 많습니다. 반면 버크셔는 계속 성장합니다. 어떻게 'T'를 연장할 수 있을까요?
목적(Purpose)으로 귀결됩니다. 톰 브래디나 페더러, 조코비치가 은퇴하지 않으려는 이유는 잘해서이기도 하지만, 그걸 사랑하기 때문입니다.
경쟁이 치열한 세상에서 100만 명이 조코비치나 워런 버핏이 되려고 노력합니다. 그중 0.1%가 그 일을 너무나 열정적으로 사랑해서 잠자리에 들 때도, 일어날 때도 그 생각만 한다면, 단순히 노력만으로는 그들을 이길 수 없습니다.
그래서 열정을 찾는 게 중요합니다. 돈이나 명예 같은 단기적이고 일시적인 것을 위해 일한다면, 진정으로 사랑하는 사람들과 경쟁할 수 없습니다.
그리고 젊을 때 많은 리스크를 감수하는 게 정말 중요합니다. 저는 잃을 게 없었기 때문에 그랬습니다. 나이가 들면 하방 리스크가 커집니다. 그러니 젊을 때 리스크를 감수하고 실수하세요. 사기 같은 게 아니라면요.
찰리와 워런과 이야기한 건데, 인생에서 100만 개의 실수를 해야 한다면, 그걸 다 앞당겨서 19살, 20살, 21살 때 다 해버리세요. 그러면 이론적으로 다시는 실수하지 않겠죠. 그러려면 초반에 시야를 엄청나게 넓혀야(widen the aperture) 합니다. 그러면서 배워서 좁혀나가는 거죠.
퍼즐을 맞출 때 조각을 다 쏟아붓고 가장자리와 모서리부터 맞추는 것과 같습니다. 중간부터 시작하지 않습니다. 밖에서 안으로(outside in) 작업하는 거죠.
——
기업가로서의 삶을 떠나 거대 조직으로 들어가는 건 드문 일입니다. 찰리에게 콜드 콜(cold call)을 하게 된 계기가 무엇인가요?
돈은 벌고 싶었지만 이미 벌었고, 저는 '핵융합'처럼 적은 투입으로 더 많은 산출을 원했습니다. 캐슬 포인트로 그걸 어느 정도 이뤘지만, 번아웃이 왔습니다. 주 80시간 근무, 월간 보고서 작성 등은 잘 될 때도 재미없었습니다.
저는 보험을 알았고, 보험 회사를 사서 영구 자본(permanent capital)을 갖고 자산은 유지하되 부채(보고 의무 등)는 없애고 싶었습니다. 그렇게 하려고 했는데, 찰리가 당시 86세쯤 되었으니 얼마 안 계실 수도 있겠다고 생각했죠.
LA에 갈 일이 있어서 "만날 리 없겠지만 한번 해보자" 하고 전화했습니다. 비서가 "원하는 게 뭐냐?"라고 해서 "아무것도 원하지 않는다. 그냥 만나고 싶다"라고 했습니다. 우연히 우리가 아는 공통의 지인(마크 넬슨)이 있었고, 그가 찰리에게 저에 대해 좋게 말해줬습니다. 마크는 제 프레젠테이션을 보고 "젊은 찰리 멍거 같다"라고 했었거든요.
찰리가 다음 날 이메일로 "아침 7시에 캘리포니아 클럽에서 보자"라고 했습니다. 6시간 동안 이야기했는데, 그분을 따라가느라 저는 진이 다 빠졌습니다. 그에게는 그냥 테니스 공 치는 것 같았겠지만요.
그 후 일주일 뒤 전화가 와서 또 몇 시간 통화하고, 다음에 LA 올 때 또 보자고 하셨습니다. 12번 정도 만났는데 처음에는 투자 이야기는 별로 안 했습니다. 그러다 결국 "뭐 할 거냐?"라고 물으시길래 계획을 말했더니, "그냥 워런이랑 이야기해 봐"라고 하셨습니다. 저는 그게 면접인 줄도 몰랐습니다. 제가 가진 주식 중 하나를 그들이 인수하려고 부르는 줄 알았죠. 그게 오히려 가식 없이 대화할 수 있게 해 주었습니다.
—
워런과 찰리는 당신에게서 무엇을 보았을까요?
어려운 질문이네요. 일화가 낫겠네요. 찰리와의 첫 만남에서 딥워터 호라이즌(Deepwater Horizon, BP 기름 유출 사고) 이야기가 나왔습니다. 우리는 우주와 마틴 리스의 책 『단지 여섯 개의 숫자(Just Six Numbers)』에 대해 이야기하다가 거기로 흘러갔습니다.
저는 보험 용어로 "CEO 임기가 4년이니 100년에 한 번 일어날 확률에 돈을 안 쓴 거다. 그들은 본질적으로 딥 OTM(Out-of-the-money) 풋옵션을 판 것과 같다"라고 했습니다.
찰리가 "방금 뭐라고 했나? 젠장, 그거 천재적인데(brilliant)"라고 했습니다. 저는 "아니에요, 그냥 포드 핀토(Ford Pinto) 사건 같아요. 2센트짜리 부품을 안 써서 차가 폭발하게 둔 거죠"라고 했습니다. 빈도와 심도(frequency and severity), 파워 법칙 등에 대해 이야기했습니다. 그런 사고방식이 통했던 것 같습니다.
워런과는 바로 주식 이야기로 들어갔습니다. 제 포트폴리오에 U.S. 뱅코프, 웰스파고, 마스터카드, 비자가 있었는데, 그는 아멕스(Amex)를 가지고 있었죠. "왜 아멕스 대신 마스터카드인가?"라고 물었고 저는 제 의견을 쏟아냈습니다.
워런은 지적으로 정직한 분이라 "어떤 시나리오에서 그게 틀릴 수 있지?"라고 물었고 우리는 토론했습니다. 프로그레시브와 가이코(Geico)에 대해서도, 저는 "프로그레시브가 데이터 회사라 장기적으로 이길 거다. 둘 다 기술은 별로다"라고 솔직하게 말했습니다.
CEO들은 보통 아부만 듣는데, 저는 신경 쓰지 않았습니다. "이게 제 의견입니다. 동의 안 하셔도 됩니다." 그 솔직함을 높이 사신 게 아닐까 싶습니다.
—
워런 버핏의 사무실 바로 옆방에서 지내며, 그와 찰리 멍거를 멘토이자 친구로 둔다는 건 어떤 느낌인가요?
"고무가 도로에 닿을 때(실전 상황이 닥칠 때)" 진가를 알게 됩니다.
힘든 상황이 터졌을 때, 사무실에 저밖에 없었는데 워런이 슬리퍼를 끌고 내려와서 "오늘 3건의 딜이 왔는데 다 쓰레기야. 왜냐하면..." 하면서 이야기를 시작합니다. 방사선 회사 이야기나 케이블 카우보이(Cable Cowboy) 책을 읽은 이야기 등등요.
제가 케이블 사업에 대해 묻자 그는 60년대에 분석했던 파일들을 보라고 했습니다. 점심 먹으러 가서 그런 이야기를 나누죠. 저는 71년생이라 60년대는 몰랐는데, 그런 역사적 맥락을 얻게 됩니다.
수백만 가지 이야기들이 3차원 홀로그램처럼 펼쳐집니다. 멀리서 보면 소음(noise)일 수 있는 것들이, 바로 옆에 있으면 아주 명확한 신호(signal)로 다가옵니다.
https://joincolossus.com/episode/combs-todd-combs-investing-the-last-liberal-art/
아뇨, 전혀요. 저는 살면서 한 번도 준비되었다고 느낀 적이 없습니다. 이건 모두가 적어둬야 할 교훈일 겁니다. 다른 사람들이 당신에게서 당신이 못 보는 무언가를 볼 때, 그건 놀라운 일입니다. 스티브, 찰리, 워런 모두 그랬습니다.
버크셔에서 처음 20~25억 달러 포트폴리오를 맡았는데 6개월 뒤 워런이 "두 배로 늘리자"고 했을 때도 저는 "음..." 했지만 그는 "넌 괜찮아"라고 했죠. 저는 헤이븐(Haven)도, 1년에 200개 인수를 검토하는 것도, 4만 명 직원의 회사를 운영하는 것도 준비되지 않았었습니다.
스티브 프리드먼을 만난 건 엘리엇 스피처(Eliot Spitzer) 검찰총장의 조사 때문이었습니다. 이사회는 스티브에게 마시를 맡아달라고 했고, 그는 보험 전문가를 찾다가 제가 이 회사를 2년 동안 공매도하고 있다는 걸 알게 된 지인을 통해 저에게 연락했습니다.
아침 식사를 하며 2시간 동안 마시 맥레넌에 대해 이야기했습니다. 끝날 무렵 스티브가 "혹시 다른 공매도하는 거 있어요?"라고 물었습니다. 저는 스티브가 패니메이(Fannie Mae) 이사회 의장인 줄도 모르고 순진하게 말했습니다.
"아, 패니메이는 마시보다 10배는 더 최악이에요."
"뭐라고?" 제가 말했죠. "완전 회계 부정이에요. 감옥 갈 사람 나올 겁니다." 그가 "나 거기 이사인 거 알아요?"라고 해서 "몰랐어요. 저라면 당장 그 이사회에서 나오겠어요"라고 했습니다.
그는 다음 날 또 아침을 먹자고 했고, 3시간 동안 파생상품 회계 등을 설명해 줬습니다. 변호사인 그는 회의에서 빠져나와 그날 저녁 5시에 이사회를 사임했습니다. 그리고 다음 날 와서 "우리가 당신 같은 사람을 7~8년 동안 찾고 있었는데, 펀드를 시작해라"라고 했습니다. 참 묘하게 일이 풀리죠.
—
복리 방정식으로 돌아가 보죠. 원칙(P)을 찾고(호기심), 성장률(R)을 높이는 법(능동적 학습, 노력)을 이야기했습니다. 이제 세 번째 변수인 시간(T), 지속성에 대해 이야기해 봅시다.
투자든 인생이든 5~7년은 잘하다가 멈추는 경우가 많습니다. 반면 버크셔는 계속 성장합니다. 어떻게 'T'를 연장할 수 있을까요?
목적(Purpose)으로 귀결됩니다. 톰 브래디나 페더러, 조코비치가 은퇴하지 않으려는 이유는 잘해서이기도 하지만, 그걸 사랑하기 때문입니다.
경쟁이 치열한 세상에서 100만 명이 조코비치나 워런 버핏이 되려고 노력합니다. 그중 0.1%가 그 일을 너무나 열정적으로 사랑해서 잠자리에 들 때도, 일어날 때도 그 생각만 한다면, 단순히 노력만으로는 그들을 이길 수 없습니다.
그래서 열정을 찾는 게 중요합니다. 돈이나 명예 같은 단기적이고 일시적인 것을 위해 일한다면, 진정으로 사랑하는 사람들과 경쟁할 수 없습니다.
그리고 젊을 때 많은 리스크를 감수하는 게 정말 중요합니다. 저는 잃을 게 없었기 때문에 그랬습니다. 나이가 들면 하방 리스크가 커집니다. 그러니 젊을 때 리스크를 감수하고 실수하세요. 사기 같은 게 아니라면요.
찰리와 워런과 이야기한 건데, 인생에서 100만 개의 실수를 해야 한다면, 그걸 다 앞당겨서 19살, 20살, 21살 때 다 해버리세요. 그러면 이론적으로 다시는 실수하지 않겠죠. 그러려면 초반에 시야를 엄청나게 넓혀야(widen the aperture) 합니다. 그러면서 배워서 좁혀나가는 거죠.
퍼즐을 맞출 때 조각을 다 쏟아붓고 가장자리와 모서리부터 맞추는 것과 같습니다. 중간부터 시작하지 않습니다. 밖에서 안으로(outside in) 작업하는 거죠.
——
기업가로서의 삶을 떠나 거대 조직으로 들어가는 건 드문 일입니다. 찰리에게 콜드 콜(cold call)을 하게 된 계기가 무엇인가요?
돈은 벌고 싶었지만 이미 벌었고, 저는 '핵융합'처럼 적은 투입으로 더 많은 산출을 원했습니다. 캐슬 포인트로 그걸 어느 정도 이뤘지만, 번아웃이 왔습니다. 주 80시간 근무, 월간 보고서 작성 등은 잘 될 때도 재미없었습니다.
저는 보험을 알았고, 보험 회사를 사서 영구 자본(permanent capital)을 갖고 자산은 유지하되 부채(보고 의무 등)는 없애고 싶었습니다. 그렇게 하려고 했는데, 찰리가 당시 86세쯤 되었으니 얼마 안 계실 수도 있겠다고 생각했죠.
LA에 갈 일이 있어서 "만날 리 없겠지만 한번 해보자" 하고 전화했습니다. 비서가 "원하는 게 뭐냐?"라고 해서 "아무것도 원하지 않는다. 그냥 만나고 싶다"라고 했습니다. 우연히 우리가 아는 공통의 지인(마크 넬슨)이 있었고, 그가 찰리에게 저에 대해 좋게 말해줬습니다. 마크는 제 프레젠테이션을 보고 "젊은 찰리 멍거 같다"라고 했었거든요.
찰리가 다음 날 이메일로 "아침 7시에 캘리포니아 클럽에서 보자"라고 했습니다. 6시간 동안 이야기했는데, 그분을 따라가느라 저는 진이 다 빠졌습니다. 그에게는 그냥 테니스 공 치는 것 같았겠지만요.
그 후 일주일 뒤 전화가 와서 또 몇 시간 통화하고, 다음에 LA 올 때 또 보자고 하셨습니다. 12번 정도 만났는데 처음에는 투자 이야기는 별로 안 했습니다. 그러다 결국 "뭐 할 거냐?"라고 물으시길래 계획을 말했더니, "그냥 워런이랑 이야기해 봐"라고 하셨습니다. 저는 그게 면접인 줄도 몰랐습니다. 제가 가진 주식 중 하나를 그들이 인수하려고 부르는 줄 알았죠. 그게 오히려 가식 없이 대화할 수 있게 해 주었습니다.
—
워런과 찰리는 당신에게서 무엇을 보았을까요?
어려운 질문이네요. 일화가 낫겠네요. 찰리와의 첫 만남에서 딥워터 호라이즌(Deepwater Horizon, BP 기름 유출 사고) 이야기가 나왔습니다. 우리는 우주와 마틴 리스의 책 『단지 여섯 개의 숫자(Just Six Numbers)』에 대해 이야기하다가 거기로 흘러갔습니다.
저는 보험 용어로 "CEO 임기가 4년이니 100년에 한 번 일어날 확률에 돈을 안 쓴 거다. 그들은 본질적으로 딥 OTM(Out-of-the-money) 풋옵션을 판 것과 같다"라고 했습니다.
찰리가 "방금 뭐라고 했나? 젠장, 그거 천재적인데(brilliant)"라고 했습니다. 저는 "아니에요, 그냥 포드 핀토(Ford Pinto) 사건 같아요. 2센트짜리 부품을 안 써서 차가 폭발하게 둔 거죠"라고 했습니다. 빈도와 심도(frequency and severity), 파워 법칙 등에 대해 이야기했습니다. 그런 사고방식이 통했던 것 같습니다.
워런과는 바로 주식 이야기로 들어갔습니다. 제 포트폴리오에 U.S. 뱅코프, 웰스파고, 마스터카드, 비자가 있었는데, 그는 아멕스(Amex)를 가지고 있었죠. "왜 아멕스 대신 마스터카드인가?"라고 물었고 저는 제 의견을 쏟아냈습니다.
워런은 지적으로 정직한 분이라 "어떤 시나리오에서 그게 틀릴 수 있지?"라고 물었고 우리는 토론했습니다. 프로그레시브와 가이코(Geico)에 대해서도, 저는 "프로그레시브가 데이터 회사라 장기적으로 이길 거다. 둘 다 기술은 별로다"라고 솔직하게 말했습니다.
CEO들은 보통 아부만 듣는데, 저는 신경 쓰지 않았습니다. "이게 제 의견입니다. 동의 안 하셔도 됩니다." 그 솔직함을 높이 사신 게 아닐까 싶습니다.
—
워런 버핏의 사무실 바로 옆방에서 지내며, 그와 찰리 멍거를 멘토이자 친구로 둔다는 건 어떤 느낌인가요?
"고무가 도로에 닿을 때(실전 상황이 닥칠 때)" 진가를 알게 됩니다.
힘든 상황이 터졌을 때, 사무실에 저밖에 없었는데 워런이 슬리퍼를 끌고 내려와서 "오늘 3건의 딜이 왔는데 다 쓰레기야. 왜냐하면..." 하면서 이야기를 시작합니다. 방사선 회사 이야기나 케이블 카우보이(Cable Cowboy) 책을 읽은 이야기 등등요.
제가 케이블 사업에 대해 묻자 그는 60년대에 분석했던 파일들을 보라고 했습니다. 점심 먹으러 가서 그런 이야기를 나누죠. 저는 71년생이라 60년대는 몰랐는데, 그런 역사적 맥락을 얻게 됩니다.
수백만 가지 이야기들이 3차원 홀로그램처럼 펼쳐집니다. 멀리서 보면 소음(noise)일 수 있는 것들이, 바로 옆에 있으면 아주 명확한 신호(signal)로 다가옵니다.
https://joincolossus.com/episode/combs-todd-combs-investing-the-last-liberal-art/
Colossus
Investing, the Last Liberal Art - Colossus
Todd Combs is an Investment Manager at Berkshire Hathaway and CEO of GEICO. We cover his journey to working alongside Warren Buffett and Charlie Munge
❤3
Continuous Learning_Startup & Investment
창업을 꿈꾸는 사람들을 위해 그 결정에 대해 더 이야기해 주시죠. 준비되었다고 느끼셨나요? 아뇨, 전혀요. 저는 살면서 한 번도 준비되었다고 느낀 적이 없습니다. 이건 모두가 적어둬야 할 교훈일 겁니다. 다른 사람들이 당신에게서 당신이 못 보는 무언가를 볼 때, 그건 놀라운 일입니다. 스티브, 찰리, 워런 모두 그랬습니다. 버크셔에서 처음 20~25억 달러 포트폴리오를 맡았는데 6개월 뒤 워런이 "두 배로 늘리자"고 했을 때도 저는 "음..." 했지만…
멍거의 배경과 대공황의 교훈
- 변호사가 아니었다면: 멍거는 만약 워런 버핏을 만나지 않았더라도, 법률 업무를 통해 번 돈으로 부동산 개발업자(Pritzker나 Bing 가문처럼)가 되었을 것이라고 말했습니다. 그는 클라이언트들이 하는 일을 보며 "내가 더 잘할 수 있겠다"라고 생각하는 성향이 있었습니다.
대공황(The Great Depression)의 기억:
- 대공황을 겪은 것은 이점이었다고 회고합니다. 세상에 얼마나 많은 비이성(irrationality)이 존재하는지 7살 때 깨달았습니다.
- 일화: 아버지의 친구였던 천재 수학 교수가 집안의 누수 문제로 이성을 잃고 미친 듯이 화를 내는 것을 보며, "천재도 저렇게 미칠 수 있다면, 나에게도 기회가 있다"라고 생각했습니다. 이러한 비이성적인 세상이 역설적으로 기회를 제공한다고 보았습니다.
- 기질(Temperament): 높은 지능보다 중요한 것은 이성적인 기질과 긴 집중력(long attention span)입니다. 멍거는 씨를 뿌리는 과정(분석과 매수) 자체를 수확하는 것만큼이나 즐깁니다.
Todd Comb
한 학생이 "시간을 어떻게 보내느냐"고 묻자, 버핏은 서류가 가득 든 아코디언 폴더를 들어 보이며 "나는 그냥 읽는다. 매일 500페이지씩 읽어라. 지식은 복리처럼 쌓인다. 누구나 할 수 있지만 대부분 하지 않는다"고 했다. 나는 이 말을 단순한 조언이 아닌 '도전'으로 받아들였고, 그때부터 실제로 실행에 옮겼다. 이는 수동적인 배움이 아닌 능동적인 배움의 자세를 갖게 된 계기였다.
Q: 버크셔 합류 후 어떻게 가치를 더하려 했나?
A:
워런은 나에게 포트폴리오를 맡기며 "네가 원하는 대로 하라"며 전적인 자율권을 줬다. 나는 다른 사람을 흉내 내기보다 내가 잘 아는 방식(금융, 결제 서비스 등)으로 승부하기로 했다. 워런과의 점심 식사를 통해 "크게 생각하라(Think Big)"는 교훈을 얻었고, 단순히 주식을 사는 것을 넘어 기업 전체를 인수하는 관점을 갖게 되었다. 이것이 나중에 헬스케어 프로젝트(Haven)나 JP모건 이사회 활동 등으로 이어졌다.
Q: 실수를 했을 때는 어떻게 대처하나?
A: 누구나 실수를 한다. 중요한 것은 결과(Outcome)보다 과정(Process)에 집중하는 것이다. 자신의 능력 범위(Concentric Circles)를 서서히 넓혀가야지, 금융을 하다가 갑자기 전혀 모르는 기술 분야로 건너뛰면 안 된다. 리스크를 복합적으로 계산(Path Dependency)하여 치명적인 실수를 피하려 노력한다.
Q: 현재의 독서 습관은 어떤가? 여전히 500페이지씩 읽나?
A: 읽는 양은 비슷하지만 내용이 바뀌었다. 낮에는 가이코 CEO로서 기술 로드맵이나 보고서 등 업무 관련 자료를 읽는다. 투자를 위한 독서(연례 보고서, 10K, 무역 잡지 등)는 밤이나 주말을 이용한다. 팟캐스트는 독서로 치지 않는다.
Q: 투자 리서치는 어떻게 하나?
A: 1차 자료(연례 보고서, 공시 등)와 무역 잡지를 중시한다. 남들이 잘 안 읽는 자료를 읽고, 필요하면 직접 전화를 걸어 정보를 얻는다. 투자는 정량적 분석(가치 평가)보다 정성적 분석(Qualitative)이 95~99%를 차지한다. 세부 사항(Details)에서 시작해 밖으로 나가는 '인사이드 아웃(Inside-Out)' 방식을 선호한다. 미리 시가총액을 보지 않고 스스로 가치를 산정한 뒤 시장 가격과 비교하여 '앵커링 효과(Anchoring Effect)'를 피한다.
Q: 비즈니스의 리스크는 어떻게 평가하나?
A: 비즈니스의 어떤 부분이 죽어가고 있는지, 그리고 겉으로 드러나지 않은 리스크(Tail Risk)가 무엇인지 파악하려 한다. 워런과 찰리에게 추천했던 책 'Ubiquity'에 나오는 '멱법칙(Power Laws)'처럼, 사람들은 낮은 빈도지만 발생하면 치명적인 위험(Out of the money puts 매도와 같은 행위)을 간과하는 경향이 있다. 반대로 비대칭적인 상승 잠재력이 있는지도 살핀다.
Q: 초기 경력에서 중요한 인맥은 어떻게 형성했나?
A:
프로그레시브(Progressive) 보험사 시절, 나는 마시 맥레넌(Marsh McLennan)과 패니 메이(Fannie Mae)의 문제점을 파악하고 공매도 포지션을 취하고 있었다. 당시 마시 맥레넌의 CEO를 찾던 스티브 프리드먼과 척 데이비스가 나를 '해당 사안의 전문가(Axe)'로 소개받아 만나게 되었다. 이 인연이 이어져 나중에 내 펀드를 시작할 때 그들이 초기 투자자가 되어주었다.
Q: 네트워킹에 대한 철학이 있다면?
A: '네트워킹'이라는 단어 자체를 별로 좋아하지 않는다. 거래적인 의도가 느껴지기 때문이다. 대신 '넓은 시야(Wide Aperture)'를 갖되, 내가 좋아하고 함께 있으면 즐거운 사람들에게 시간을 집중하는 방식을 선호한다. 워런에게 배운 점이기도 하다. 의도적인 네트워킹보다 과정에 충실하면 인연은 자연스럽게 이어진다고 믿는다.
Q: 18세의 토드에게 지금의 커리어를 말해주면 믿겠나?
A:
절대 안 믿을 것이다. 나는 운이 좋았고, 많은 사람들의 도움을 받았다. 과거 프로그레시브 시절, 펀드 매니저가 되고 싶어 브로커에게 물었더니 "아이비리그 출신 아니면 꿈도 꾸지 말라"는 말을 들었었다. 하지만 준비(Preparation)와 끈기(Grit)가 있었기에 운이 찾아왔을 때 잡을 수 있었다.
- 변호사가 아니었다면: 멍거는 만약 워런 버핏을 만나지 않았더라도, 법률 업무를 통해 번 돈으로 부동산 개발업자(Pritzker나 Bing 가문처럼)가 되었을 것이라고 말했습니다. 그는 클라이언트들이 하는 일을 보며 "내가 더 잘할 수 있겠다"라고 생각하는 성향이 있었습니다.
대공황(The Great Depression)의 기억:
- 대공황을 겪은 것은 이점이었다고 회고합니다. 세상에 얼마나 많은 비이성(irrationality)이 존재하는지 7살 때 깨달았습니다.
- 일화: 아버지의 친구였던 천재 수학 교수가 집안의 누수 문제로 이성을 잃고 미친 듯이 화를 내는 것을 보며, "천재도 저렇게 미칠 수 있다면, 나에게도 기회가 있다"라고 생각했습니다. 이러한 비이성적인 세상이 역설적으로 기회를 제공한다고 보았습니다.
- 기질(Temperament): 높은 지능보다 중요한 것은 이성적인 기질과 긴 집중력(long attention span)입니다. 멍거는 씨를 뿌리는 과정(분석과 매수) 자체를 수확하는 것만큼이나 즐깁니다.
Todd Comb
한 학생이 "시간을 어떻게 보내느냐"고 묻자, 버핏은 서류가 가득 든 아코디언 폴더를 들어 보이며 "나는 그냥 읽는다. 매일 500페이지씩 읽어라. 지식은 복리처럼 쌓인다. 누구나 할 수 있지만 대부분 하지 않는다"고 했다. 나는 이 말을 단순한 조언이 아닌 '도전'으로 받아들였고, 그때부터 실제로 실행에 옮겼다. 이는 수동적인 배움이 아닌 능동적인 배움의 자세를 갖게 된 계기였다.
Q: 버크셔 합류 후 어떻게 가치를 더하려 했나?
A:
워런은 나에게 포트폴리오를 맡기며 "네가 원하는 대로 하라"며 전적인 자율권을 줬다. 나는 다른 사람을 흉내 내기보다 내가 잘 아는 방식(금융, 결제 서비스 등)으로 승부하기로 했다. 워런과의 점심 식사를 통해 "크게 생각하라(Think Big)"는 교훈을 얻었고, 단순히 주식을 사는 것을 넘어 기업 전체를 인수하는 관점을 갖게 되었다. 이것이 나중에 헬스케어 프로젝트(Haven)나 JP모건 이사회 활동 등으로 이어졌다.
Q: 실수를 했을 때는 어떻게 대처하나?
A: 누구나 실수를 한다. 중요한 것은 결과(Outcome)보다 과정(Process)에 집중하는 것이다. 자신의 능력 범위(Concentric Circles)를 서서히 넓혀가야지, 금융을 하다가 갑자기 전혀 모르는 기술 분야로 건너뛰면 안 된다. 리스크를 복합적으로 계산(Path Dependency)하여 치명적인 실수를 피하려 노력한다.
Q: 현재의 독서 습관은 어떤가? 여전히 500페이지씩 읽나?
A: 읽는 양은 비슷하지만 내용이 바뀌었다. 낮에는 가이코 CEO로서 기술 로드맵이나 보고서 등 업무 관련 자료를 읽는다. 투자를 위한 독서(연례 보고서, 10K, 무역 잡지 등)는 밤이나 주말을 이용한다. 팟캐스트는 독서로 치지 않는다.
Q: 투자 리서치는 어떻게 하나?
A: 1차 자료(연례 보고서, 공시 등)와 무역 잡지를 중시한다. 남들이 잘 안 읽는 자료를 읽고, 필요하면 직접 전화를 걸어 정보를 얻는다. 투자는 정량적 분석(가치 평가)보다 정성적 분석(Qualitative)이 95~99%를 차지한다. 세부 사항(Details)에서 시작해 밖으로 나가는 '인사이드 아웃(Inside-Out)' 방식을 선호한다. 미리 시가총액을 보지 않고 스스로 가치를 산정한 뒤 시장 가격과 비교하여 '앵커링 효과(Anchoring Effect)'를 피한다.
Q: 비즈니스의 리스크는 어떻게 평가하나?
A: 비즈니스의 어떤 부분이 죽어가고 있는지, 그리고 겉으로 드러나지 않은 리스크(Tail Risk)가 무엇인지 파악하려 한다. 워런과 찰리에게 추천했던 책 'Ubiquity'에 나오는 '멱법칙(Power Laws)'처럼, 사람들은 낮은 빈도지만 발생하면 치명적인 위험(Out of the money puts 매도와 같은 행위)을 간과하는 경향이 있다. 반대로 비대칭적인 상승 잠재력이 있는지도 살핀다.
Q: 초기 경력에서 중요한 인맥은 어떻게 형성했나?
A:
프로그레시브(Progressive) 보험사 시절, 나는 마시 맥레넌(Marsh McLennan)과 패니 메이(Fannie Mae)의 문제점을 파악하고 공매도 포지션을 취하고 있었다. 당시 마시 맥레넌의 CEO를 찾던 스티브 프리드먼과 척 데이비스가 나를 '해당 사안의 전문가(Axe)'로 소개받아 만나게 되었다. 이 인연이 이어져 나중에 내 펀드를 시작할 때 그들이 초기 투자자가 되어주었다.
Q: 네트워킹에 대한 철학이 있다면?
A: '네트워킹'이라는 단어 자체를 별로 좋아하지 않는다. 거래적인 의도가 느껴지기 때문이다. 대신 '넓은 시야(Wide Aperture)'를 갖되, 내가 좋아하고 함께 있으면 즐거운 사람들에게 시간을 집중하는 방식을 선호한다. 워런에게 배운 점이기도 하다. 의도적인 네트워킹보다 과정에 충실하면 인연은 자연스럽게 이어진다고 믿는다.
Q: 18세의 토드에게 지금의 커리어를 말해주면 믿겠나?
A:
절대 안 믿을 것이다. 나는 운이 좋았고, 많은 사람들의 도움을 받았다. 과거 프로그레시브 시절, 펀드 매니저가 되고 싶어 브로커에게 물었더니 "아이비리그 출신 아니면 꿈도 꾸지 말라"는 말을 들었었다. 하지만 준비(Preparation)와 끈기(Grit)가 있었기에 운이 찾아왔을 때 잡을 수 있었다.
Continuous Learning_Startup & Investment
구글 딥마인드에는 약 5,000명의 직원이 있으며, 그중 80% 이상이 엔지니어와 박사급 연구원 Q: 범용 로보틱스를 위한 '안드로이드' 같은 운영체제(OS)를 만들 수 있다는 의미일까요? 그렇게 되면 수많은 로봇 장치, 회사, 제품이 갑자기 급성장하게 될 텐데요. 로보틱스 전반에 걸친 일종의 '안드로이드' 같은 OS 계층을 만드는 것이죠. 하지만 최신 모델을 특정 로봇 타입과 수직적으로 통합하여 종단간(end-to-end) 학습을 하는 것 또한 매우…
Gemini 3 관련 Demis Hassabis 인터뷰
가장 큰 차이점은 '추론(Reasoning)' 능력의 깊이입니다. Gemini 3는 단순히 답을 내놓는 것을 넘어, 복잡한 문제를 해결하기 위해 스스로 **'생각의 흐름(Train of Thought)'**을 유지할 수 있습니다. 이전 모델들이 3~4단계의 추론 과정에서 길을 잃거나 환각(Hallucination)을 보였다면, Gemini 3는 수십 단계의 논리적 과정을 안정적으로 밟아나갑니다. 특히 코딩과 수학 분야에서 이 능력이 두드러집니다.
Q. '생각의 흐름'이 구체적으로 사용자에게 어떤 이점을 줍니까? 예를 들어, 복잡한 코드를 짜거나 역사적 문서를 분석할 때 모델이 중간에 맥락을 놓치지 않습니다. 사용자가 "이 부분은 왜 이렇게 됐어?"라고 물으면, 모델은 자신의 논리적 경로를 되짚어 설명할 수 있습니다. 이는 신뢰성(Reliability) 측면에서 엄청난 도약입니다.
Q. Gemini 3의 개발 과정에서 가장 중점을 둔 부분은 무엇인가요? 우리는 모델이 '자신의 한계를 아는 것'에 집중했습니다. 모르는 것을 모른다고 하거나, 불확실할 때 사용자에게 되묻는 능력을 키웠습니다. 또한, 개인화(Personalization) 기능을 강화하여 사용자의 이전 작업 스타일이나 선호도를 기억하고 이에 맞춰 결과물을 생성하도록 했습니다.
AI 산업의 현황과 '거품(Bubble)' 논란
Q. 최근 AI 산업에 거품이 끼어있다는 지적이 많습니다. 이에 동의하십니까? 네, 솔직히 말하면 AI 산업의 일부 영역에는 확실히 거품이 있다고 봅니다(Probably in a bubble). 현재 시장에는 실질적인 제품이나 차별화된 기술 없이, 단순히 'AI'라는 키워드 하나로 수백억 달러의 가치를 인정받는 스타트업들이 존재합니다. 이는 지속 가능하지 않으며, 언젠가는 조정(Correction)이 올 것입니다.
Q. 그렇다면 구글이나 딥마인드도 그 위험에 노출된 것 아닙니까? 우리는 다릅니다. 거품이 꺼질 때 살아남는 것은 '실질적인 가치(Real Value)'를 증명하는 기업들입니다. 우리는 이미 Gemini를 통해 검색, 워크스페이스, 안드로이드 등 수십억 명이 쓰는 제품을 혁신하고 있습니다. 또한 Waymo(자율주행)와 Isomorphic Labs(신약 개발)처럼 AI를 물리적 세계와 과학적 발견에 적용해 실제 수익과 성과를 내고 있습니다. 우리는 이 '거품' 논란에서 가장 강력한 위치(Strong position)에 있다고 확신합니다.
Q. AI 투자가 과열되었다는 비판에 대해서는 어떻게 생각하나요? 과열된 측면이 있지만, 이는 새로운 기술 혁명 초기에 항상 나타나는 현상입니다. 인터넷 초창기에도 닷컴 버블이 있었지만, 결국 인터넷은 세상을 바꿨습니다. 중요한 건 누가 끝까지 살아남아 세상을 바꿀 기술을 완성하느냐입니다.
로봇 공학(Robotics)과 '물리적 지능'
Q. Wired와의 인터뷰에서 "로봇을 위한 안드로이드"를 언급하셨는데, 무슨 뜻인가요? 스마트폰 시장을 보세요. 안드로이드라는 OS가 있었기에 수많은 제조사가 다양한 형태의 스마트폰을 만들 수 있었습니다. 우리는 로봇 분야에서도 똑같은 일을 하려 합니다. 'Gemini Base'라는 범용 AI 소프트웨어 계층을 만들어, 휴머노이드든 바퀴 달린 로봇이든 상관없이 어떤 로봇 하드웨어에도 즉시 적용할 수 있게 할 것입니다.
Q. 그렇다면 구글이 직접 로봇을 만드는 건가요? 하드웨어보다는 '로봇의 두뇌'를 만드는 데 집중하고 있습니다. 물론 이를 테스트하기 위해 보스턴 다이내믹스 출신의 아론 샌더스(Aaron Saunders) 등을 영입해 하드웨어 역량도 강화하고 있습니다. 하지만 궁극적인 목표는 모든 로봇이 세상을 이해하고 상호작용할 수 있게 하는 '범용 로봇 지능'을 공급하는 것입니다.
Q. 로봇이 우리 일상에 들어오는 건 언제쯤일까요? 생각보다 빠를 겁니다. 향후 몇 년(Couple of years) 안에 로봇 공학에서 "와우(Wow)" 할 만한 순간을 보게 될 것입니다. Gemini와 같은 멀티모달 모델이 시각과 언어를 결합해 물리적 세계를 이해하기 시작했기 때문입니다.
AGI와 미래 전망
Q. AGI(범용 인공지능)는 언제쯤 실현될까요? 여전히 5~10년입니까? 네, 저는 여전히 **향후 5년에서 10년 사이**에 AGI가 등장할 확률이 50% 이상이라고 봅니다. 우리는 지금 올바른 궤도(Dead on track)에 있습니다. 하지만 여전히 한두 번의 큰 기술적 돌파구(Breakthrough)가 더 필요합니다. 특히 기억력(Memory), 계획 수립(Planning), 그리고 물리적 세계에 대한 이해(World Models) 측면에서 더 발전해야 합니다.
Q. '월드 모델(World Models)'이 왜 중요한가요? 현재의 LLM은 텍스트 기반이라 세상의 물리적 법칙을 완벽히 이해하지 못합니다. AGI가 되려면 텍스트를 넘어, 사과를 떨어뜨리면 왜 아래로 떨어지는지, 문을 열면 그 뒤에 무엇이 있을지 예측할 수 있는 '세상에 대한 내적 모델'을 가져야 합니다. 이것이 우리가 지금 가장 집중하고 있는 연구 분야입니다.
Q. 마지막으로, Gemini 3 이후의 계획은 무엇입니까? Gemini 3는 시작일 뿐입니다. 우리는 이미 Gemini 4와 그 이후 버전을 기획하고 있습니다. 우리의 목표는 단순히 똑똑한 챗봇을 만드는 게 아니라, 인류의 난제(질병, 기후 변화, 에너지 문제)를 해결할 수 있는 '과학적 도구로서의 AI'를 완성하는 것입니다.
https://youtu.be/rq-2i1blAlU
가장 큰 차이점은 '추론(Reasoning)' 능력의 깊이입니다. Gemini 3는 단순히 답을 내놓는 것을 넘어, 복잡한 문제를 해결하기 위해 스스로 **'생각의 흐름(Train of Thought)'**을 유지할 수 있습니다. 이전 모델들이 3~4단계의 추론 과정에서 길을 잃거나 환각(Hallucination)을 보였다면, Gemini 3는 수십 단계의 논리적 과정을 안정적으로 밟아나갑니다. 특히 코딩과 수학 분야에서 이 능력이 두드러집니다.
Q. '생각의 흐름'이 구체적으로 사용자에게 어떤 이점을 줍니까? 예를 들어, 복잡한 코드를 짜거나 역사적 문서를 분석할 때 모델이 중간에 맥락을 놓치지 않습니다. 사용자가 "이 부분은 왜 이렇게 됐어?"라고 물으면, 모델은 자신의 논리적 경로를 되짚어 설명할 수 있습니다. 이는 신뢰성(Reliability) 측면에서 엄청난 도약입니다.
Q. Gemini 3의 개발 과정에서 가장 중점을 둔 부분은 무엇인가요? 우리는 모델이 '자신의 한계를 아는 것'에 집중했습니다. 모르는 것을 모른다고 하거나, 불확실할 때 사용자에게 되묻는 능력을 키웠습니다. 또한, 개인화(Personalization) 기능을 강화하여 사용자의 이전 작업 스타일이나 선호도를 기억하고 이에 맞춰 결과물을 생성하도록 했습니다.
AI 산업의 현황과 '거품(Bubble)' 논란
Q. 최근 AI 산업에 거품이 끼어있다는 지적이 많습니다. 이에 동의하십니까? 네, 솔직히 말하면 AI 산업의 일부 영역에는 확실히 거품이 있다고 봅니다(Probably in a bubble). 현재 시장에는 실질적인 제품이나 차별화된 기술 없이, 단순히 'AI'라는 키워드 하나로 수백억 달러의 가치를 인정받는 스타트업들이 존재합니다. 이는 지속 가능하지 않으며, 언젠가는 조정(Correction)이 올 것입니다.
Q. 그렇다면 구글이나 딥마인드도 그 위험에 노출된 것 아닙니까? 우리는 다릅니다. 거품이 꺼질 때 살아남는 것은 '실질적인 가치(Real Value)'를 증명하는 기업들입니다. 우리는 이미 Gemini를 통해 검색, 워크스페이스, 안드로이드 등 수십억 명이 쓰는 제품을 혁신하고 있습니다. 또한 Waymo(자율주행)와 Isomorphic Labs(신약 개발)처럼 AI를 물리적 세계와 과학적 발견에 적용해 실제 수익과 성과를 내고 있습니다. 우리는 이 '거품' 논란에서 가장 강력한 위치(Strong position)에 있다고 확신합니다.
Q. AI 투자가 과열되었다는 비판에 대해서는 어떻게 생각하나요? 과열된 측면이 있지만, 이는 새로운 기술 혁명 초기에 항상 나타나는 현상입니다. 인터넷 초창기에도 닷컴 버블이 있었지만, 결국 인터넷은 세상을 바꿨습니다. 중요한 건 누가 끝까지 살아남아 세상을 바꿀 기술을 완성하느냐입니다.
로봇 공학(Robotics)과 '물리적 지능'
Q. Wired와의 인터뷰에서 "로봇을 위한 안드로이드"를 언급하셨는데, 무슨 뜻인가요? 스마트폰 시장을 보세요. 안드로이드라는 OS가 있었기에 수많은 제조사가 다양한 형태의 스마트폰을 만들 수 있었습니다. 우리는 로봇 분야에서도 똑같은 일을 하려 합니다. 'Gemini Base'라는 범용 AI 소프트웨어 계층을 만들어, 휴머노이드든 바퀴 달린 로봇이든 상관없이 어떤 로봇 하드웨어에도 즉시 적용할 수 있게 할 것입니다.
Q. 그렇다면 구글이 직접 로봇을 만드는 건가요? 하드웨어보다는 '로봇의 두뇌'를 만드는 데 집중하고 있습니다. 물론 이를 테스트하기 위해 보스턴 다이내믹스 출신의 아론 샌더스(Aaron Saunders) 등을 영입해 하드웨어 역량도 강화하고 있습니다. 하지만 궁극적인 목표는 모든 로봇이 세상을 이해하고 상호작용할 수 있게 하는 '범용 로봇 지능'을 공급하는 것입니다.
Q. 로봇이 우리 일상에 들어오는 건 언제쯤일까요? 생각보다 빠를 겁니다. 향후 몇 년(Couple of years) 안에 로봇 공학에서 "와우(Wow)" 할 만한 순간을 보게 될 것입니다. Gemini와 같은 멀티모달 모델이 시각과 언어를 결합해 물리적 세계를 이해하기 시작했기 때문입니다.
AGI와 미래 전망
Q. AGI(범용 인공지능)는 언제쯤 실현될까요? 여전히 5~10년입니까? 네, 저는 여전히 **향후 5년에서 10년 사이**에 AGI가 등장할 확률이 50% 이상이라고 봅니다. 우리는 지금 올바른 궤도(Dead on track)에 있습니다. 하지만 여전히 한두 번의 큰 기술적 돌파구(Breakthrough)가 더 필요합니다. 특히 기억력(Memory), 계획 수립(Planning), 그리고 물리적 세계에 대한 이해(World Models) 측면에서 더 발전해야 합니다.
Q. '월드 모델(World Models)'이 왜 중요한가요? 현재의 LLM은 텍스트 기반이라 세상의 물리적 법칙을 완벽히 이해하지 못합니다. AGI가 되려면 텍스트를 넘어, 사과를 떨어뜨리면 왜 아래로 떨어지는지, 문을 열면 그 뒤에 무엇이 있을지 예측할 수 있는 '세상에 대한 내적 모델'을 가져야 합니다. 이것이 우리가 지금 가장 집중하고 있는 연구 분야입니다.
Q. 마지막으로, Gemini 3 이후의 계획은 무엇입니까? Gemini 3는 시작일 뿐입니다. 우리는 이미 Gemini 4와 그 이후 버전을 기획하고 있습니다. 우리의 목표는 단순히 똑똑한 챗봇을 만드는 게 아니라, 인류의 난제(질병, 기후 변화, 에너지 문제)를 해결할 수 있는 '과학적 도구로서의 AI'를 완성하는 것입니다.
https://youtu.be/rq-2i1blAlU
YouTube
Demis Hassabis & Josh Woodward Tell Us Why Gemini 3.0 Puts Google in Front of the A.I. Race
Today we have a special segment on the release of Google's Gemini 3 A.I. model. Demis Hassabis and Josh Woodward, two of the heads of Google's A.I. efforts, join us to discuss Gemini's new capabilities, A.I. scaling and how Google got its A.I. groove back.…
❤1
세상의 학습 환경은 두 가지로 나뉩니다:
Kind Environment (친절한 환경)
- 패턴이 반복되고, 피드백이 즉각적이며, 규칙이 명확
- 예: 체스, 골프
- 최적 전략: 조기 전문화 (Tiger Woods)
Wicked Environment (험난한 환경)
- 패턴이 불분명하고, 피드백이 지연되며, 규칙이 변함
- 예: 비즈니스, 의학, 인생의 대부분
- 최적 전략: 폭넓은 Sampling (Roger Federer)
> 핵심: 우리는 Kind 환경의 성공 사례를 Wicked 환경에 잘못 적용하고 있습니다.
>
1. 조기 전문화의 함정
조기 숙련도 ≠ 장기 잠재력
핵심 예시: 프리스타일 체스
- 인간 + 컴퓨터 대결에서 승자는 최고의 그랜드마스터가 아니었음
- Anson Williams (아마추어 체스 선수)가 우승
- 체스 실력은 평범했지만, 여러 AI 도구를 전략적으로 활용하는 통합 능력 탁월
- 교훈: Wicked 환경에서는 범위(Range)가 깊이(Depth)를 이김
보조 증거
노벨상 수상자들은 동료 과학자들보다 예술적 취미를 가질 확률이 훨씬 높음
2. 바람직한 어려움 (Desirable Difficulties)
쉬운 학습 = 얕은 이해 (빠른 망각)
어려운 학습 = 깊은 이해 (오래 지속)
핵심 개념: Interleaved Practice
- Blocked Practice: 같은 문제 반복 (AAAA, BBBB)
- 즉각적 성과는 높지만 장기 보존은 낮음
- Interleaved Practice: 다른 문제 섞어서 (ABCD, BCAD)
- 즉각적 성과는 낮지만 장기 보존은 훨씬 높음
- 핵심: 어떤 전략을 사용할지 판단하는 능력 향상
실증 예시
화가 구별: Cézanne, Picasso를 섞어서 보는 것이 각각 따로 보는 것보다 훨씬 효과적
3. 유추적 사고의 힘
Inside View: 현재 문제의 세부사항 집중 → 과신, 좁은 해결책
Outside View: 다른 영역의 구조적 유사성 찾기 → 정확한 예측, 창의적 해결책
Duncker의 방사선 문제
- 문제: 종양은 파괴하되 주변 조직은 손상 없이?
- 혼자 풀 때: 10%만 해결
- 유추 제공 (장군이 여러 방향에서 요새 공격): 80% 해결
- 교훈: 표면적 특징(의학 vs 군사)이 달라도 깊은 구조(집중된 힘)는 같을 수 있음
실용적 적용
- 사모펀드: Outside View (다른 프로젝트와 비교) → 정확한 예측
- 영화 수익: "어떤 영화와 유사한가?" → 높은 정확도
4. Match Quality와 Sampling의 중요성
조기 전문화 → 낮은 match quality → 커리어 변경 多
늦은 전문화 (Sampling) → 높은 match quality → 장기 성공
핵심 예시: 빈센트 반 고흐
- 미술상, 교사, 서점 직원, 목사 모두 실패
- 27세에야 그림 시작, 스타일도 계속 바꿈
- 교훈: "늦은 시작"과 끊임없는 "그만두기"가 그의 독특한 스타일 발견을 가능하게 함
The End of History Illusion
- 우리는 과거에 변했다는 것은 인정하지만, 미래에는 변하지 않을 것이라 믿음
- 실제: 가치관과 선호도는 평생 크게 변함
- 시사점: Test-and-Learn > Plan-and-Implement
아웃사이더의 우위
- 전문가의 맹점: Einstellung Effect - 익숙한 방법만 사용
- 아웃사이더의 강점: 영역 밖 사고, 먼 유추 사용
InnoCentive 플랫폼
> "문제가 해결자의 전문성에서 멀수록, 해결 가능성이 높음"
>
강력한 예시: John Davis
- 문제: 기름 유출 청소 (초콜릿 무스 같은 기름)
- 화학 지식이 아닌, 여름 건설 아르바이트 경험 회상
- 콘크리트 진동기로 해결
- PhD 화학자들이 수십 년 못 푼 문제를 화학자가 화학 외 방법으로 해결
미발견 공공 지식
Don Swanson: 서로 인용하지 않는 다른 분야 논문들을 교차 참조하여 마그네슘과 편두통 사이의 11가지 연결고리 발견
1. Lateral Thinking with Withered Technology
최첨단 기술 경쟁 대신, 오래되고 싼 기술을 새로운 방식으로 사용
Nintendo Game Boy
- 경쟁사보다 기술적으로 열등 (흑백 화면, 저성능)
- 하지만 "구식" 기술 덕분에:
- 저렴, 내구성, 배터리 효율, 개발 용이
- 결과: 우수한 Sega/Atari를 압도
폴리매스의 가치
Andy Ouderkirk (3M): 전문가 발명가는 1980년대 정점, 폴리매스는 점점 더 가치 있어짐
7. 고슴도치 vs 여우
Hedgehog: 단일 이론으로 세상을 봄 → 예측 정확도 끔찍 (침팬지보다 못함)
Fox: 다양한 관점을 종합 → 예측 정확도 우수
Philip Tetlock의 20년 연구
- Hedgehog: 자신감 넘치지만 틀림, 실패 후에도 믿음 수정 안 함
- Fox: 적극적 열린 마음, 새로운 데이터로 지속적 업데이트
Good Judgment Project
"슈퍼 예측자" (지적인 일반인/Foxes) > 기밀 데이터 가진 정보 분석가 (30% 앞섬)
8. 익숙한 도구 버리기
고압 상황에서 전문가들은 익숙한 도구로 퇴행 - 그 도구가 쓸모없어도
핵심 예시: Challenger 재해
- NASA 엔지니어들은 O-ring 고장 데이터를 가지고 있었음
- 하지만 "정량적이지 않다"는 이유로 무시
- 교훈: 모호한 상황에서 정량적 증명 요구라는 "익숙한 도구"를 버리지 못함
의료 과다 사용
전문가들은 증거가 효과 없다고 보여줘도 익숙한 도구 사용
- Oculostenotic reflex: "망치를 가지면 모든 것이 못으로 보인다"
9. 의도적 아마추어 (Deliberate Amateur)
혁신은 비효율성을 요구 - "dabble"하고, 탐구할 시간
- "금요일 밤 실험" 수행
- 개구리 공중 부양 (Ig Nobel상) → 그래핀 발견 (진짜 Nobel상)
- 5년마다 분야를 바꿈: "깊이 파지 않는다 - 얕게 grazing한다"
보조 예시: Oliver Smithies
"토요일 아침 실험"으로 젤 전기영동법 발견 (어머니가 셔츠에 풀 먹이던 것 기억)
실천 가능한 적용
학습할 때
- Interleaved practice 사용 (섞어서 연습)
- "어려운" 학습 선택 → 장기 보존 최적화
문제 해결 시
- Inside view만 사용하지 말 것
- "이것은 무엇과 유사한가?" 질문
- 완전히 다른 영역에서 유추 찾기
커리어 계획
- 10년 계획 대신 단기 계획
- Match quality가 낮으면 그만두는 것을 두려워하지 말 것
- Test-and-Learn > Plan-and-Implement
혁신 추구
- "금요일 밤 실험" 시간 확보
- 다른 분야의 오래된 해결책 찾기
- 전문 분야 밖을 읽고 배우기
우리가 살고 있는 세상은 대부분 Wicked Environment입니다.
Kind 환경(체스, 골프)의 성공 스토리를 일반화하는 것은 위험합니다.
비즈니스, 의학, 연구, 예술, 그리고 **인생 대부분의 영역**에서는:
- 패턴이 불분명하고
- 피드백이 지연되며
- 규칙이 계속 변합니다
이런 환경에서는 **Range(폭넓은 경험)**가 가장 강력한 무기입니다.
> "뒤처졌다고 느끼지 마라"
>
- 율리우스 카이사르: 알렉산더 동상 앞에서 울었지만, 나중에 세계 정복
- Steve Nash: 13세에 농구 시작 → NBA MVP 두 번
- Sviatoslav Richter: 22세에 정식 레슨 시작 → 20세기 최고의 피아니스트
조기 전문화의 압박을 느끼지 마세요. 다양한 경험, "실패", 커리어 변경은 약점이 아니라 Wicked World에서 성공하기 위한 필수 자산입니다.
Kind Environment (친절한 환경)
- 패턴이 반복되고, 피드백이 즉각적이며, 규칙이 명확
- 예: 체스, 골프
- 최적 전략: 조기 전문화 (Tiger Woods)
Wicked Environment (험난한 환경)
- 패턴이 불분명하고, 피드백이 지연되며, 규칙이 변함
- 예: 비즈니스, 의학, 인생의 대부분
- 최적 전략: 폭넓은 Sampling (Roger Federer)
> 핵심: 우리는 Kind 환경의 성공 사례를 Wicked 환경에 잘못 적용하고 있습니다.
>
1. 조기 전문화의 함정
조기 숙련도 ≠ 장기 잠재력
핵심 예시: 프리스타일 체스
- 인간 + 컴퓨터 대결에서 승자는 최고의 그랜드마스터가 아니었음
- Anson Williams (아마추어 체스 선수)가 우승
- 체스 실력은 평범했지만, 여러 AI 도구를 전략적으로 활용하는 통합 능력 탁월
- 교훈: Wicked 환경에서는 범위(Range)가 깊이(Depth)를 이김
보조 증거
노벨상 수상자들은 동료 과학자들보다 예술적 취미를 가질 확률이 훨씬 높음
2. 바람직한 어려움 (Desirable Difficulties)
쉬운 학습 = 얕은 이해 (빠른 망각)
어려운 학습 = 깊은 이해 (오래 지속)
핵심 개념: Interleaved Practice
- Blocked Practice: 같은 문제 반복 (AAAA, BBBB)
- 즉각적 성과는 높지만 장기 보존은 낮음
- Interleaved Practice: 다른 문제 섞어서 (ABCD, BCAD)
- 즉각적 성과는 낮지만 장기 보존은 훨씬 높음
- 핵심: 어떤 전략을 사용할지 판단하는 능력 향상
실증 예시
화가 구별: Cézanne, Picasso를 섞어서 보는 것이 각각 따로 보는 것보다 훨씬 효과적
3. 유추적 사고의 힘
Inside View: 현재 문제의 세부사항 집중 → 과신, 좁은 해결책
Outside View: 다른 영역의 구조적 유사성 찾기 → 정확한 예측, 창의적 해결책
Duncker의 방사선 문제
- 문제: 종양은 파괴하되 주변 조직은 손상 없이?
- 혼자 풀 때: 10%만 해결
- 유추 제공 (장군이 여러 방향에서 요새 공격): 80% 해결
- 교훈: 표면적 특징(의학 vs 군사)이 달라도 깊은 구조(집중된 힘)는 같을 수 있음
실용적 적용
- 사모펀드: Outside View (다른 프로젝트와 비교) → 정확한 예측
- 영화 수익: "어떤 영화와 유사한가?" → 높은 정확도
4. Match Quality와 Sampling의 중요성
조기 전문화 → 낮은 match quality → 커리어 변경 多
늦은 전문화 (Sampling) → 높은 match quality → 장기 성공
핵심 예시: 빈센트 반 고흐
- 미술상, 교사, 서점 직원, 목사 모두 실패
- 27세에야 그림 시작, 스타일도 계속 바꿈
- 교훈: "늦은 시작"과 끊임없는 "그만두기"가 그의 독특한 스타일 발견을 가능하게 함
The End of History Illusion
- 우리는 과거에 변했다는 것은 인정하지만, 미래에는 변하지 않을 것이라 믿음
- 실제: 가치관과 선호도는 평생 크게 변함
- 시사점: Test-and-Learn > Plan-and-Implement
아웃사이더의 우위
- 전문가의 맹점: Einstellung Effect - 익숙한 방법만 사용
- 아웃사이더의 강점: 영역 밖 사고, 먼 유추 사용
InnoCentive 플랫폼
> "문제가 해결자의 전문성에서 멀수록, 해결 가능성이 높음"
>
강력한 예시: John Davis
- 문제: 기름 유출 청소 (초콜릿 무스 같은 기름)
- 화학 지식이 아닌, 여름 건설 아르바이트 경험 회상
- 콘크리트 진동기로 해결
- PhD 화학자들이 수십 년 못 푼 문제를 화학자가 화학 외 방법으로 해결
미발견 공공 지식
Don Swanson: 서로 인용하지 않는 다른 분야 논문들을 교차 참조하여 마그네슘과 편두통 사이의 11가지 연결고리 발견
1. Lateral Thinking with Withered Technology
최첨단 기술 경쟁 대신, 오래되고 싼 기술을 새로운 방식으로 사용
Nintendo Game Boy
- 경쟁사보다 기술적으로 열등 (흑백 화면, 저성능)
- 하지만 "구식" 기술 덕분에:
- 저렴, 내구성, 배터리 효율, 개발 용이
- 결과: 우수한 Sega/Atari를 압도
폴리매스의 가치
Andy Ouderkirk (3M): 전문가 발명가는 1980년대 정점, 폴리매스는 점점 더 가치 있어짐
7. 고슴도치 vs 여우
Hedgehog: 단일 이론으로 세상을 봄 → 예측 정확도 끔찍 (침팬지보다 못함)
Fox: 다양한 관점을 종합 → 예측 정확도 우수
Philip Tetlock의 20년 연구
- Hedgehog: 자신감 넘치지만 틀림, 실패 후에도 믿음 수정 안 함
- Fox: 적극적 열린 마음, 새로운 데이터로 지속적 업데이트
Good Judgment Project
"슈퍼 예측자" (지적인 일반인/Foxes) > 기밀 데이터 가진 정보 분석가 (30% 앞섬)
8. 익숙한 도구 버리기
고압 상황에서 전문가들은 익숙한 도구로 퇴행 - 그 도구가 쓸모없어도
핵심 예시: Challenger 재해
- NASA 엔지니어들은 O-ring 고장 데이터를 가지고 있었음
- 하지만 "정량적이지 않다"는 이유로 무시
- 교훈: 모호한 상황에서 정량적 증명 요구라는 "익숙한 도구"를 버리지 못함
의료 과다 사용
전문가들은 증거가 효과 없다고 보여줘도 익숙한 도구 사용
- Oculostenotic reflex: "망치를 가지면 모든 것이 못으로 보인다"
9. 의도적 아마추어 (Deliberate Amateur)
혁신은 비효율성을 요구 - "dabble"하고, 탐구할 시간
- "금요일 밤 실험" 수행
- 개구리 공중 부양 (Ig Nobel상) → 그래핀 발견 (진짜 Nobel상)
- 5년마다 분야를 바꿈: "깊이 파지 않는다 - 얕게 grazing한다"
보조 예시: Oliver Smithies
"토요일 아침 실험"으로 젤 전기영동법 발견 (어머니가 셔츠에 풀 먹이던 것 기억)
실천 가능한 적용
학습할 때
- Interleaved practice 사용 (섞어서 연습)
- "어려운" 학습 선택 → 장기 보존 최적화
문제 해결 시
- Inside view만 사용하지 말 것
- "이것은 무엇과 유사한가?" 질문
- 완전히 다른 영역에서 유추 찾기
커리어 계획
- 10년 계획 대신 단기 계획
- Match quality가 낮으면 그만두는 것을 두려워하지 말 것
- Test-and-Learn > Plan-and-Implement
혁신 추구
- "금요일 밤 실험" 시간 확보
- 다른 분야의 오래된 해결책 찾기
- 전문 분야 밖을 읽고 배우기
우리가 살고 있는 세상은 대부분 Wicked Environment입니다.
Kind 환경(체스, 골프)의 성공 스토리를 일반화하는 것은 위험합니다.
비즈니스, 의학, 연구, 예술, 그리고 **인생 대부분의 영역**에서는:
- 패턴이 불분명하고
- 피드백이 지연되며
- 규칙이 계속 변합니다
이런 환경에서는 **Range(폭넓은 경험)**가 가장 강력한 무기입니다.
> "뒤처졌다고 느끼지 마라"
>
- 율리우스 카이사르: 알렉산더 동상 앞에서 울었지만, 나중에 세계 정복
- Steve Nash: 13세에 농구 시작 → NBA MVP 두 번
- Sviatoslav Richter: 22세에 정식 레슨 시작 → 20세기 최고의 피아니스트
조기 전문화의 압박을 느끼지 마세요. 다양한 경험, "실패", 커리어 변경은 약점이 아니라 Wicked World에서 성공하기 위한 필수 자산입니다.
❤2
재능을 알아보는 안목 (The Art of Spotting Talent)
당신은 분야를 막론하고 최고가 된 사람들을 연구하고, 함께 일하고, 경쟁했습니다. 그들에게서 발견한 가장 중요한 공통된 특징은 무엇인가요?
저는 성장과 최고가 되는 것에 관심이 있습니다. 거의 건강하지 않을 정도로 탁월함(excellence)에 집착하죠. 사람을 만나면 10분 안에 제 뇌가 자동으로 스캔해서 같은 분야의 사람, 다른 분야의 사람, 성격이 비슷한 사람들과 비교합니다. 장단점을 다 비교하죠. 예술품을 수집할 때도 마찬가지입니다.
저는 하루에 200개 정도의 이미지를 봅니다. 머신 러닝(ML)처럼 제 뇌에 데이터를 넣는 거죠. 저는 이걸 제 개인적인 AI라고 생각합니다. 당신을 만났을 때도 인터뷰를 아주 잘한다는 걸 알았죠. 책을 읽고 50분 만에 핵심을 요약했잖아요. 그건 재능이 없으면 불가능합니다.
당신은 직관으로 움직이는 것 같지만, 책을 보면 엄청난 준비를 합니다. 우편실에서 일할 때 2시간 일찍 출근해서 70년 치 파일 캐비닛을 읽고, 퇴근 후에도 읽었죠. 록펠러처럼 밭을 갈듯이요. 그런 엄청난 지식 기반 위에 실험과 참조 프레임이 더해져서 직관적인 결정이 나오는 것 같습니다. 분석할 시간도 없이 "이 사람은 특별해, 연결해야 해"라는 식으로요.
네, 하지만 데이비드, 질문을 하나 하죠. 당신은 빽도 없이 우편실에 취직했습니다. 3년짜리 교육 프로그램이죠. 대학 학위는 있지만 멍청하진 않습니다. 다른 대안이 있나요? 선택의 여지가 없어요. 저는 1969년 21살이었고, 인맥과 족벌주의가 판치는 비즈니스에서 저를 돋보이게 해야 했습니다. 동기 20~25명 중에서요. 모두 9시 30분 시작에 맞춰 9시에 왔지만, 저는 아무도 없는 6시 30분에 출근했습니다.
누구보다 빨리 모든 것을 배우겠다고 다짐했고, 내가 뭘 하는지 아무에게도 공유하지 않았습니다. 나중에 제가 회사를 차렸을 때는 정반대로 했죠. 모든 것을 모두와 공유했습니다. 비밀 없이, 정치 없이, 모두가 큰 배를 움직이게 했죠. 하지만 우편실에서는 동기들이 다 경쟁자였습니다.
당신 책에서 "내가 그들보다 똑똑한지는 모르겠지만, 더 열심히 일하는 건 확실하다"고 하셨죠.
저보다 똑똑하고 아이비리그 나온 친구들도 있었습니다. 하지만 저는 경쟁적인 환경에 있었고, 영화 산업의 황금기에 대해 미친 듯이 읽었습니다. CAA를 시작할 때 필독 도서 목록을 만들어 직원들에게 줬죠. 프랭크 카프라, 데이비드 린 같은 거장들에 대해 모르면 영화감독들과 대화할 수 없으니까요.
지식과 호기심의 중요성 (The Importance of Knowledge and Curiosity)
찰리 멍거는 "역사로부터 배우는 것은 레버리지의 한 형태"라고 했습니다. 영화감독들도 영화사에 대해 해박하죠.
지식은 힘입니다. 실용적 지식, 연구 지식, 지적 지식, 그리고 깊은 호기심이 결합되면 이길 수 없는 우위를 점하게 됩니다. 제 책상에는 인터넷, 인스타그램, 구글에서 본 흥미로운 것들에 대한 메모가 20개쯤 있습니다. 매일 밤 저는 관심사에 대해 깊이 파고듭니다.
컴퓨터가 제 인생을 바꿨습니다. 저는 컴퓨터에서 살다시피 합니다. 정보를 얻는 걸 좋아하니까요. CAA 시절에는 컴퓨터가 없어서 잡지 210개를 구독했습니다. 다 읽진 않고 페이지를 넘기며 헤드라인과 사진을 봤죠. 여성 잡지도 읽었는데, 스타일리스트들이 트렌드를 6개월 앞서가기 때문입니다. 그 덕분에 여배우들이나 스타일리스트들과 대화할 수 있었습니다.
폴 뉴먼을 처음 만났을 때, 그가 레이싱 카를 좋아한다는 걸 알고 3시간 동안 차 이야기만 했습니다. 그의 경력 이야기는 한마디도 안 했죠.
마이클 델이나 젠슨 황 같은 사람들은 "깨어 있는 모든 시간이 근무 시간"이라고 합니다. 당신도 책에서 그렇게 썼죠. 하지만 동시에 "10% 덜 일했어도 성공에는 지장이 없었을 것이고 훨씬 더 행복했을 것"이라고도 했습니다. 이 두 가지를 어떻게 받아들여야 할까요?
저는 금전적 목표를 위해 일하는 게 아니라 자기 계발(self-enrichment)을 위해 일합니다. 그것이 결국 경제적 산물로 이어지죠. 제가 더 현명해지고 정보를 많이 알게 되면 다른 사람들에게 조언을 줄 수 있는 사람이 됩니다.
저는 재주가 없습니다. 글도 못 쓰고 연기도 못 하고 그림도 못 그려요. 저는 사람에게 투자합니다. 벤처 캐피털리스트들이 세운 가드레일 같은 건 무시합니다. 창의적인 사람들에게는 가드레일이 없거든요.
누군가 제게 멘토가 누구였냐고 물었을 때, 없었다고 했습니다. 있었으면 좋았을 텐데요. 제가 겪은 고생을 덜어줄 수 있었을 테니까요. 그래서 저는 지금 많은 사람들의 조언자(advisor) 역할을 합니다. 친구라서, 그들에게서 배우니까, 즐거우니까, 그리고 친구들을 보호하고 싶으니까요.
저는 관계에 대해 이분법적입니다. 영화 대사처럼 모래 위에 선을 긋고 "이쪽이냐 저쪽이냐"를 따집니다. 내 편 아니면 적이죠. 저는 최고의 친구가 되어 주지만, 적이 되고 싶지는 않을 겁니다. 하지만 요즘은 적을 만들 에너지도 시간도 없어요.
비즈니스에서의 관계와 진실성 (Building Relationships and Integrity in Business)
저는 진실성과 약속을 지키는 것을 중요하게 생각합니다. CAA를 시작할 때 우리는 돈도 변호사도 없어서 계약서 없이 거래했습니다. 사람들이 약속을 지켜야 했죠. 엔터테인먼트 업계, 특히 영화와 음악 쪽은 거짓말이 많았습니다.
텔레비전은 매주 방송해야 해서 거짓말할 시간이 없었죠. CAA가 혁신적이었던 건 "거짓말하지 않기"였습니다. 모르면 "모르겠습니다. 알아보고 전화드릴게요"라고 했죠. 1974년에는 듣도 보도 못한 방식이었습니다. 우리는 모든 것을 기록했고 집요하게 후속 조치(follow-up)를 했습니다. 후속 조치만 잘해도 똑똑한 것 이상의 점수를 땁니다.
오늘 아침 6시 30분에도 딜을 진행하면서 관련된 모든 사람에게 전화를 걸어 상황을 업데이트해 줬습니다. 굳이 그럴 필요 없었을 수도 있지만, 그렇게 함으로써 모두가 소외감을 느끼지 않고 지지하게 만들었죠. 제 젊은 파트너도 그걸 보고 배웠고요.
자신감과 비판 (Confidence and Criticism)
언제부터 남들의 말을 무시할 수 있는 자신감을 얻으셨나요?
9학년 때 반장 선거에서 졌을 때입니다. 철저히 분석해서 2년 동안 준비했고, 결국 전교 부회장, 회장이 되었죠. 저는 "아무것도 안 해서 비판받지 않는 회장보다, 무언가를 하고 비판받는 회장이 되겠다"고 연설했습니다.
지금 진행 중인 딜에서도 젊은 창업자가 제게 "자신감이 넘치시네요"라고 하더군요. 저는 "전체 그림이 명확하게 보이니까요"라고 했습니다.
나폴레옹이 "식욕은 먹을수록 생긴다"고 했죠. 당신의 야망에는 끝이 없는 것 같습니다.
저는 야망이나 호기심이 끝나는 걸 원치 않습니다. 저는 샌페르난도 밸리로 돌아가는 게 죽기보다 싫었습니다. 실패는 선택지에 없었죠. 성공 아니면 죽음이었습니다.
가끔 메뉴판 가격을 먼저 보는 제 자신을 발견합니다. 돈 걱정할 필요가 없는데도요. 제 안에는 여전히 그 시절의 제가 남아있고, 그게 저를 계속 경쟁하게 하고 이기고 싶게 만듭니다.
파트너십에 대해서
1800년대 후반 프랑스 오지에서 망해가는 가족 공장을 물려받았죠. 동생은 20대 후반, 형은 30대 후반이었습니다. 그들은 거의 무일푼에서, 아니 파산 직전이었으니 마이너스에서 시작해 100년 가는 가족 왕조를 세웠습니다.
그 회사는 130년이 지난 지금도 번창하고 있고 세계 최고의 타이어 회사 중 하나입니다. 그들은 책임 분담을 통해 해냈는데, 방금 마크와 벤에 대해 말씀하신 것과 비슷합니다. 동생은 제품을 만들고 형은 제품을 팔았죠. 둘 다 각자의 분야에서 세계 최고였고 함께했습니다. 둘 다 죽을 때까지 회사를 운영했으니 40~45년 파트너십이었죠.
마크와 벤(a16z)을 보셨을 때 그들이 상호 보완적인 기술을 가졌다고 생각하신 점은 무엇인가요?
사업 파트너십의 근본적인 토대에는 서로의 비즈니스 감각에 대한 존중이 있어야 합니다. 상호 보완적인 성격이어야 하고요. 둘 다 똑같을 순 없습니다. 기질도 상호 보완적이어야 하고, 공유된 비전이 있어야 합니다. 이건 찾기 어렵습니다.
당신은 분야를 막론하고 최고가 된 사람들을 연구하고, 함께 일하고, 경쟁했습니다. 그들에게서 발견한 가장 중요한 공통된 특징은 무엇인가요?
저는 성장과 최고가 되는 것에 관심이 있습니다. 거의 건강하지 않을 정도로 탁월함(excellence)에 집착하죠. 사람을 만나면 10분 안에 제 뇌가 자동으로 스캔해서 같은 분야의 사람, 다른 분야의 사람, 성격이 비슷한 사람들과 비교합니다. 장단점을 다 비교하죠. 예술품을 수집할 때도 마찬가지입니다.
저는 하루에 200개 정도의 이미지를 봅니다. 머신 러닝(ML)처럼 제 뇌에 데이터를 넣는 거죠. 저는 이걸 제 개인적인 AI라고 생각합니다. 당신을 만났을 때도 인터뷰를 아주 잘한다는 걸 알았죠. 책을 읽고 50분 만에 핵심을 요약했잖아요. 그건 재능이 없으면 불가능합니다.
당신은 직관으로 움직이는 것 같지만, 책을 보면 엄청난 준비를 합니다. 우편실에서 일할 때 2시간 일찍 출근해서 70년 치 파일 캐비닛을 읽고, 퇴근 후에도 읽었죠. 록펠러처럼 밭을 갈듯이요. 그런 엄청난 지식 기반 위에 실험과 참조 프레임이 더해져서 직관적인 결정이 나오는 것 같습니다. 분석할 시간도 없이 "이 사람은 특별해, 연결해야 해"라는 식으로요.
네, 하지만 데이비드, 질문을 하나 하죠. 당신은 빽도 없이 우편실에 취직했습니다. 3년짜리 교육 프로그램이죠. 대학 학위는 있지만 멍청하진 않습니다. 다른 대안이 있나요? 선택의 여지가 없어요. 저는 1969년 21살이었고, 인맥과 족벌주의가 판치는 비즈니스에서 저를 돋보이게 해야 했습니다. 동기 20~25명 중에서요. 모두 9시 30분 시작에 맞춰 9시에 왔지만, 저는 아무도 없는 6시 30분에 출근했습니다.
누구보다 빨리 모든 것을 배우겠다고 다짐했고, 내가 뭘 하는지 아무에게도 공유하지 않았습니다. 나중에 제가 회사를 차렸을 때는 정반대로 했죠. 모든 것을 모두와 공유했습니다. 비밀 없이, 정치 없이, 모두가 큰 배를 움직이게 했죠. 하지만 우편실에서는 동기들이 다 경쟁자였습니다.
당신 책에서 "내가 그들보다 똑똑한지는 모르겠지만, 더 열심히 일하는 건 확실하다"고 하셨죠.
저보다 똑똑하고 아이비리그 나온 친구들도 있었습니다. 하지만 저는 경쟁적인 환경에 있었고, 영화 산업의 황금기에 대해 미친 듯이 읽었습니다. CAA를 시작할 때 필독 도서 목록을 만들어 직원들에게 줬죠. 프랭크 카프라, 데이비드 린 같은 거장들에 대해 모르면 영화감독들과 대화할 수 없으니까요.
지식과 호기심의 중요성 (The Importance of Knowledge and Curiosity)
찰리 멍거는 "역사로부터 배우는 것은 레버리지의 한 형태"라고 했습니다. 영화감독들도 영화사에 대해 해박하죠.
지식은 힘입니다. 실용적 지식, 연구 지식, 지적 지식, 그리고 깊은 호기심이 결합되면 이길 수 없는 우위를 점하게 됩니다. 제 책상에는 인터넷, 인스타그램, 구글에서 본 흥미로운 것들에 대한 메모가 20개쯤 있습니다. 매일 밤 저는 관심사에 대해 깊이 파고듭니다.
컴퓨터가 제 인생을 바꿨습니다. 저는 컴퓨터에서 살다시피 합니다. 정보를 얻는 걸 좋아하니까요. CAA 시절에는 컴퓨터가 없어서 잡지 210개를 구독했습니다. 다 읽진 않고 페이지를 넘기며 헤드라인과 사진을 봤죠. 여성 잡지도 읽었는데, 스타일리스트들이 트렌드를 6개월 앞서가기 때문입니다. 그 덕분에 여배우들이나 스타일리스트들과 대화할 수 있었습니다.
폴 뉴먼을 처음 만났을 때, 그가 레이싱 카를 좋아한다는 걸 알고 3시간 동안 차 이야기만 했습니다. 그의 경력 이야기는 한마디도 안 했죠.
마이클 델이나 젠슨 황 같은 사람들은 "깨어 있는 모든 시간이 근무 시간"이라고 합니다. 당신도 책에서 그렇게 썼죠. 하지만 동시에 "10% 덜 일했어도 성공에는 지장이 없었을 것이고 훨씬 더 행복했을 것"이라고도 했습니다. 이 두 가지를 어떻게 받아들여야 할까요?
저는 금전적 목표를 위해 일하는 게 아니라 자기 계발(self-enrichment)을 위해 일합니다. 그것이 결국 경제적 산물로 이어지죠. 제가 더 현명해지고 정보를 많이 알게 되면 다른 사람들에게 조언을 줄 수 있는 사람이 됩니다.
저는 재주가 없습니다. 글도 못 쓰고 연기도 못 하고 그림도 못 그려요. 저는 사람에게 투자합니다. 벤처 캐피털리스트들이 세운 가드레일 같은 건 무시합니다. 창의적인 사람들에게는 가드레일이 없거든요.
누군가 제게 멘토가 누구였냐고 물었을 때, 없었다고 했습니다. 있었으면 좋았을 텐데요. 제가 겪은 고생을 덜어줄 수 있었을 테니까요. 그래서 저는 지금 많은 사람들의 조언자(advisor) 역할을 합니다. 친구라서, 그들에게서 배우니까, 즐거우니까, 그리고 친구들을 보호하고 싶으니까요.
저는 관계에 대해 이분법적입니다. 영화 대사처럼 모래 위에 선을 긋고 "이쪽이냐 저쪽이냐"를 따집니다. 내 편 아니면 적이죠. 저는 최고의 친구가 되어 주지만, 적이 되고 싶지는 않을 겁니다. 하지만 요즘은 적을 만들 에너지도 시간도 없어요.
비즈니스에서의 관계와 진실성 (Building Relationships and Integrity in Business)
저는 진실성과 약속을 지키는 것을 중요하게 생각합니다. CAA를 시작할 때 우리는 돈도 변호사도 없어서 계약서 없이 거래했습니다. 사람들이 약속을 지켜야 했죠. 엔터테인먼트 업계, 특히 영화와 음악 쪽은 거짓말이 많았습니다.
텔레비전은 매주 방송해야 해서 거짓말할 시간이 없었죠. CAA가 혁신적이었던 건 "거짓말하지 않기"였습니다. 모르면 "모르겠습니다. 알아보고 전화드릴게요"라고 했죠. 1974년에는 듣도 보도 못한 방식이었습니다. 우리는 모든 것을 기록했고 집요하게 후속 조치(follow-up)를 했습니다. 후속 조치만 잘해도 똑똑한 것 이상의 점수를 땁니다.
오늘 아침 6시 30분에도 딜을 진행하면서 관련된 모든 사람에게 전화를 걸어 상황을 업데이트해 줬습니다. 굳이 그럴 필요 없었을 수도 있지만, 그렇게 함으로써 모두가 소외감을 느끼지 않고 지지하게 만들었죠. 제 젊은 파트너도 그걸 보고 배웠고요.
자신감과 비판 (Confidence and Criticism)
언제부터 남들의 말을 무시할 수 있는 자신감을 얻으셨나요?
9학년 때 반장 선거에서 졌을 때입니다. 철저히 분석해서 2년 동안 준비했고, 결국 전교 부회장, 회장이 되었죠. 저는 "아무것도 안 해서 비판받지 않는 회장보다, 무언가를 하고 비판받는 회장이 되겠다"고 연설했습니다.
지금 진행 중인 딜에서도 젊은 창업자가 제게 "자신감이 넘치시네요"라고 하더군요. 저는 "전체 그림이 명확하게 보이니까요"라고 했습니다.
나폴레옹이 "식욕은 먹을수록 생긴다"고 했죠. 당신의 야망에는 끝이 없는 것 같습니다.
저는 야망이나 호기심이 끝나는 걸 원치 않습니다. 저는 샌페르난도 밸리로 돌아가는 게 죽기보다 싫었습니다. 실패는 선택지에 없었죠. 성공 아니면 죽음이었습니다.
가끔 메뉴판 가격을 먼저 보는 제 자신을 발견합니다. 돈 걱정할 필요가 없는데도요. 제 안에는 여전히 그 시절의 제가 남아있고, 그게 저를 계속 경쟁하게 하고 이기고 싶게 만듭니다.
파트너십에 대해서
1800년대 후반 프랑스 오지에서 망해가는 가족 공장을 물려받았죠. 동생은 20대 후반, 형은 30대 후반이었습니다. 그들은 거의 무일푼에서, 아니 파산 직전이었으니 마이너스에서 시작해 100년 가는 가족 왕조를 세웠습니다.
그 회사는 130년이 지난 지금도 번창하고 있고 세계 최고의 타이어 회사 중 하나입니다. 그들은 책임 분담을 통해 해냈는데, 방금 마크와 벤에 대해 말씀하신 것과 비슷합니다. 동생은 제품을 만들고 형은 제품을 팔았죠. 둘 다 각자의 분야에서 세계 최고였고 함께했습니다. 둘 다 죽을 때까지 회사를 운영했으니 40~45년 파트너십이었죠.
마크와 벤(a16z)을 보셨을 때 그들이 상호 보완적인 기술을 가졌다고 생각하신 점은 무엇인가요?
사업 파트너십의 근본적인 토대에는 서로의 비즈니스 감각에 대한 존중이 있어야 합니다. 상호 보완적인 성격이어야 하고요. 둘 다 똑같을 순 없습니다. 기질도 상호 보완적이어야 하고, 공유된 비전이 있어야 합니다. 이건 찾기 어렵습니다.
❤1
하지만 마크와 벤의 경우, 마크는 회사에서 일어나는 모든 일을 알지만 운영은 벤이 합니다. 그리고 마크는 그걸 아주 편하게 생각해요. 마크는 회사에 대한 본능적인 감각이 뛰어나고 벤도 마찬가지입니다.
벤은 여러 사업을 운영하고 매각해 본 경험을 바탕으로 사업을 바라봅니다. 비즈니스의 원칙, 실행 방법, 사람 다루는 법, 리더가 되는 법, 공동 창업자와 지내는 법, 비전을 뒷받침할 지적 프로세스를 갖추는 법, 그리고 비전을 펼치면서 열린 마음을 유지하는 법을 이해하는 리더를 찾기는 매우 어렵습니다.
록펠러와의 인연
저는 젊은 창업자들에게 항상 나이 든 멘토들과 시간을 보내라고 조언합니다. 록펠러가 80세라면 40세보다 두 배 똑똑한 게 아니라 10배의 경험치를 가진 셈이니까요. 모든 거래를 봤고, 모든 사람을 만났고, 세상을 관찰할 시간이 훨씬 많았으니까요.
그가 저를 워싱턴 백악관 출입기자단 만찬에 데려간 적이 있는데, 제 인생 최고의 밤 중 하나였습니다. 그의 리무진과 비행기를 타고 갔죠. 그가 방에 들어서자 모든 사람이 그를 알았습니다. 사람들이 그에게 존경을 표하러 다가왔고, 그는 누구에게나 똑같이 예의 바르게 대했습니다. 진실성이 없는 사람들에게는 아주 짧게 대했지만요. 그와 함께한 모든 점심, 저녁 식사는 대학원 수업 같았습니다.
제 '참조 프레임(Frame of Reference)' 이론입니다. 나이가 들면서 "그때 알았더라면 좋았을 텐데"라고 하는 말은 1000% 맞습니다. 수명이 길어지면 자연스럽게 더 많은 만남과 경험이 생기죠. 참조 프레임이 많을수록 결과를 미리 봤기 때문에 어려운 결정을 내리는 데 더 능숙해집니다.
https://www.youtube.com/watch?v=yhh-J0zVsik
벤은 여러 사업을 운영하고 매각해 본 경험을 바탕으로 사업을 바라봅니다. 비즈니스의 원칙, 실행 방법, 사람 다루는 법, 리더가 되는 법, 공동 창업자와 지내는 법, 비전을 뒷받침할 지적 프로세스를 갖추는 법, 그리고 비전을 펼치면서 열린 마음을 유지하는 법을 이해하는 리더를 찾기는 매우 어렵습니다.
록펠러와의 인연
저는 젊은 창업자들에게 항상 나이 든 멘토들과 시간을 보내라고 조언합니다. 록펠러가 80세라면 40세보다 두 배 똑똑한 게 아니라 10배의 경험치를 가진 셈이니까요. 모든 거래를 봤고, 모든 사람을 만났고, 세상을 관찰할 시간이 훨씬 많았으니까요.
그가 저를 워싱턴 백악관 출입기자단 만찬에 데려간 적이 있는데, 제 인생 최고의 밤 중 하나였습니다. 그의 리무진과 비행기를 타고 갔죠. 그가 방에 들어서자 모든 사람이 그를 알았습니다. 사람들이 그에게 존경을 표하러 다가왔고, 그는 누구에게나 똑같이 예의 바르게 대했습니다. 진실성이 없는 사람들에게는 아주 짧게 대했지만요. 그와 함께한 모든 점심, 저녁 식사는 대학원 수업 같았습니다.
제 '참조 프레임(Frame of Reference)' 이론입니다. 나이가 들면서 "그때 알았더라면 좋았을 텐데"라고 하는 말은 1000% 맞습니다. 수명이 길어지면 자연스럽게 더 많은 만남과 경험이 생기죠. 참조 프레임이 많을수록 결과를 미리 봤기 때문에 어려운 결정을 내리는 데 더 능숙해집니다.
https://www.youtube.com/watch?v=yhh-J0zVsik
YouTube
My Conversation With Michael Ovitz, Co-founder of Creative Artists Agency (CAA) | David Senra
Michael Ovitz is the co-founder of Creative Artists Agency (CAA), one of the most powerful and influential talent agencies in Hollywood history, built on a revolutionary approach to representation that fundamentally transformed the entertainment industry.…
Continuous Learning_Startup & Investment
재능을 알아보는 안목 (The Art of Spotting Talent) 당신은 분야를 막론하고 최고가 된 사람들을 연구하고, 함께 일하고, 경쟁했습니다. 그들에게서 발견한 가장 중요한 공통된 특징은 무엇인가요? 저는 성장과 최고가 되는 것에 관심이 있습니다. 거의 건강하지 않을 정도로 탁월함(excellence)에 집착하죠. 사람을 만나면 10분 안에 제 뇌가 자동으로 스캔해서 같은 분야의 사람, 다른 분야의 사람, 성격이 비슷한 사람들과 비교합니다.…
마이클 오비츠의 CAA에서 커리어를 시작한 아리 이마누엘은 UFC를 사서 키움
Q: 뛰어난 에이전트가 되는 비결은 무엇인가요?
훌륭한 클라이언트를 확보하는 것입니다. 그가 밀로스 포먼이나 알 파치노를 대변했기 때문에 사람들이 전화를 받아줬던 거죠. 저도 안목(taste)을 기르고 훌륭한 클라이언트를 영입함으로써 영향력을 키웠습니다. 초기에는 '심슨 가족'이나 'SNL' 작가들, 하버드 램푼 출신들을 영입했습니다.
Q: 당신의 업무 처리 속도와 커뮤니케이션 방식은 전설적인데, 원칙이 있나요?
A: 저는 전화기를 무기로 사용합니다. 원칙은 간단합니다. 집요한 후속 조치(Relentless Follow-up)와 과잉 소통(Overcommunication)입니다. 상대방이 답이 없으면 계속 연락해야 합니다. 그게 일이니까요. 하루에 수많은 통화를 하는데, 대통령부터 젊은 작가까지 다양합니다.
Q: 제프 베조스가 해준 조언이 있나요?
A: 네, 그는 저에게 "이제 나이도 있으니 **경기장 안에 있을 때(On the field)와 밖에 있을 때(Off the field)를 구분하라**"고 조언했습니다. 저는 항상 '경기장 안'에 있었거든요. 모든 대화에서 전략을 짜고 계산하며 살았습니다. 하지만 이제는 때때로 긴장을 풀고 순수한 호기심으로 대화하는 법을 배우고 있습니다.
Q: UFC를 인수하게 된 배경과 과정은 어땠나요?
A: 제가 UFC를 대리할 때, 시청률은 오르는데 방송권료가 너무 낮다는 걸 알았습니다. 잠재력을 보고 다나 화이트(Dana White)와 퍼티타 형제를 설득해 계약을 맺었고, 스파이크 TV와의 계약금을 1,500만 달러에서 7,500만 달러로 올리고 비디오 게임 계약도 성사시켰습니다. 나중에는 폭스(Fox)와 1억 5천만 달러 계약을 맺었죠.
이후 실버레이크(Silver Lake) 파트너 에곤 더반(Egon Durban)과 함께 IMG를 인수했고, UFC 매각 소식을 듣고 직접 인수하기로 결심했습니다. 당시 경쟁자가 많았지만 제가 방송권료 협상을 통해 레버리지를 일으킬 수 있다는 계산이 있었습니다.
Q: 인수 과정에서 가장 큰 위기는 무엇이었나요?
A: UFC를 40억 달러에 인수했는데, 루퍼트 머독이 폭스를 디즈니에 매각하면서 입찰자가 사라지는 상황이 발생했습니다. 제 계약 만료는 1년 남았고, 아무도 입찰하지 않는 절체절명의 위기였죠. 스트레스로 갑상선에 문제가 생겨 체중이 급격히 빠질 정도였습니다. 다행히 ESPN이 스트리밍 서비스(ESPN+)를 위해 콘텐츠가 필요하다는 점을 파고들어 딜을 성사시켰습니다.
Q: '파이트 아일랜드(Fight Island)'는 어떻게 탄생했나요?
A: 코로나19로 전 세계가 멈췄을 때, 다나 화이트가 경기를 강행하겠다고 했습니다. 저는 그를 지지했고, 아부다비의 파트너에게 연락해 섬 하나를 통째로 빌렸습니다. 비행기, 검역 시스템 등을 갖추고 선수들을 데려와 경기를 치렀죠. 당시 전 세계에 스포츠 경기가 하나도 없어서 시청률이 폭발했습니다.
Q: 다나 화이트의 뛰어난 점은 무엇인가요?
A: 첫째, 그는 격투기를 진심으로 사랑합니다. 둘째, 그는 두려움이 없습니다. 셋째, 그는 엄청난 도박사 기질이 있고 승부사입니다. 그는 끊임없이 일하며 이 분야를 누구보다 잘 알고 있습니다.
미디어 환경의 변화와 미래 (Future of Media & Content)
Q: 콘텐츠와 배급의 권력 구도는 어떻게 변했나요?
A: 과거에는 독립 제작사들이 콘텐츠를 만들어 방송국에 팔고, 2차, 3차 윈도우(케이블, 넷플릭스 등)를 통해 수익을 냈습니다. 하지만 지금은 작가 파업 등으로 패키지 딜이 사라지고, 메이저 스튜디오가 메이저 플랫폼에 공급하는 구조가 되었습니다. AI가 제작 비용을 획기적으로 낮출 것이고, 콘텐츠 공급은 무한해질 것입니다.
Q: 제작 비용이 0에 수렴하면 가치는 어디서 생기나요?
A: 안목(Taste)과 브랜드, 오래된 IP, 그리고 **라이브 스포츠**의 가치가 더욱 중요해질 것입니다. 누구나 콘텐츠를 만들 수 있게 되면 무엇이 좋은지 가려내는 안목이 핵심 경쟁력이 됩니다. 또한 드웨인 존슨 같은 스타들이 자체적인 배급 채널이 될 것입니다.
Q: AI와 라이브 이벤트의 관계는 어떻게 보시나요?
A: 저는 라이브(Live)가 AI 리스크의 해독제(Antidote)라고 믿습니다. 일론 머스크도 "라이브는 대체될 수 없다"고 했습니다. 사람들은 사회적 동물이라 모여서 경험을 공유하고 싶어 합니다. AI로 콘텐츠가 넘쳐날수록, 희소성 있는 라이브 경험의 가치는 더 올라갈 것입니다. 저는 프리즈(Frieze) 아트 페어, 테니스 대회, 음식 축제 등 전 세계적인 라이브 이벤트 포트폴리오를 구축하고 있습니다.
Q: 프리미엄 경험에 대한 수요는 어떤가요?
A: 엄청납니다. 부유한 사람들은 더 특별한 경험을 원합니다. 슈퍼볼에서 선수들과 입장하거나, UFC 계체량 무대에 서는 등 돈으로 살 수 없던 경험을 파는 비즈니스(On Location)가 성장하고 있습니다. 사람들은 단순 관람을 넘어 특별한 경험과 지위를 사고 싶어 합니다.
인물과 교훈 (People & Lessons)
Q: 에곤 더반(실버레이크 파트너)에게서 배운 점은?
A: 그는 끊임없이 배우려 하고 비판을 수용합니다. 재무적인 엔지니어링 능력이 탁월하며, 대차대조표에서 남들이 못 보는 가치를 봅니다. IMG 인수 때도 경쟁자가 따라오지 못할 압도적인 가격을 제시해 딜을 끝내버리는 전략을 배웠습니다.
Q: 형인 람 이마누엘(Rahm Emanuel)에게 배운 점은?
A: 그는 정치와 글로벌 정세에 대해 누구보다 깊이 이해하고 있습니다. 양자 관계를 넘어 다자간 관계를 꿰뚫어 보는 통찰력이 있고, 저만큼이나 집요하고 추진력이 강합니다.
Q: 당신에게 '좋은 거래(Great Deal)'란 무엇인가요?
A: 양쪽 모두 기분 좋게 느끼는 거래입니다. 때로는 춤을 추듯 조율하고, 때로는 총을 쏘듯 싸워야 합니다. 제가 한 최고의 거래는 윌리엄 모리스와의 합병이었습니다. 적대적인 문화를 가진 회사를 인수해 내부를 정리하고 실버레이크를 끌어들여 지금의 엔데버를 만들었죠.
https://youtu.be/xDuqUlZZ8Vk
Q: 뛰어난 에이전트가 되는 비결은 무엇인가요?
훌륭한 클라이언트를 확보하는 것입니다. 그가 밀로스 포먼이나 알 파치노를 대변했기 때문에 사람들이 전화를 받아줬던 거죠. 저도 안목(taste)을 기르고 훌륭한 클라이언트를 영입함으로써 영향력을 키웠습니다. 초기에는 '심슨 가족'이나 'SNL' 작가들, 하버드 램푼 출신들을 영입했습니다.
Q: 당신의 업무 처리 속도와 커뮤니케이션 방식은 전설적인데, 원칙이 있나요?
A: 저는 전화기를 무기로 사용합니다. 원칙은 간단합니다. 집요한 후속 조치(Relentless Follow-up)와 과잉 소통(Overcommunication)입니다. 상대방이 답이 없으면 계속 연락해야 합니다. 그게 일이니까요. 하루에 수많은 통화를 하는데, 대통령부터 젊은 작가까지 다양합니다.
Q: 제프 베조스가 해준 조언이 있나요?
A: 네, 그는 저에게 "이제 나이도 있으니 **경기장 안에 있을 때(On the field)와 밖에 있을 때(Off the field)를 구분하라**"고 조언했습니다. 저는 항상 '경기장 안'에 있었거든요. 모든 대화에서 전략을 짜고 계산하며 살았습니다. 하지만 이제는 때때로 긴장을 풀고 순수한 호기심으로 대화하는 법을 배우고 있습니다.
Q: UFC를 인수하게 된 배경과 과정은 어땠나요?
A: 제가 UFC를 대리할 때, 시청률은 오르는데 방송권료가 너무 낮다는 걸 알았습니다. 잠재력을 보고 다나 화이트(Dana White)와 퍼티타 형제를 설득해 계약을 맺었고, 스파이크 TV와의 계약금을 1,500만 달러에서 7,500만 달러로 올리고 비디오 게임 계약도 성사시켰습니다. 나중에는 폭스(Fox)와 1억 5천만 달러 계약을 맺었죠.
이후 실버레이크(Silver Lake) 파트너 에곤 더반(Egon Durban)과 함께 IMG를 인수했고, UFC 매각 소식을 듣고 직접 인수하기로 결심했습니다. 당시 경쟁자가 많았지만 제가 방송권료 협상을 통해 레버리지를 일으킬 수 있다는 계산이 있었습니다.
Q: 인수 과정에서 가장 큰 위기는 무엇이었나요?
A: UFC를 40억 달러에 인수했는데, 루퍼트 머독이 폭스를 디즈니에 매각하면서 입찰자가 사라지는 상황이 발생했습니다. 제 계약 만료는 1년 남았고, 아무도 입찰하지 않는 절체절명의 위기였죠. 스트레스로 갑상선에 문제가 생겨 체중이 급격히 빠질 정도였습니다. 다행히 ESPN이 스트리밍 서비스(ESPN+)를 위해 콘텐츠가 필요하다는 점을 파고들어 딜을 성사시켰습니다.
Q: '파이트 아일랜드(Fight Island)'는 어떻게 탄생했나요?
A: 코로나19로 전 세계가 멈췄을 때, 다나 화이트가 경기를 강행하겠다고 했습니다. 저는 그를 지지했고, 아부다비의 파트너에게 연락해 섬 하나를 통째로 빌렸습니다. 비행기, 검역 시스템 등을 갖추고 선수들을 데려와 경기를 치렀죠. 당시 전 세계에 스포츠 경기가 하나도 없어서 시청률이 폭발했습니다.
Q: 다나 화이트의 뛰어난 점은 무엇인가요?
A: 첫째, 그는 격투기를 진심으로 사랑합니다. 둘째, 그는 두려움이 없습니다. 셋째, 그는 엄청난 도박사 기질이 있고 승부사입니다. 그는 끊임없이 일하며 이 분야를 누구보다 잘 알고 있습니다.
미디어 환경의 변화와 미래 (Future of Media & Content)
Q: 콘텐츠와 배급의 권력 구도는 어떻게 변했나요?
A: 과거에는 독립 제작사들이 콘텐츠를 만들어 방송국에 팔고, 2차, 3차 윈도우(케이블, 넷플릭스 등)를 통해 수익을 냈습니다. 하지만 지금은 작가 파업 등으로 패키지 딜이 사라지고, 메이저 스튜디오가 메이저 플랫폼에 공급하는 구조가 되었습니다. AI가 제작 비용을 획기적으로 낮출 것이고, 콘텐츠 공급은 무한해질 것입니다.
Q: 제작 비용이 0에 수렴하면 가치는 어디서 생기나요?
A: 안목(Taste)과 브랜드, 오래된 IP, 그리고 **라이브 스포츠**의 가치가 더욱 중요해질 것입니다. 누구나 콘텐츠를 만들 수 있게 되면 무엇이 좋은지 가려내는 안목이 핵심 경쟁력이 됩니다. 또한 드웨인 존슨 같은 스타들이 자체적인 배급 채널이 될 것입니다.
Q: AI와 라이브 이벤트의 관계는 어떻게 보시나요?
A: 저는 라이브(Live)가 AI 리스크의 해독제(Antidote)라고 믿습니다. 일론 머스크도 "라이브는 대체될 수 없다"고 했습니다. 사람들은 사회적 동물이라 모여서 경험을 공유하고 싶어 합니다. AI로 콘텐츠가 넘쳐날수록, 희소성 있는 라이브 경험의 가치는 더 올라갈 것입니다. 저는 프리즈(Frieze) 아트 페어, 테니스 대회, 음식 축제 등 전 세계적인 라이브 이벤트 포트폴리오를 구축하고 있습니다.
Q: 프리미엄 경험에 대한 수요는 어떤가요?
A: 엄청납니다. 부유한 사람들은 더 특별한 경험을 원합니다. 슈퍼볼에서 선수들과 입장하거나, UFC 계체량 무대에 서는 등 돈으로 살 수 없던 경험을 파는 비즈니스(On Location)가 성장하고 있습니다. 사람들은 단순 관람을 넘어 특별한 경험과 지위를 사고 싶어 합니다.
인물과 교훈 (People & Lessons)
Q: 에곤 더반(실버레이크 파트너)에게서 배운 점은?
A: 그는 끊임없이 배우려 하고 비판을 수용합니다. 재무적인 엔지니어링 능력이 탁월하며, 대차대조표에서 남들이 못 보는 가치를 봅니다. IMG 인수 때도 경쟁자가 따라오지 못할 압도적인 가격을 제시해 딜을 끝내버리는 전략을 배웠습니다.
Q: 형인 람 이마누엘(Rahm Emanuel)에게 배운 점은?
A: 그는 정치와 글로벌 정세에 대해 누구보다 깊이 이해하고 있습니다. 양자 관계를 넘어 다자간 관계를 꿰뚫어 보는 통찰력이 있고, 저만큼이나 집요하고 추진력이 강합니다.
Q: 당신에게 '좋은 거래(Great Deal)'란 무엇인가요?
A: 양쪽 모두 기분 좋게 느끼는 거래입니다. 때로는 춤을 추듯 조율하고, 때로는 총을 쏘듯 싸워야 합니다. 제가 한 최고의 거래는 윌리엄 모리스와의 합병이었습니다. 적대적인 문화를 가진 회사를 인수해 내부를 정리하고 실버레이크를 끌어들여 지금의 엔데버를 만들었죠.
https://youtu.be/xDuqUlZZ8Vk
YouTube
Ari Emanuel’s "Anti-AI" Bet on Live Entertainment
Ari Emanuel joins Patrick O'Shaughnessy to discuss his incredible journey from dyslexic kid in special education to one of entertainment's most powerful dealmakers. Emanuel shares the story behind acquiring the UFC, building a live events empire spanning…
Slack Founder Steward Butterfield
Q: 제품에서의 '취향(Taste)'을 어떻게 정의하시나요? 훈련될 수 있는 건가요?
A: 네, 요리사가 훈련을 통해 더 맛있는 음식을 만들 수 있듯이 취향도 훈련될 수 있습니다. 대부분의 사람들이 제품의 디테일에 신경 쓰지 않기 때문에, 여기에 투자하면 큰 경쟁 우위를 점할 수 있습니다. 제프 베조스가 "당신의 마진은 나의 기회다"라고 했듯이, 저는 "당신의 무심함(우산을 기울이지 않는 것)은 나의 기회다"라고 생각합니다.
Q: '거룩한 불만(Divine Discontent)'이라는 개념도 언급하셨는데, 어떤 의미인가요?
A: 사용자들이 제품에 익숙해지면 기대치가 올라갑니다. 그래서 유틸리티 커브의 기준선 자체가 계속 이동합니다. 끊임없이 개선하지 않으면 도태됩니다. 구글 캘린더의 시간대(Time zone) 선택 기능을 예로 들 수 있는데, 전 세계 시간대를 알파벳순으로만 나열해서 사용자가 원하는 시간대를 찾기 너무 어렵게 만들어놨습니다. 이런 사소한 불편함이 쌓이면 사용자는 감정적으로 제품을 싫어하게 됩니다. 반대로 로그인, 비밀번호 찾기 같은 기본적이지만 중요한 기능들을 지속적으로 개선하면 사용자와 긍정적인 감정적 연결을 만들 수 있습니다.
Q: '우산 기울이기(Tilting your umbrella)'라는 비유는 무엇인가요?
A: 비 오는 날 좁은 길을 걸을 때, 마주 오는 사람을 배려해 우산을 살짝 기울여주는 사람이 있고 그렇지 않은 사람이 있습니다. 대부분은 악의가 있어서가 아니라 그저 다른 사람에게 미칠 영향을 인지하지 못해서(oblivious) 그렇습니다. 제품 개발에서도 마찬가지입니다. 사용자의 불편함을 세심하게 배려하고 '우산을 기울여주는' 디테일이 쌓이면 사용자는 감정적인 연결을 느끼고 제품의 팬이 됩니다. 슬랙이 성장할 수 있었던 큰 이유 중 하나입니다.
Q: 슬랙에서 장인 정신을 발휘한 구체적인 사례가 있나요?
A:
1. 매직 링크(Magic Link): 모바일에서 복잡한 비밀번호를 입력하는 고통을 없애기 위해 이메일로 로그인 링크를 보내주는 방식을 도입했습니다.
2. 알림 설정 유도: 초기 사용자들은 메시지 알림을 못 받아서 불편해했습니다. 그래서 기본적으로 모든 알림을 켜두되, 메시지를 일정량 이상 받으면 "알림이 너무 많지 않나요? 추천 설정으로 바꾸시겠어요?"라고 물어보는 팝업을 띄웠습니다.
3. '소리치는 수탉(Shouty Rooster)': @here나 @channel 기능을 남발하는 것을 막기 위해, 많은 사람에게 알림이 갈 경우 "이 메시지는 8개 시간대에 있는 147명에게 알림을 보냅니다. 정말 보내시겠어요?"라고 묻는 수탉 이미지를 띄웠습니다.
4. 방해 금지 모드(Do Not Disturb): 관리자가 조직 전체의 기본 설정(예: 밤 10시~아침 8시 알림 끄기)을 정할 수 있게 하고, 개인이 이를 덮어쓸 수도 있게 하는 등 복잡하지만 섬세한 설정 로직을 구현했습니다.
Q: 마찰(Friction)을 줄이는 것보다 '이해(Comprehension)'를 돕는 게 더 중요하다고 하셨는데, 무슨 뜻인가요?
A: 티켓마스터에서 테일러 스위프트 티켓을 사는 것처럼 사용자의 의도가 확실하고 구체적일 때는 마찰이 있어도 어떻게든 구매합니다. 하지만 슬랙처럼 사용자가 "이게 뭐지?" 하고 호기심에 들어온 경우(의도가 낮은 경우)에는, 회원가입 절차를 빨리 끝내는 것(마찰 제거)보다 **"이 서비스가 무엇이고, 다음에 무슨 일이 일어날지"를 이해시키는 것(Comprehension)**이 훨씬 중요합니다.
클릭 수를 줄이는 것만이 능사가 아닙니다. 사용자가 "생각하지 않게(Don't Make Me Think)" 만드는 것이 핵심입니다. 클릭을 한 번 더 하더라도 각 단계가 명확하고 쉬우면 사용자는 훨씬 편안함을 느낍니다. 반대로 한 화면에 모든 걸 다 때려 박아서 선택장애를 일으키면 그게 더 나쁜 경험입니다.
Q: 구체적인 예시가 있나요?
A: 우버(Uber)의 초기 앱은 "어디로 가시나요?" 하나만 물어보고 나머지 모든 기능은 '기타' 메뉴에 넣었습니다. 사용자의 주된 의도를 정확히 파악하고 나머지를 숨겨서 고민을 없앤 훌륭한 예입니다. 반면, 아이폰 알람 설정의 '수면' 기능은 도대체 뭘 하는 기능인지 알 수가 없어서 대부분의 사용자가 쓰지 않습니다.
조직과 리더십 (Organization & Leadership)
Q: '파킨슨의 법칙(Parkinson's Law)'이 조직 운영에 주는 교훈은 무엇인가요?
A: "일은 그 완수를 위해 사용할 수 있는 시간을 채울 때까지 팽창한다"는 법칙입니다. 조직이 커지면 관리자가 늘어나고, 그들은 또 부하 직원을 뽑으려 합니다. 악의가 있어서가 아니라 조직 내에서 영향력을 키우기 위한 자연스러운 본능입니다. 문제는 이로 인해 '초현실적인 업무 유사 활동(Hyper-realistic work-like activities)'이 늘어난다는 점입니다.
Q: '초현실적인 업무 유사 활동'이란 무엇인가요?
A: 회의를 위한 회의, 보고서를 위한 보고서처럼 겉보기엔 진짜 일 같지만 실제로는 가치를 창출하지 않는 활동입니다. 리더는 구성원들이 이런 가짜 일에 빠지지 않고, '가치가 검증된 진짜 일(Known Valuable Work)'에 집중할 수 있도록 끊임없이 우선순위를 명확히 해줘야 합니다.
Q: "우리는 안장을 팔지 않습니다(We Don't Sell Saddles Here)"라는 메모는 어떤 배경에서 나왔나요?
A: 슬랙 출시 전, 8명 정도의 직원들에게 보낸 내부 메모입니다. 안장(제품 기능) 자체를 파는 게 아니라, 승마의 즐거움(고객이 얻을 결과와 가치)을 팔아야 한다는 내용입니다. 기능 나열이 아니라, 이 제품이 고객의 삶을 어떻게 변화시킬지를 커뮤니케이션해야 한다는 점을 강조했습니다.
Q: 피벗(Pivot)에 대한 조언을 해주신다면?
A: 피벗은 굴욕적이고 고통스러운 과정입니다. 하지만 감정을 배제하고 차갑고 이성적으로 판단해야 합니다. "우리가 가진 모든 합리적인 아이디어를 다 써봤는가?"를 자문해보세요. 글리치(게임)에서 슬랙으로 피벗할 때도, 게임을 살릴 수 있는 모든 방법을 다 써봤지만 안 된다는 결론에 도달했기에 미련 없이 전환할 수 있었습니다.
관대함과 가치 (Generosity & Value)
Q: 당신은 직원과 고객에게 매우 관대한(Generous) 리더로 알려져 있습니다. 의도적인 전략인가요, 천성인가요?
A: 천성적인 부분도 있지만, 게임 이론의 '죄수의 딜레마' 관점에서도 관대함은 유리한 전략입니다. 내가 먼저 협력(관대함)을 보여주면 상대방도 협력할 가능성이 높아지니까요.
슬랙에서는 "장기적으로 우리 성공의 척도는 고객을 위해 창출한 가치의 총량이다"라는 문구를 전사가 외치게 했습니다. 고객을 속이거나 단기 이익을 챙기는 건 결국 망하는 길입니다. 실제로 대규모 장애가 발생했을 때 약관보다 훨씬 큰 보상을 선제적으로 제공하기도 했습니다. 물론 상장 후에는 재무적 영향 때문에 약관을 수정해야 했지만요.
Q: 마지막으로 '주인의 망상(Owner's Delusion)'이란 무엇인가요?
A: 식당 주인이 자기 웹사이트에 감성적인 사진과 음악을 넣고 싶어 하는 것과 같습니다. 정작 고객은 주소, 전화번호, 메뉴, 영업시간만 빨리 알고 싶어 하거든요. 주인이 자기 제품에 너무 심취해서 고객의 실제 상황(급하고, 바쁘고, 정신없는 상태)을 망각하는 현상입니다. 항상 "내가 진짜 바쁜 고객이라면 이게 편할까?"를 자문해야 합니다.
https://youtu.be/kLe-zy5r0Mk
Q: 제품에서의 '취향(Taste)'을 어떻게 정의하시나요? 훈련될 수 있는 건가요?
A: 네, 요리사가 훈련을 통해 더 맛있는 음식을 만들 수 있듯이 취향도 훈련될 수 있습니다. 대부분의 사람들이 제품의 디테일에 신경 쓰지 않기 때문에, 여기에 투자하면 큰 경쟁 우위를 점할 수 있습니다. 제프 베조스가 "당신의 마진은 나의 기회다"라고 했듯이, 저는 "당신의 무심함(우산을 기울이지 않는 것)은 나의 기회다"라고 생각합니다.
Q: '거룩한 불만(Divine Discontent)'이라는 개념도 언급하셨는데, 어떤 의미인가요?
A: 사용자들이 제품에 익숙해지면 기대치가 올라갑니다. 그래서 유틸리티 커브의 기준선 자체가 계속 이동합니다. 끊임없이 개선하지 않으면 도태됩니다. 구글 캘린더의 시간대(Time zone) 선택 기능을 예로 들 수 있는데, 전 세계 시간대를 알파벳순으로만 나열해서 사용자가 원하는 시간대를 찾기 너무 어렵게 만들어놨습니다. 이런 사소한 불편함이 쌓이면 사용자는 감정적으로 제품을 싫어하게 됩니다. 반대로 로그인, 비밀번호 찾기 같은 기본적이지만 중요한 기능들을 지속적으로 개선하면 사용자와 긍정적인 감정적 연결을 만들 수 있습니다.
Q: '우산 기울이기(Tilting your umbrella)'라는 비유는 무엇인가요?
A: 비 오는 날 좁은 길을 걸을 때, 마주 오는 사람을 배려해 우산을 살짝 기울여주는 사람이 있고 그렇지 않은 사람이 있습니다. 대부분은 악의가 있어서가 아니라 그저 다른 사람에게 미칠 영향을 인지하지 못해서(oblivious) 그렇습니다. 제품 개발에서도 마찬가지입니다. 사용자의 불편함을 세심하게 배려하고 '우산을 기울여주는' 디테일이 쌓이면 사용자는 감정적인 연결을 느끼고 제품의 팬이 됩니다. 슬랙이 성장할 수 있었던 큰 이유 중 하나입니다.
Q: 슬랙에서 장인 정신을 발휘한 구체적인 사례가 있나요?
A:
1. 매직 링크(Magic Link): 모바일에서 복잡한 비밀번호를 입력하는 고통을 없애기 위해 이메일로 로그인 링크를 보내주는 방식을 도입했습니다.
2. 알림 설정 유도: 초기 사용자들은 메시지 알림을 못 받아서 불편해했습니다. 그래서 기본적으로 모든 알림을 켜두되, 메시지를 일정량 이상 받으면 "알림이 너무 많지 않나요? 추천 설정으로 바꾸시겠어요?"라고 물어보는 팝업을 띄웠습니다.
3. '소리치는 수탉(Shouty Rooster)': @here나 @channel 기능을 남발하는 것을 막기 위해, 많은 사람에게 알림이 갈 경우 "이 메시지는 8개 시간대에 있는 147명에게 알림을 보냅니다. 정말 보내시겠어요?"라고 묻는 수탉 이미지를 띄웠습니다.
4. 방해 금지 모드(Do Not Disturb): 관리자가 조직 전체의 기본 설정(예: 밤 10시~아침 8시 알림 끄기)을 정할 수 있게 하고, 개인이 이를 덮어쓸 수도 있게 하는 등 복잡하지만 섬세한 설정 로직을 구현했습니다.
Q: 마찰(Friction)을 줄이는 것보다 '이해(Comprehension)'를 돕는 게 더 중요하다고 하셨는데, 무슨 뜻인가요?
A: 티켓마스터에서 테일러 스위프트 티켓을 사는 것처럼 사용자의 의도가 확실하고 구체적일 때는 마찰이 있어도 어떻게든 구매합니다. 하지만 슬랙처럼 사용자가 "이게 뭐지?" 하고 호기심에 들어온 경우(의도가 낮은 경우)에는, 회원가입 절차를 빨리 끝내는 것(마찰 제거)보다 **"이 서비스가 무엇이고, 다음에 무슨 일이 일어날지"를 이해시키는 것(Comprehension)**이 훨씬 중요합니다.
클릭 수를 줄이는 것만이 능사가 아닙니다. 사용자가 "생각하지 않게(Don't Make Me Think)" 만드는 것이 핵심입니다. 클릭을 한 번 더 하더라도 각 단계가 명확하고 쉬우면 사용자는 훨씬 편안함을 느낍니다. 반대로 한 화면에 모든 걸 다 때려 박아서 선택장애를 일으키면 그게 더 나쁜 경험입니다.
Q: 구체적인 예시가 있나요?
A: 우버(Uber)의 초기 앱은 "어디로 가시나요?" 하나만 물어보고 나머지 모든 기능은 '기타' 메뉴에 넣었습니다. 사용자의 주된 의도를 정확히 파악하고 나머지를 숨겨서 고민을 없앤 훌륭한 예입니다. 반면, 아이폰 알람 설정의 '수면' 기능은 도대체 뭘 하는 기능인지 알 수가 없어서 대부분의 사용자가 쓰지 않습니다.
조직과 리더십 (Organization & Leadership)
Q: '파킨슨의 법칙(Parkinson's Law)'이 조직 운영에 주는 교훈은 무엇인가요?
A: "일은 그 완수를 위해 사용할 수 있는 시간을 채울 때까지 팽창한다"는 법칙입니다. 조직이 커지면 관리자가 늘어나고, 그들은 또 부하 직원을 뽑으려 합니다. 악의가 있어서가 아니라 조직 내에서 영향력을 키우기 위한 자연스러운 본능입니다. 문제는 이로 인해 '초현실적인 업무 유사 활동(Hyper-realistic work-like activities)'이 늘어난다는 점입니다.
Q: '초현실적인 업무 유사 활동'이란 무엇인가요?
A: 회의를 위한 회의, 보고서를 위한 보고서처럼 겉보기엔 진짜 일 같지만 실제로는 가치를 창출하지 않는 활동입니다. 리더는 구성원들이 이런 가짜 일에 빠지지 않고, '가치가 검증된 진짜 일(Known Valuable Work)'에 집중할 수 있도록 끊임없이 우선순위를 명확히 해줘야 합니다.
Q: "우리는 안장을 팔지 않습니다(We Don't Sell Saddles Here)"라는 메모는 어떤 배경에서 나왔나요?
A: 슬랙 출시 전, 8명 정도의 직원들에게 보낸 내부 메모입니다. 안장(제품 기능) 자체를 파는 게 아니라, 승마의 즐거움(고객이 얻을 결과와 가치)을 팔아야 한다는 내용입니다. 기능 나열이 아니라, 이 제품이 고객의 삶을 어떻게 변화시킬지를 커뮤니케이션해야 한다는 점을 강조했습니다.
Q: 피벗(Pivot)에 대한 조언을 해주신다면?
A: 피벗은 굴욕적이고 고통스러운 과정입니다. 하지만 감정을 배제하고 차갑고 이성적으로 판단해야 합니다. "우리가 가진 모든 합리적인 아이디어를 다 써봤는가?"를 자문해보세요. 글리치(게임)에서 슬랙으로 피벗할 때도, 게임을 살릴 수 있는 모든 방법을 다 써봤지만 안 된다는 결론에 도달했기에 미련 없이 전환할 수 있었습니다.
관대함과 가치 (Generosity & Value)
Q: 당신은 직원과 고객에게 매우 관대한(Generous) 리더로 알려져 있습니다. 의도적인 전략인가요, 천성인가요?
A: 천성적인 부분도 있지만, 게임 이론의 '죄수의 딜레마' 관점에서도 관대함은 유리한 전략입니다. 내가 먼저 협력(관대함)을 보여주면 상대방도 협력할 가능성이 높아지니까요.
슬랙에서는 "장기적으로 우리 성공의 척도는 고객을 위해 창출한 가치의 총량이다"라는 문구를 전사가 외치게 했습니다. 고객을 속이거나 단기 이익을 챙기는 건 결국 망하는 길입니다. 실제로 대규모 장애가 발생했을 때 약관보다 훨씬 큰 보상을 선제적으로 제공하기도 했습니다. 물론 상장 후에는 재무적 영향 때문에 약관을 수정해야 했지만요.
Q: 마지막으로 '주인의 망상(Owner's Delusion)'이란 무엇인가요?
A: 식당 주인이 자기 웹사이트에 감성적인 사진과 음악을 넣고 싶어 하는 것과 같습니다. 정작 고객은 주소, 전화번호, 메뉴, 영업시간만 빨리 알고 싶어 하거든요. 주인이 자기 제품에 너무 심취해서 고객의 실제 상황(급하고, 바쁘고, 정신없는 상태)을 망각하는 현상입니다. 항상 "내가 진짜 바쁜 고객이라면 이게 편할까?"를 자문해야 합니다.
https://youtu.be/kLe-zy5r0Mk
YouTube
Mental models for building products people love ft. Stewart Butterfield
Stewart Butterfield is the co-founder of Slack and Flickr, two of the most influential products in internet history. After selling Slack to Salesforce in one of tech’s biggest acquisitions, he’s been focused on family, philanthropy, and creative projects.…
'AI 맨해튼 프로젝트’ 기술 혁명에서 승리한 자가 다음 패권을 지배한다
'AI 맨해튼 프로젝트': 2차 대전 승리의 주역인 맨해튼 프로젝트에 비견되는 시급성과 규모로 국가적 AI 역량을 총동원.
목표: AI를 통한 과학적 발견 가속화, 경제 성장, 국가 안보 강화, 에너지 패권 확보.
제네시스 미션(Genesis Mission): 연방 정부의 방대한 데이터와 민관의 연구 자원을 통합하여 AI 기반 과학 혁신을 추진하는 국가 미션 출범.
주무 부처: 에너지부(DOE)가 미션의 이행 및 자원 통합을 책임짐.
총괄 리더십: 대통령 과학기술 보좌관(APST)이 국가과학기술위원회(NSTC)를 통해 범정부적 조정 및 지휘.
플랫폼 구축: 슈퍼컴퓨터, AI 모델링 도구, 파운데이션 모델, 연방 데이터셋 등을 통합 제공하는 보안 플랫폼 구축.
주요 일정:
90일 내: 가용 자원(컴퓨팅, 네트워크 등) 식별.
120일 내: 초기 데이터 및 모델 자산 식별 및 통합 계획 수립.
240일 내: AI 주도 실험/제조를 위한 로봇 연구소 역량 검토.
270일 내: 플랫폼 초기 운용 능력 시연.
6대 우선 분야: ①첨단 제조, ②생명공학, ③핵심 광물, ④원자력(핵분열/핵융합), ⑤양자 과학, ⑥반도체.
선정 절차: 60일 내 20개 이상의 과제 식별 후 지속적으로 확장 및 매년 업데이트.
https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission/
'AI 맨해튼 프로젝트': 2차 대전 승리의 주역인 맨해튼 프로젝트에 비견되는 시급성과 규모로 국가적 AI 역량을 총동원.
목표: AI를 통한 과학적 발견 가속화, 경제 성장, 국가 안보 강화, 에너지 패권 확보.
제네시스 미션(Genesis Mission): 연방 정부의 방대한 데이터와 민관의 연구 자원을 통합하여 AI 기반 과학 혁신을 추진하는 국가 미션 출범.
주무 부처: 에너지부(DOE)가 미션의 이행 및 자원 통합을 책임짐.
총괄 리더십: 대통령 과학기술 보좌관(APST)이 국가과학기술위원회(NSTC)를 통해 범정부적 조정 및 지휘.
플랫폼 구축: 슈퍼컴퓨터, AI 모델링 도구, 파운데이션 모델, 연방 데이터셋 등을 통합 제공하는 보안 플랫폼 구축.
주요 일정:
90일 내: 가용 자원(컴퓨팅, 네트워크 등) 식별.
120일 내: 초기 데이터 및 모델 자산 식별 및 통합 계획 수립.
240일 내: AI 주도 실험/제조를 위한 로봇 연구소 역량 검토.
270일 내: 플랫폼 초기 운용 능력 시연.
6대 우선 분야: ①첨단 제조, ②생명공학, ③핵심 광물, ④원자력(핵분열/핵융합), ⑤양자 과학, ⑥반도체.
선정 절차: 60일 내 20개 이상의 과제 식별 후 지속적으로 확장 및 매년 업데이트.
https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission/
The White House
Launching the Genesis Mission
By the authority vested in me as President by the Constitution and the laws of the United States of America, it is hereby ordered: Section 1. Purpose.
1. 현대 삶의 가장 위험한 망상
• 진정한 편안함은 지능에서 온다: 대부분의 사람들은 편안함이 소득에서 온다고 생각하지만, 이는 위험한 망상입니다. 돈을 아무리 많이 벌어도 스스로를 통제하지 못하면 결국 파산합니다.
• 어리석음을 능가하는 소득은 없다: 나쁜 소비 습관을 더 높은 수입으로 고칠 수는 없으며, 단지 실수만 더 키우게 될 뿐입니다.
• 절제는 해방이다: 소득 이하로 사는 것은 박탈이 아니라 해방입니다. 지출이 낮으면 시간을 통제하고, 어리석은 상황에서 벗어날 수 있는 능력, 즉 진정한 자유를 얻게 됩니다.
• 자유보다 인정을 원하는 사람들: 사람들은 부유하게 보이는 것을 부유하게 사는 것보다 선호하며, 남들에게 깊은 인상을 주기 위해 수십 년의 평화를 맞바꿉니다.
2. 월 지출의 쳇바퀴에서 벗어나기
• 조용한 덫, 의무의 공장: 현대 생활은 의무를 만들어내는 공장과 같습니다. '합리적'이라고 느껴지는 모든 추가 고정 지출의 합이 결국 재정적 파멸을 가져올 수 있습니다.
• 승리하는 유일한 방법은 멈추는 것: 이 소비의 쳇바퀴에서 이기는 유일한 방법은 내리는 것입니다. 이는 의도적인 단순함(Clarity)을 선택함으로써 가능합니다.
• 안전 마진 구축: 부자들은 안전 마진(Margin of Safety)을 만듭니다. 이를 구축하는 첫 번째 방법은 더 많이 버는 것이 아니라 빚을 덜 지는 것입니다. 지출이 낮으면 인내력이 높아지고, 삶이 어려워질 때 거절할 수 있는 능력이 생깁니다.
3. 지출을 통제하고 부를 축적하는 원칙
• 예산 관리는 자존감이다: 예산 관리는 미래의 자신에게 "내가 당신을 망치지 않을 것"이라고 말하는 자존감입니다.
• 명확한 비전이 절약을 가능하게 한다: 지출을 측정하려 하지 않으면 고칠 수 없습니다. 수입에서 지출을 뺀 간단한 리스트를 만들고, 일단 명확하게 보이면 잔혹할 정도로 불필요한 것을 잘라낼 수 있습니다.
• 잊어버린 구독을 취소하고, 아직 작동하는 물건을 업그레이드하지 마십시오.
• 필요하지 않은 물건에 대한 할인은 여전히 낭비입니다.
• 부를 이루는 간단한 원칙: 덜 쓰고, 나머지를 투자하고, 오랫동안 반복하는 것이 부의 전부입니다. 이는 훈련(Discipline)을 필요로 하기 때문에 쉽지 않을 뿐입니다.
• 복리의 마법: 복리는 세계 8대 불가사의입니다. 수입의 절반으로 생활하고 나머지를 투자하는 규칙을 평생 지키면, 복리로 쌓인 작은 흑자가 결국 큰 월급을 탕진한 사람을 이깁니다.
4. 예상치 못한 돈을 대하는 태도
• 재정적 성숙도를 보여주는 척도: 보너스나 환급금 등 예상치 못한 돈을 처리하는 방식이 당신의 재정적 성숙도를 보여줍니다. 계획 없이 낭비하면 충동적인 것이고, 계획하면 미래를 건설하는 것입니다.
• 조용히 쌓이는 돈 vs. 소란스럽게 사라지는 돈: 성공을 맛본 사람들은 즉시 이를 광고하고 싶어 합니다. 조용한 돈은 복리로 쌓이지만, 시끄러운 돈은 결국 사라집니다.
5. 합리적인 소비와 조사(Research)의 중요성
• 24시간 규칙: 충동적인 구매를 막기 위한 간단한 규칙은 원하는 물건을 그날 사지 않고 24시간을 기다리는 것입니다. 대부분의 욕망은 이성보다 빨리 증발합니다.
• 자신에게 투자하라: 가치가 복리로 쌓이는 교육, 건강, 관계에 투자하십시오. 이 외의 모든 것은 손대는 순간 감가상각됩니다.
• 무지함은 값비싼 사치: 사람들은 시간을 아끼려 하지만, 지능을 편의와 맞바꾸는 것은 돈에 있어서 매우 값비싼 사치입니다.
• 구매는 투자 결정이다: 모든 구매는 투자 결정이며, 가치를 이해하지 못한다면 도박하는 것과 같습니다. 조사를 게을리하면 무지에 대해 돈과 후회로 두 번 비용을 지불합니다.
6. 유지 관리(Maintenance)의 철학
• 진정한 부는 보존에 있다: 진정한 부는 축적이 아니라, 이미 가진 것을 살아있게 유지하는 보존에 관한 것입니다.
• 예방은 수리보다 저렴하다: 예방적 관리는 삶의 모든 영역에서 수리보다 훨씬 저렴합니다.
• 태만은 이자보다 빠르게 복리로 쌓인다: 당신의 일은 끊임없이 새로운 것을 쫓는 것이 아니라, 이미 작동하고 있는 것들이 제 기능을 유지하도록 확실히 하는 것입니다.
7. 합리적인 삶의 핵심: 우선순위
• 빼기에서 평화가 온다: 편안한 삶은 더하는 것이 아니라 빼는 것으로 만들어집니다. 불필요한 것을 빼고, 부러움을 빼고, 소음을 빼십시오. 남는 것이 바로 당신의 평화입니다.
• 당신의 나침반, '가치 있는 다섯 가지': 당신의 삶을 진정으로 개선하는 다섯 가지를 정하십시오. 이 외의 모든 것은 방해 요소입니다.
• 가장 부유한 사람: 세상에서 가장 부유한 사람은 가장 많이 가진 사람이 아니라, 완전히 평온하게 "나는 이미 충분히 가지고 있다"고 말할 수 있는 사람입니다. 그것이 자유이고, 부이며, 합리적인 삶입니다.
https://youtu.be/1ET-_h_y8Ek?si=lcxLsCGZa2nHh42d
• 진정한 편안함은 지능에서 온다: 대부분의 사람들은 편안함이 소득에서 온다고 생각하지만, 이는 위험한 망상입니다. 돈을 아무리 많이 벌어도 스스로를 통제하지 못하면 결국 파산합니다.
• 어리석음을 능가하는 소득은 없다: 나쁜 소비 습관을 더 높은 수입으로 고칠 수는 없으며, 단지 실수만 더 키우게 될 뿐입니다.
• 절제는 해방이다: 소득 이하로 사는 것은 박탈이 아니라 해방입니다. 지출이 낮으면 시간을 통제하고, 어리석은 상황에서 벗어날 수 있는 능력, 즉 진정한 자유를 얻게 됩니다.
• 자유보다 인정을 원하는 사람들: 사람들은 부유하게 보이는 것을 부유하게 사는 것보다 선호하며, 남들에게 깊은 인상을 주기 위해 수십 년의 평화를 맞바꿉니다.
2. 월 지출의 쳇바퀴에서 벗어나기
• 조용한 덫, 의무의 공장: 현대 생활은 의무를 만들어내는 공장과 같습니다. '합리적'이라고 느껴지는 모든 추가 고정 지출의 합이 결국 재정적 파멸을 가져올 수 있습니다.
• 승리하는 유일한 방법은 멈추는 것: 이 소비의 쳇바퀴에서 이기는 유일한 방법은 내리는 것입니다. 이는 의도적인 단순함(Clarity)을 선택함으로써 가능합니다.
• 안전 마진 구축: 부자들은 안전 마진(Margin of Safety)을 만듭니다. 이를 구축하는 첫 번째 방법은 더 많이 버는 것이 아니라 빚을 덜 지는 것입니다. 지출이 낮으면 인내력이 높아지고, 삶이 어려워질 때 거절할 수 있는 능력이 생깁니다.
3. 지출을 통제하고 부를 축적하는 원칙
• 예산 관리는 자존감이다: 예산 관리는 미래의 자신에게 "내가 당신을 망치지 않을 것"이라고 말하는 자존감입니다.
• 명확한 비전이 절약을 가능하게 한다: 지출을 측정하려 하지 않으면 고칠 수 없습니다. 수입에서 지출을 뺀 간단한 리스트를 만들고, 일단 명확하게 보이면 잔혹할 정도로 불필요한 것을 잘라낼 수 있습니다.
• 잊어버린 구독을 취소하고, 아직 작동하는 물건을 업그레이드하지 마십시오.
• 필요하지 않은 물건에 대한 할인은 여전히 낭비입니다.
• 부를 이루는 간단한 원칙: 덜 쓰고, 나머지를 투자하고, 오랫동안 반복하는 것이 부의 전부입니다. 이는 훈련(Discipline)을 필요로 하기 때문에 쉽지 않을 뿐입니다.
• 복리의 마법: 복리는 세계 8대 불가사의입니다. 수입의 절반으로 생활하고 나머지를 투자하는 규칙을 평생 지키면, 복리로 쌓인 작은 흑자가 결국 큰 월급을 탕진한 사람을 이깁니다.
4. 예상치 못한 돈을 대하는 태도
• 재정적 성숙도를 보여주는 척도: 보너스나 환급금 등 예상치 못한 돈을 처리하는 방식이 당신의 재정적 성숙도를 보여줍니다. 계획 없이 낭비하면 충동적인 것이고, 계획하면 미래를 건설하는 것입니다.
• 조용히 쌓이는 돈 vs. 소란스럽게 사라지는 돈: 성공을 맛본 사람들은 즉시 이를 광고하고 싶어 합니다. 조용한 돈은 복리로 쌓이지만, 시끄러운 돈은 결국 사라집니다.
5. 합리적인 소비와 조사(Research)의 중요성
• 24시간 규칙: 충동적인 구매를 막기 위한 간단한 규칙은 원하는 물건을 그날 사지 않고 24시간을 기다리는 것입니다. 대부분의 욕망은 이성보다 빨리 증발합니다.
• 자신에게 투자하라: 가치가 복리로 쌓이는 교육, 건강, 관계에 투자하십시오. 이 외의 모든 것은 손대는 순간 감가상각됩니다.
• 무지함은 값비싼 사치: 사람들은 시간을 아끼려 하지만, 지능을 편의와 맞바꾸는 것은 돈에 있어서 매우 값비싼 사치입니다.
• 구매는 투자 결정이다: 모든 구매는 투자 결정이며, 가치를 이해하지 못한다면 도박하는 것과 같습니다. 조사를 게을리하면 무지에 대해 돈과 후회로 두 번 비용을 지불합니다.
6. 유지 관리(Maintenance)의 철학
• 진정한 부는 보존에 있다: 진정한 부는 축적이 아니라, 이미 가진 것을 살아있게 유지하는 보존에 관한 것입니다.
• 예방은 수리보다 저렴하다: 예방적 관리는 삶의 모든 영역에서 수리보다 훨씬 저렴합니다.
• 태만은 이자보다 빠르게 복리로 쌓인다: 당신의 일은 끊임없이 새로운 것을 쫓는 것이 아니라, 이미 작동하고 있는 것들이 제 기능을 유지하도록 확실히 하는 것입니다.
7. 합리적인 삶의 핵심: 우선순위
• 빼기에서 평화가 온다: 편안한 삶은 더하는 것이 아니라 빼는 것으로 만들어집니다. 불필요한 것을 빼고, 부러움을 빼고, 소음을 빼십시오. 남는 것이 바로 당신의 평화입니다.
• 당신의 나침반, '가치 있는 다섯 가지': 당신의 삶을 진정으로 개선하는 다섯 가지를 정하십시오. 이 외의 모든 것은 방해 요소입니다.
• 가장 부유한 사람: 세상에서 가장 부유한 사람은 가장 많이 가진 사람이 아니라, 완전히 평온하게 "나는 이미 충분히 가지고 있다"고 말할 수 있는 사람입니다. 그것이 자유이고, 부이며, 합리적인 삶입니다.
https://youtu.be/1ET-_h_y8Ek?si=lcxLsCGZa2nHh42d
YouTube
How To Escape The Poverty Mindset - And Live on an Extremely Low Income
How To Escape The Poverty Mindset - And Live on an Extremely Low Income
Comfort isn’t bought with income—it’s built with restraint, clarity, and systems. In this Charlie-Munger-style breakdown, you’ll learn why keeping your bills low beats chasing a bigger…
Comfort isn’t bought with income—it’s built with restraint, clarity, and systems. In this Charlie-Munger-style breakdown, you’ll learn why keeping your bills low beats chasing a bigger…
❤4👍2
Frontier Labs들이 거대한 강화학습 체육관과 큰 컴퓨터로 새로운 기능들을 제공하는 것 만으로도 사회에 엄청 큰 변화가 생기고 있다. 12년부터 Ilya는 OpenAI에서 딥러닝의 교주로 Scaling이 돌파구라는 것을 알아냈고 Scaling의 시대가 왔다. 모두가 같은 레이스를 할 때 Ilya는 스케일링 Law가 끝나는 새로운 세상을 보고 있다. 일리아도 안드레도 인간이 학습 혹은 진화로 가지게 된 특별한 능력 (계속 학습할 수 있는 능력, 생존을 위한 가치 함수)을 반영한 시스템은 아직 만들어지지 않았다고 보고 그 무언가를 만들고 있다.
모델의 불균형성
모델들이 경제적 영향력에 비해 겉보기엔 더 똑똑해 보이는 것 같은데요. 평가(evals)에서는 그렇게 잘하는데, 이 사실을 어떻게 받아들여야 할까요?
예를 들어 '바이브 코딩(vibe coding)'으로 뭔가 한다고 칩시다. 버그가 생겼어요. 모델에게 "이 버그 좀 고쳐줄래?"라고 합니다. 모델은 "어머 세상에, 당신 말이 딱 맞아요. 버그가 있네요. 고칠게요."라고 하고선 두 번째 버그를 만듭니다. 그래서 "새로운 두 번째 버그가 생겼어"라고 하면, "어머 세상에, 제가 왜 그랬죠? 또 맞으셨어요"라며 다시 첫 번째 버그를 가져옵니다. 이 둘 사이를 계속 오가죠. 어떻게 이게 가능할까요?
두 가지 가능한 설명이 있습니다. 좀 더 엉뚱한 설명은 강화 학습(RL) 훈련이 모델을 너무 외골수(single-minded)로 만들고 시야를 좁게 만들어서, 어떤 면에서는 똑똑해지지만 기본적이고 뻔한 것들을 인지하지 못하게 만든다는 겁니다.
하지만 다른 설명도 있습니다. 예전에 사전 학습(pre-training)을 할 때는 '어떤 데이터로 훈련할까'에 대한 답이 정해져 있었습니다. 답은 '모든 것'이었으니까요. 사전 학습을 할 때는 모든 데이터가 필요하죠. 그래서 이 데이터냐 저 데이터냐 고민할 필요가 없습니다. 하지만 RL 훈련을 할 때는 생각을 해야 합니다. "이 작업을 위해 이런 RL을, 저 작업을 위해 저런 RL을 해야지"라고요. 듣기로는 모든 회사에 새로운 RL 환경을 만들어 훈련 믹스에 추가하는 팀들이 있다고 합니다. 문제는 그게 뭐냐는 겁니다. 자유도가 너무 높고 만들 수 있는 환경이 너무 다양하죠.
여기서 무심코 행해지는 일 중 하나가 사람들이 '평가(evals)'에서 영감을 얻는 것입니다. "출시 때 모델 성능이 정말 좋았으면 좋겠어. 평가 점수가 잘 나오게 하려면 어떤 RL 훈련이 도움이 될까?"라고 생각하는 거죠. 저는 이런 일이 실제로 일어나고 있고, 이것이 많은 것을 설명해 줄 수 있다고 봅니다.
이것이 모델의 실제 일반화 능력 부족과 결합되면, 평가 점수와 실제 성능 사이의 괴리, 즉 우리가 오늘날 제대로 이해조차 못 하고 있는 이 현상을 설명할 수 있습니다.
Q: 저는 '진짜 보상 해킹(reward hacking)'을 하는 주체가 평가 지표에 너무 집중한 인간 연구자들이라는 아이디어가 마음에 드네요.하나는, 단순히 코딩 대회에서 초인적인 능력을 발휘한다고 해서 모델이 자동으로 코드를 개선하는 데 있어 더 좋은 취향과 판단력을 갖게 되는 건 아니라는 점입니다. 그렇다면 단순히 코딩 대회 성적만 테스트할 게 아니라, X나 Y, Z 같은 애플리케이션을 최적으로 만드는 능력도 테스트할 수 있도록 환경의 종류를 확장해야 합니다. 다른 하나는, 아마 당신이 암시하는 것일 수도 있는데, "애초에 왜 코딩 대회에서 초인적이 되는 것이 전반적으로 더 감각 있는 프로그래머가 되는 것으로 이어지지 않는가?"라고 묻는 것입니다. 어쩌면 환경의 양과 다양성을 계속 쌓을 게 아니라, 한 환경에서 배워서 다른 무언가에서 성능을 향상시키는 접근 방식을 찾아야 할지도 모릅니다.
A: 인간에 빗대어 도움이 될 만한 비유가 있습니다. 언급하신 경쟁 프로그래밍(Competitive Programming)을 예로 들어보죠. 두 학생이 있다고 칩시다. 한 명은 최고의 경쟁 프로그래머가 되기로 결심하고 그 분야에 1만 시간을 투자합니다. 모든 문제를 풀고, 증명 기법을 암기하고, 모든 알고리즘을 빠르고 정확하게 구현하는 데 매우 숙련됩니다. 그렇게 해서 최고 중 하나가 되었습니다. 두 번째 학생은 "오, 경쟁 프로그래밍 멋지네" 하고 100시간 정도만, 훨씬 적게 연습했지만 꽤 잘합니다. 나중에 커리어에서 누가 더 잘할까요?
두 번째 학생이겠죠.
맞습니다. 제 생각엔 지금 벌어지고 있는 일이 기본적으로 그렇습니다. 모델들은 첫 번째 학생과 훨씬 비슷하지만, 그 정도가 더 심합니다. 우리는 "모델이 경쟁 프로그래밍을 잘해야 해. 그러니 모든 경쟁 프로그래밍 문제를 다 가져와. 그리고 데이터 증강(data augmentation)을 해서 더 많은 문제를 만들고 훈련시켜."라고 합니다. 그러면 훌륭한 경쟁 프로그래머가 탄생하죠.
이 비유를 드니 더 직관적이네요. 네, 그렇게 훈련받았다면 모든 알고리즘과 증명 기법이 손끝에 있겠죠. 그리고 이런 수준의 준비 방식으로는 다른 분야로 반드시 일반화되지 않을 것이라는 점도 더 직관적으로 다가옵니다.
Q: 그렇다면 두 번째 학생이 100시간의 미세 조정(fine-tuning)을 하기 전에 하고 있는 것에 해당하는 비유는 무엇인가요?
그들에게는 "그것(it)"이 있습니다. "It" 팩터죠. 제가 학부생일 때 같이 공부하던 학생 중에 그런 친구가 있어서 실제로 존재한다는 걸 압니다.
Q: "그것"을 사전 학습(pre-training)이 하는 역할과 구별하는 게 흥미롭네요. 아까 사전 학습 때는 데이터를 고를 필요가 없다고 하신 말씀을 이해하는 한 가지 방법은, 그것이 사실 1만 시간의 연습과 다르지 않다고 보는 겁니다. 단지 그 1만 시간의 연습이 사전 학습 분포 어딘가에 이미 들어있기 때문에 공짜로 얻는다는 점만 다를 뿐이죠. 하지만 당신은 사전 학습에서 얻는 일반화가 실제로는 그리 크지 않다고 시사하는 건가요? 사전 학습에 데이터가 엄청나게 많지만, 반드시 RL보다 더 나은 일반화를 보장하는 건 아니라고요?
A: 사전 학습의 주된 강점은 A: 양이 엄청나게 많다는 것, B: 어떤 데이터를 넣을지 깊게 고민할 필요가 없다는 것입니다. 매우 자연스러운 데이터이고, 사람들이 하는 많은 것들, 즉 사람들의 생각과 특징들이 포함되어 있습니다. 사람들이 텍스트로 투영한 전 세계와 같은 것이고, 사전 학습은 방대한 데이터를 사용해 그것을 포착하려고 합니다.
사전 학습은 추론하기가 매우 어렵습니다. 모델이 사전 학습 데이터에 의존하는 방식을 이해하기 너무 어렵기 때문입니다. 모델이 실수를 할 때마다, 우연히 사전 학습 데이터에 의해 덜 지지받았기 때문일까요? "사전 학습에 의한 지지"라는 말도 좀 모호한 표현이긴 합니다만. 이 부분에 대해 더 유용한 말을 덧붙일 수 있을지 모르겠네요.
모델의 불균형성
모델들이 경제적 영향력에 비해 겉보기엔 더 똑똑해 보이는 것 같은데요. 평가(evals)에서는 그렇게 잘하는데, 이 사실을 어떻게 받아들여야 할까요?
예를 들어 '바이브 코딩(vibe coding)'으로 뭔가 한다고 칩시다. 버그가 생겼어요. 모델에게 "이 버그 좀 고쳐줄래?"라고 합니다. 모델은 "어머 세상에, 당신 말이 딱 맞아요. 버그가 있네요. 고칠게요."라고 하고선 두 번째 버그를 만듭니다. 그래서 "새로운 두 번째 버그가 생겼어"라고 하면, "어머 세상에, 제가 왜 그랬죠? 또 맞으셨어요"라며 다시 첫 번째 버그를 가져옵니다. 이 둘 사이를 계속 오가죠. 어떻게 이게 가능할까요?
두 가지 가능한 설명이 있습니다. 좀 더 엉뚱한 설명은 강화 학습(RL) 훈련이 모델을 너무 외골수(single-minded)로 만들고 시야를 좁게 만들어서, 어떤 면에서는 똑똑해지지만 기본적이고 뻔한 것들을 인지하지 못하게 만든다는 겁니다.
하지만 다른 설명도 있습니다. 예전에 사전 학습(pre-training)을 할 때는 '어떤 데이터로 훈련할까'에 대한 답이 정해져 있었습니다. 답은 '모든 것'이었으니까요. 사전 학습을 할 때는 모든 데이터가 필요하죠. 그래서 이 데이터냐 저 데이터냐 고민할 필요가 없습니다. 하지만 RL 훈련을 할 때는 생각을 해야 합니다. "이 작업을 위해 이런 RL을, 저 작업을 위해 저런 RL을 해야지"라고요. 듣기로는 모든 회사에 새로운 RL 환경을 만들어 훈련 믹스에 추가하는 팀들이 있다고 합니다. 문제는 그게 뭐냐는 겁니다. 자유도가 너무 높고 만들 수 있는 환경이 너무 다양하죠.
여기서 무심코 행해지는 일 중 하나가 사람들이 '평가(evals)'에서 영감을 얻는 것입니다. "출시 때 모델 성능이 정말 좋았으면 좋겠어. 평가 점수가 잘 나오게 하려면 어떤 RL 훈련이 도움이 될까?"라고 생각하는 거죠. 저는 이런 일이 실제로 일어나고 있고, 이것이 많은 것을 설명해 줄 수 있다고 봅니다.
이것이 모델의 실제 일반화 능력 부족과 결합되면, 평가 점수와 실제 성능 사이의 괴리, 즉 우리가 오늘날 제대로 이해조차 못 하고 있는 이 현상을 설명할 수 있습니다.
Q: 저는 '진짜 보상 해킹(reward hacking)'을 하는 주체가 평가 지표에 너무 집중한 인간 연구자들이라는 아이디어가 마음에 드네요.하나는, 단순히 코딩 대회에서 초인적인 능력을 발휘한다고 해서 모델이 자동으로 코드를 개선하는 데 있어 더 좋은 취향과 판단력을 갖게 되는 건 아니라는 점입니다. 그렇다면 단순히 코딩 대회 성적만 테스트할 게 아니라, X나 Y, Z 같은 애플리케이션을 최적으로 만드는 능력도 테스트할 수 있도록 환경의 종류를 확장해야 합니다. 다른 하나는, 아마 당신이 암시하는 것일 수도 있는데, "애초에 왜 코딩 대회에서 초인적이 되는 것이 전반적으로 더 감각 있는 프로그래머가 되는 것으로 이어지지 않는가?"라고 묻는 것입니다. 어쩌면 환경의 양과 다양성을 계속 쌓을 게 아니라, 한 환경에서 배워서 다른 무언가에서 성능을 향상시키는 접근 방식을 찾아야 할지도 모릅니다.
A: 인간에 빗대어 도움이 될 만한 비유가 있습니다. 언급하신 경쟁 프로그래밍(Competitive Programming)을 예로 들어보죠. 두 학생이 있다고 칩시다. 한 명은 최고의 경쟁 프로그래머가 되기로 결심하고 그 분야에 1만 시간을 투자합니다. 모든 문제를 풀고, 증명 기법을 암기하고, 모든 알고리즘을 빠르고 정확하게 구현하는 데 매우 숙련됩니다. 그렇게 해서 최고 중 하나가 되었습니다. 두 번째 학생은 "오, 경쟁 프로그래밍 멋지네" 하고 100시간 정도만, 훨씬 적게 연습했지만 꽤 잘합니다. 나중에 커리어에서 누가 더 잘할까요?
두 번째 학생이겠죠.
맞습니다. 제 생각엔 지금 벌어지고 있는 일이 기본적으로 그렇습니다. 모델들은 첫 번째 학생과 훨씬 비슷하지만, 그 정도가 더 심합니다. 우리는 "모델이 경쟁 프로그래밍을 잘해야 해. 그러니 모든 경쟁 프로그래밍 문제를 다 가져와. 그리고 데이터 증강(data augmentation)을 해서 더 많은 문제를 만들고 훈련시켜."라고 합니다. 그러면 훌륭한 경쟁 프로그래머가 탄생하죠.
이 비유를 드니 더 직관적이네요. 네, 그렇게 훈련받았다면 모든 알고리즘과 증명 기법이 손끝에 있겠죠. 그리고 이런 수준의 준비 방식으로는 다른 분야로 반드시 일반화되지 않을 것이라는 점도 더 직관적으로 다가옵니다.
Q: 그렇다면 두 번째 학생이 100시간의 미세 조정(fine-tuning)을 하기 전에 하고 있는 것에 해당하는 비유는 무엇인가요?
그들에게는 "그것(it)"이 있습니다. "It" 팩터죠. 제가 학부생일 때 같이 공부하던 학생 중에 그런 친구가 있어서 실제로 존재한다는 걸 압니다.
Q: "그것"을 사전 학습(pre-training)이 하는 역할과 구별하는 게 흥미롭네요. 아까 사전 학습 때는 데이터를 고를 필요가 없다고 하신 말씀을 이해하는 한 가지 방법은, 그것이 사실 1만 시간의 연습과 다르지 않다고 보는 겁니다. 단지 그 1만 시간의 연습이 사전 학습 분포 어딘가에 이미 들어있기 때문에 공짜로 얻는다는 점만 다를 뿐이죠. 하지만 당신은 사전 학습에서 얻는 일반화가 실제로는 그리 크지 않다고 시사하는 건가요? 사전 학습에 데이터가 엄청나게 많지만, 반드시 RL보다 더 나은 일반화를 보장하는 건 아니라고요?
A: 사전 학습의 주된 강점은 A: 양이 엄청나게 많다는 것, B: 어떤 데이터를 넣을지 깊게 고민할 필요가 없다는 것입니다. 매우 자연스러운 데이터이고, 사람들이 하는 많은 것들, 즉 사람들의 생각과 특징들이 포함되어 있습니다. 사람들이 텍스트로 투영한 전 세계와 같은 것이고, 사전 학습은 방대한 데이터를 사용해 그것을 포착하려고 합니다.
사전 학습은 추론하기가 매우 어렵습니다. 모델이 사전 학습 데이터에 의존하는 방식을 이해하기 너무 어렵기 때문입니다. 모델이 실수를 할 때마다, 우연히 사전 학습 데이터에 의해 덜 지지받았기 때문일까요? "사전 학습에 의한 지지"라는 말도 좀 모호한 표현이긴 합니다만. 이 부분에 대해 더 유용한 말을 덧붙일 수 있을지 모르겠네요.
로봇에서도 사람처럼 움직이기 위해서 바로 다음 턴이 아니라 청크로 묶어서 학습시켰더니 자연스럽게 움직이는 연구(ACT)가 있었는데 강화학습 과정에 나오는 궤적을 학습에 사용한다면 그것이 사람이 가진 가치함수를 모방할 수 있지 않을까? 이전에 안드레는 이 과정이 굉장히 복잡하고 어렵다고 이야기했었는데, 일리아는 어렵지만 딥러닝이 못할 건 없다라는 생각을 하고 있고, SSI에서 이 방향의 무언가를 하고 있지 않을까?
감정과 가치함수
Q: 사전 학습에 대한 인간의 유추 대상(analog)은 없다고 생각하시나요? 사람들이 제안한 유추 대상들이 있습니다. 하나는 경제적으로 생산적이지 않지만 세상을 더 잘 이해하게 되는 인간의 첫 18년, 15년, 혹은 13년을 생각하는 것입니다. 다른 하나는 30억 년 동안의 진화 과정이 탐색을 수행하고 그 결과로 인간의 생애라는 인스턴스가 나온다고 보는 것입니다. 이 중 어느 것이 사전 학습과 유사하다고 보시나요? 사전 학습이 아니라면 인간의 평생 학습은 무엇과 같다고 생각하십니까?
A: 둘 다 사전 학습과 어느 정도 유사점이 있고, 사전 학습이 이 두 가지 역할을 모두 수행하려고 한다고 생각합니다. 하지만 큰 차이점들도 있습니다. 사전 학습 데이터의 양은 정말, 정말 엄청납니다.
그런데 인간은 15년 동안 사전 학습 데이터의 아주 작은 부분만 보고도 무언가 훨씬 덜 알긴 하지만, 아는 것에 대해서는 훨씬 더 깊이 있게 압니다. 이미 그 나이에는 우리 AI들이 저지르는 실수를 하지 않죠.
또 다른 점이 있습니다. 진화와 비슷한가? 라고 묻는다면 답은 '아마도'입니다. 하지만 이 경우엔 진화가 더 우위에 있을 수 있습니다.
제가 읽은 사례가 하나 기억나는데요. 신경과학자들이 뇌에 대해 배우는 방법 중 하나는 뇌의 특정 부위가 손상된 사람들을 연구하는 것입니다. 상상할 수 있는 가장 기이한 증상을 가진 사람들이 있는데, 정말 흥미롭습니다. 관련 있는 사례 하나가 떠오릅니다. 어떤 뇌 손상, 뇌졸중이나 사고로 감정 처리 능력을 잃은 사람에 대한 글을 읽었습니다. 그래서 그는 아무런 감정도 느끼지 못하게 됐죠.
그는 여전히 말을 아주 잘하고 작은 퍼즐도 풀 수 있고 테스트상으로는 멀쩡해 보였습니다. 하지만 감정이 없었습니다. 슬픔도, 분노도, 활기도 느끼지 못했죠. 그런데 그는 어떤 결정을 내리는 데 있어 극도로 무능해졌습니다. 어떤 양말을 신을지 결정하는 데 몇 시간이 걸리고, 아주 형편없는 재무 결정을 내리게 되었습니다.
이것은 우리의 타고난 감정이 우리가 생존 가능한 에이전트(viable agent)가 되는 데 어떤 역할을 하는지 말해줍니다. 당신의 사전 학습 질문과 연결하자면, 만약 사전 학습에서 모든 것을 뽑아내는 데 충분히 능숙하다면 그런 것도 얻을 수 있을지도 모릅니다. 하지만 그건... 글쎄요, 사전 학습에서 얻을 수 있을 수도 있고 없을 수도 있습니다.
Q: 그 "무언가"가 무엇인가요? 단순히 감정 그 자체는 아닐 테고요. 어떤 결정에 대한 최종 보상이 무엇이어야 하는지 알려주는, 거의 가치 함수(value function) 같은 것 같아 보이는데요.
네, 그것이 사전 학습에서 암묵적으로 나올 것이라고 생각하지 않으시나요? 나올 수도 있다고 생각합니다. 단지 100% 확실하지 않다는 것뿐입니다.
Q: 하지만 그게 뭐죠? 감정을 어떻게 생각하십니까? 감정에 대한 ML(기계학습)의 유추 대상은 무엇입니까?
일종의 가치 함수 같은 것이어야겠죠. 하지만 훌륭한 ML 유추 대상은 없다고 봅니다. 지금 당장은 사람들이 하는 작업에서 가치 함수가 아주 두드러진 역할을 하지 않기 때문입니다.
Q: 청중을 위해 가치 함수가 무엇인지 정의해 주실 수 있나요?
물론입니다. 기꺼이 설명해 드리죠. 사람들이 강화 학습(RL)을 할 때, 지금 RL이 수행되는 방식, 즉 순진하게(naively) 훈련하는 방식은 이렇습니다. 신경망에 문제를 주고 "풀어봐"라고 합니다. 모델은 수천, 수십만 번의 행동이나 생각 같은 것을 거쳐 해결책을 내놓습니다. 그 해결책이 채점됩니다. 그리고 그 점수는 궤적(trajectory)에 있는 모든 단일 행동에 훈련 신호를 주는 데 사용됩니다.
즉, 해결하는 데 오랜 시간이 걸리는 작업을 훈련한다면, 제안된 해결책이 나올 때까지는 아무런 학습도 일어나지 않는다는 뜻입니다. 이것이 강화 학습이 순진하게 수행되는 방식이고, o1이나 R1이 표면적으로 수행되는 방식입니다.
가치 함수는 "내가 항상은 아니지만 가끔은 네가 잘하고 있는지 못하고 있는지 말해줄 수 있어"라고 하는 것과 같습니다. 가치 함수의 개념은 어떤 영역에서는 다른 영역보다 더 유용합니다. 예를 들어 체스를 둘 때 말을 잃으면, "망했네"라고 알 수 있죠. 게임이 끝날 때까지 갈 필요 없이 방금 한 행동이 나빴고, 그 이전의 행동들도 나빴다는 걸 알 수 있습니다. 가치 함수는 맨 끝까지 기다리는 시간을 단축(short-circuit)시켜 줍니다.
수학이나 프로그래밍 같은 것을 한다고 가정해 봅시다. 특정 해결책이나 방향을 탐색하고 있습니다. 1000단계를 생각한 끝에 이 방향은 가망이 없다고 결론 내렸습니다. 이 결론을 내리자마자, 당신은 이미 1000 타임스텝 전에 이 길을 가기로 결정했을 때에 대한 보상 신호를 얻을 수 있습니다. 실제로 제안된 해결책을 내놓기 훨씬 전에 "다음번엔 비슷한 상황에서 이 길로 가지 말아야지"라고 말할 수 있는 거죠.
Q: 딥시크(DeepSeek) R1 논문에서는 궤적의 공간이 너무 넓어서 중간 궤적에서 가치로 매핑하는 것을 학습하기 어려울 수 있다고 했습니다. 또 코딩에서는 잘못된 아이디어를 냈다가 돌아가서 고치는 과정이 있기도 하고요. 이건 딥러닝에 대한 믿음이 너무 부족한 소리처럼 들리는데요.
물론 어려울 수는 있지만 딥러닝이 못 할 건 없습니다. 제 예상은 가치 함수가 유용해야 한다는 것이고, 이미 사용되고 있지 않다면 앞으로 사용될 것이라 전적으로 기대합니다.
제가 감정 중추가 손상된 사람 이야기를 통해 암시하려던 것은, 인**간의 가치 함수가 진화에 의해 하드코딩된 감정에 의해 중요한 방식으로 조절된다는 것을 시사한다는 점입니다. 그리고 아마도 그것이 사람들이 세상에서 효과적으로 활동하는 데 중요할 것입니다.**
Q: 그게 제가 여쭤보려던 겁니다. 감정이나 가치 함수에 대해 정말 흥미로운 점은, 이해하기엔 꽤 단순하면서도 효용이 엄청나다는 것입니다.
A: 두 가지 답변이 있습니다. 우리가 배우는 것들이나 우리가 이야기하는 AI에 비해 감정이 상대적으로 단순하다는 점에는 동의합니다. 심지어 너무 단순해서 인간이 이해할 수 있는 방식으로 지도화(map out)할 수도 있을 겁니다. 그렇게 하면 멋지겠죠.
하지만 효용 측면에서는 '복잡성-견고성 트레이드오프(complexity-robustness tradeoff)'라는 게 있다고 봅니다. 복잡한 것은 매우 유용할 수 있지만, 단순한 것은 매우 광범위한 상황에서 유용합니다.
우리가 보는 현상을 해석하는 한 가지 방법은, 우리가 포유류 조상으로부터 진화한 감정을 가지고 있고, 호미니드(hominid) 시절에 아주 조금 미세 조정되었다는 것입니다. 포유류에게는 없을 수도 있는 사회적 감정들이 꽤 있지만, 그리 정교하진 않습니다. 그리고 정교하지 않기 때문에 우리가 살던 곳과 매우 다른 이 세상에서도 우리에게 그렇게 잘 봉사하는 것입니다.
물론 실수도 합니다. 예를 들어 배고픔이 감정으로 쳐주는지 논란이 있겠지만, 풍요로운 음식으로 가득 찬 이 세상에서 배고픔이라는 직관적인 느낌은 우리를 올바르게 인도하지 못하고 있습니다.
감정과 가치함수
Q: 사전 학습에 대한 인간의 유추 대상(analog)은 없다고 생각하시나요? 사람들이 제안한 유추 대상들이 있습니다. 하나는 경제적으로 생산적이지 않지만 세상을 더 잘 이해하게 되는 인간의 첫 18년, 15년, 혹은 13년을 생각하는 것입니다. 다른 하나는 30억 년 동안의 진화 과정이 탐색을 수행하고 그 결과로 인간의 생애라는 인스턴스가 나온다고 보는 것입니다. 이 중 어느 것이 사전 학습과 유사하다고 보시나요? 사전 학습이 아니라면 인간의 평생 학습은 무엇과 같다고 생각하십니까?
A: 둘 다 사전 학습과 어느 정도 유사점이 있고, 사전 학습이 이 두 가지 역할을 모두 수행하려고 한다고 생각합니다. 하지만 큰 차이점들도 있습니다. 사전 학습 데이터의 양은 정말, 정말 엄청납니다.
그런데 인간은 15년 동안 사전 학습 데이터의 아주 작은 부분만 보고도 무언가 훨씬 덜 알긴 하지만, 아는 것에 대해서는 훨씬 더 깊이 있게 압니다. 이미 그 나이에는 우리 AI들이 저지르는 실수를 하지 않죠.
또 다른 점이 있습니다. 진화와 비슷한가? 라고 묻는다면 답은 '아마도'입니다. 하지만 이 경우엔 진화가 더 우위에 있을 수 있습니다.
제가 읽은 사례가 하나 기억나는데요. 신경과학자들이 뇌에 대해 배우는 방법 중 하나는 뇌의 특정 부위가 손상된 사람들을 연구하는 것입니다. 상상할 수 있는 가장 기이한 증상을 가진 사람들이 있는데, 정말 흥미롭습니다. 관련 있는 사례 하나가 떠오릅니다. 어떤 뇌 손상, 뇌졸중이나 사고로 감정 처리 능력을 잃은 사람에 대한 글을 읽었습니다. 그래서 그는 아무런 감정도 느끼지 못하게 됐죠.
그는 여전히 말을 아주 잘하고 작은 퍼즐도 풀 수 있고 테스트상으로는 멀쩡해 보였습니다. 하지만 감정이 없었습니다. 슬픔도, 분노도, 활기도 느끼지 못했죠. 그런데 그는 어떤 결정을 내리는 데 있어 극도로 무능해졌습니다. 어떤 양말을 신을지 결정하는 데 몇 시간이 걸리고, 아주 형편없는 재무 결정을 내리게 되었습니다.
이것은 우리의 타고난 감정이 우리가 생존 가능한 에이전트(viable agent)가 되는 데 어떤 역할을 하는지 말해줍니다. 당신의 사전 학습 질문과 연결하자면, 만약 사전 학습에서 모든 것을 뽑아내는 데 충분히 능숙하다면 그런 것도 얻을 수 있을지도 모릅니다. 하지만 그건... 글쎄요, 사전 학습에서 얻을 수 있을 수도 있고 없을 수도 있습니다.
Q: 그 "무언가"가 무엇인가요? 단순히 감정 그 자체는 아닐 테고요. 어떤 결정에 대한 최종 보상이 무엇이어야 하는지 알려주는, 거의 가치 함수(value function) 같은 것 같아 보이는데요.
네, 그것이 사전 학습에서 암묵적으로 나올 것이라고 생각하지 않으시나요? 나올 수도 있다고 생각합니다. 단지 100% 확실하지 않다는 것뿐입니다.
Q: 하지만 그게 뭐죠? 감정을 어떻게 생각하십니까? 감정에 대한 ML(기계학습)의 유추 대상은 무엇입니까?
일종의 가치 함수 같은 것이어야겠죠. 하지만 훌륭한 ML 유추 대상은 없다고 봅니다. 지금 당장은 사람들이 하는 작업에서 가치 함수가 아주 두드러진 역할을 하지 않기 때문입니다.
Q: 청중을 위해 가치 함수가 무엇인지 정의해 주실 수 있나요?
물론입니다. 기꺼이 설명해 드리죠. 사람들이 강화 학습(RL)을 할 때, 지금 RL이 수행되는 방식, 즉 순진하게(naively) 훈련하는 방식은 이렇습니다. 신경망에 문제를 주고 "풀어봐"라고 합니다. 모델은 수천, 수십만 번의 행동이나 생각 같은 것을 거쳐 해결책을 내놓습니다. 그 해결책이 채점됩니다. 그리고 그 점수는 궤적(trajectory)에 있는 모든 단일 행동에 훈련 신호를 주는 데 사용됩니다.
즉, 해결하는 데 오랜 시간이 걸리는 작업을 훈련한다면, 제안된 해결책이 나올 때까지는 아무런 학습도 일어나지 않는다는 뜻입니다. 이것이 강화 학습이 순진하게 수행되는 방식이고, o1이나 R1이 표면적으로 수행되는 방식입니다.
가치 함수는 "내가 항상은 아니지만 가끔은 네가 잘하고 있는지 못하고 있는지 말해줄 수 있어"라고 하는 것과 같습니다. 가치 함수의 개념은 어떤 영역에서는 다른 영역보다 더 유용합니다. 예를 들어 체스를 둘 때 말을 잃으면, "망했네"라고 알 수 있죠. 게임이 끝날 때까지 갈 필요 없이 방금 한 행동이 나빴고, 그 이전의 행동들도 나빴다는 걸 알 수 있습니다. 가치 함수는 맨 끝까지 기다리는 시간을 단축(short-circuit)시켜 줍니다.
수학이나 프로그래밍 같은 것을 한다고 가정해 봅시다. 특정 해결책이나 방향을 탐색하고 있습니다. 1000단계를 생각한 끝에 이 방향은 가망이 없다고 결론 내렸습니다. 이 결론을 내리자마자, 당신은 이미 1000 타임스텝 전에 이 길을 가기로 결정했을 때에 대한 보상 신호를 얻을 수 있습니다. 실제로 제안된 해결책을 내놓기 훨씬 전에 "다음번엔 비슷한 상황에서 이 길로 가지 말아야지"라고 말할 수 있는 거죠.
Q: 딥시크(DeepSeek) R1 논문에서는 궤적의 공간이 너무 넓어서 중간 궤적에서 가치로 매핑하는 것을 학습하기 어려울 수 있다고 했습니다. 또 코딩에서는 잘못된 아이디어를 냈다가 돌아가서 고치는 과정이 있기도 하고요. 이건 딥러닝에 대한 믿음이 너무 부족한 소리처럼 들리는데요.
물론 어려울 수는 있지만 딥러닝이 못 할 건 없습니다. 제 예상은 가치 함수가 유용해야 한다는 것이고, 이미 사용되고 있지 않다면 앞으로 사용될 것이라 전적으로 기대합니다.
제가 감정 중추가 손상된 사람 이야기를 통해 암시하려던 것은, 인**간의 가치 함수가 진화에 의해 하드코딩된 감정에 의해 중요한 방식으로 조절된다는 것을 시사한다는 점입니다. 그리고 아마도 그것이 사람들이 세상에서 효과적으로 활동하는 데 중요할 것입니다.**
Q: 그게 제가 여쭤보려던 겁니다. 감정이나 가치 함수에 대해 정말 흥미로운 점은, 이해하기엔 꽤 단순하면서도 효용이 엄청나다는 것입니다.
A: 두 가지 답변이 있습니다. 우리가 배우는 것들이나 우리가 이야기하는 AI에 비해 감정이 상대적으로 단순하다는 점에는 동의합니다. 심지어 너무 단순해서 인간이 이해할 수 있는 방식으로 지도화(map out)할 수도 있을 겁니다. 그렇게 하면 멋지겠죠.
하지만 효용 측면에서는 '복잡성-견고성 트레이드오프(complexity-robustness tradeoff)'라는 게 있다고 봅니다. 복잡한 것은 매우 유용할 수 있지만, 단순한 것은 매우 광범위한 상황에서 유용합니다.
우리가 보는 현상을 해석하는 한 가지 방법은, 우리가 포유류 조상으로부터 진화한 감정을 가지고 있고, 호미니드(hominid) 시절에 아주 조금 미세 조정되었다는 것입니다. 포유류에게는 없을 수도 있는 사회적 감정들이 꽤 있지만, 그리 정교하진 않습니다. 그리고 정교하지 않기 때문에 우리가 살던 곳과 매우 다른 이 세상에서도 우리에게 그렇게 잘 봉사하는 것입니다.
물론 실수도 합니다. 예를 들어 배고픔이 감정으로 쳐주는지 논란이 있겠지만, 풍요로운 음식으로 가득 찬 이 세상에서 배고픔이라는 직관적인 느낌은 우리를 올바르게 인도하지 못하고 있습니다.
확장의 시대에서 연구의 시대로
Q: 사람들은 데이터 확장, 파라미터 확장, 컴퓨팅 확장에 대해 이야기해 왔습니다. 확장에 대해 생각하는 더 일반적인 방법이 있을까요? 다른 확장 축은 무엇입니까?
A: 사실일 것 같은 관점이 하나 있습니다. 예전 ML이 작동하던 방식은 사람들이 **그냥 이것저것 만지작거리며(tinker) 흥미로운 결과를 얻으려던 것**이었습니다. 과거엔 그랬죠. 그러다 **'확장(scaling)'의 통찰이 도래**했습니다. 스케일링 법칙(Scaling Laws), GPT-3가 나오면서 갑자기 모두가 확장을 해야 한다는 걸 깨달았습니다.
이건 언어가 사고에 영향을 미치는 예입니다. "확장"은 단 한 단어지만 사람들에게 무엇을 해야 할지 알려주기 때문에 매우 강력한 단어입니다. 사람들은 "확장을 시도해 보자"고 하죠. 그래서 "무엇을 확장하는가?"라고 묻습니다.
확장할 대상은 **'사전 학습'**이었습니다. 그것은 특정한 확장 레시피였죠. 사전 학습의 큰 돌파구는 이 레시피가 좋다는 것을 깨달은 데 있습니다. "이봐, 특정 크기의 신경망에 컴퓨팅과 데이터를 섞으면 결과가 나와. 레시피를 키우기만 하면 더 좋아질 거란 걸 알잖아."라고 하는 거죠.
이건 회사 입장에서도 아주 좋습니다. 자원을 투자할 수 있는 매우 리스크 낮은 방법을 제공하니까요. 연구에 자원을 투자하는 건 훨씬 더 어렵습니다. "연구자들아 가서 연구해서 뭔가 만들어와"라고 하는 것과, "데이터 더 가져오고 컴퓨팅 더 늘려"라고 하는 것의 차이죠. 사전 학습에서는 무언가 나온다는 걸 아니까요.
실제로 트위터 등에서 말하는 걸 보면 제미나이(Gemini) 같은 경우 사전 학습에서 더 많은 것을 얻는 방법을 찾은 것 같기도 합니다. 하지만 언젠가는 사전 학습 데이터가 고갈될 겁니다. 데이터는 명백히 유한하니까요. 그다음엔 무엇을 합니까? 이전에 했던 것과 다른 획기적인 사전 학습을 하거나, RL을 하거나, 아니면 다른 무언가를 해야겠죠.
하지만 이제 컴퓨팅 규모가 커졌습니다. 아주 커졌죠. 어떤 의미에서는 다시 '연구의 시대(age of research)'로 돌아왔습니다.
다르게 표현해 보자면, 2**012년부터 2020년까지는 연구의 시대였습니다. 2020년부터 2025년까지는 확장의 시대였죠(오차 범위는 있겠지만). 사람들은 "이거 놀라워. 더 확장해. 계속 확장해."라고 했으니까요.** '확장'이라는 단어 하나였죠.
하지만 이제 규모가 너무 큽니다. 정말로 "규모가 크지만 100배 더 늘리면 모든 게 달라질 거야"라고 믿나요? 물론 다르긴 하겠지만, "100배 늘리면 모든 게 변혁될 거야"라는 믿음이 진짜일까요? 저는 그렇게 생각하지 않습니다. 그래서 거대한 컴퓨터를 가진 채 다시 연구의 시대로 돌아온 겁니다.
Q: 아주 흥미로운 표현이네요. 그럼 방금 제기하신 질문을 다시 드려보겠습니다. 우리는 무엇을 확장하고 있으며, 레시피를 갖는다는 건 무엇을 의미할까요? 사전 학습에는 데이터나 컴퓨팅, 파라미터와 손실(loss) 사이에 물리학 법칙 같은 깔끔한 관계가 있었습니다. 우리가 찾아야 할 관계는 어떤 종류이며, 이 새로운 레시피는 어떤 모습일까요?
A: 우리는 이미 한 종류의 확장(사전 학습)에서 다른 종류의 확장(RL)으로의 전환을 목격했습니다. 이제 사람들은 RL을 확장하고 있습니다. 트위터 등에서 들리는 바에 따르면, **이 시점에서는 RL이 사전 학습보다 더 많은 컴퓨팅을 소비**한다고 합니다. RL은 꽤 많은 컴퓨팅을 소비할 수 있거든요. 아주 긴 롤아웃(rollout)을 하니까요. 그리고 롤아웃 당 얻는 학습량은 상대적으로 적어서 정말 많은 컴퓨팅을 쓸 수 있습니다.
저는 이걸 확장이라고 부르지 않겠습니다. 저는 "뭐 하고 있어? 네가 하는 일이 가장 생산적인 일이야? 컴퓨팅을 더 생산적으로 쓸 방법은 없어?"**라고 묻고 싶습니다. 아까 가치 함수 이야기를 했었죠. 사**람들이 가치 함수를 잘 다루게 되면 자원을 더 생산적으로 쓰게 될 겁니다.
만약 모델을 훈련하는 완전히 다른 방법을 찾는다면, "이게 확장인가 아니면 그냥 자원을 쓰는 건가?"라고 할 수 있겠죠. 좀 모호해집니다. 예전 연구의 시대에는 "이거 해보자, 저거 해보자. 오, 흥미로운 게 나왔네" 했던 것처럼, 저는 그런 시대로의 회귀가 있을 것이라고 생각합니다.
Q: 다시 연구의 시대로 돌아왔다면, 한 걸음 물러나서 우리가 가장 깊이 생각해야 할 레시피의 부분은 무엇인가요? 가치 함수라고 하면 사람들은 이미 현재 레시피에서 LLM-as-a-Judge 같은 걸 시도하고 있습니다. 하지만 당신은 훨씬 더 근본적인 것을 염두에 두고 있는 것 같습니다. 사전 학습의 끝에 단계를 더 추가하는 게 아니라 사전 학습 자체를 재고해야 할까요?
A: 가치 함수 논의는 흥미로웠습니다. 가치 함수는 RL을 더 효율적으로 만들어 줄 것이고 그게 차이를 만들겠지만, 가치 함수로 할 수 있는 건 없어도 (더 느리겠지만) 할 수는 있다는 점을 강조하고 싶습니다.
제가 가장 근본적이라고 생각하는 것은, 이 모델들이 인간보다 극적으로 일반화를 못한다는 점입니다. 아주 명백하죠. 이게 매우 근본적인 문제 같습니다.
Q: 사람들은 데이터 확장, 파라미터 확장, 컴퓨팅 확장에 대해 이야기해 왔습니다. 확장에 대해 생각하는 더 일반적인 방법이 있을까요? 다른 확장 축은 무엇입니까?
A: 사실일 것 같은 관점이 하나 있습니다. 예전 ML이 작동하던 방식은 사람들이 **그냥 이것저것 만지작거리며(tinker) 흥미로운 결과를 얻으려던 것**이었습니다. 과거엔 그랬죠. 그러다 **'확장(scaling)'의 통찰이 도래**했습니다. 스케일링 법칙(Scaling Laws), GPT-3가 나오면서 갑자기 모두가 확장을 해야 한다는 걸 깨달았습니다.
이건 언어가 사고에 영향을 미치는 예입니다. "확장"은 단 한 단어지만 사람들에게 무엇을 해야 할지 알려주기 때문에 매우 강력한 단어입니다. 사람들은 "확장을 시도해 보자"고 하죠. 그래서 "무엇을 확장하는가?"라고 묻습니다.
확장할 대상은 **'사전 학습'**이었습니다. 그것은 특정한 확장 레시피였죠. 사전 학습의 큰 돌파구는 이 레시피가 좋다는 것을 깨달은 데 있습니다. "이봐, 특정 크기의 신경망에 컴퓨팅과 데이터를 섞으면 결과가 나와. 레시피를 키우기만 하면 더 좋아질 거란 걸 알잖아."라고 하는 거죠.
이건 회사 입장에서도 아주 좋습니다. 자원을 투자할 수 있는 매우 리스크 낮은 방법을 제공하니까요. 연구에 자원을 투자하는 건 훨씬 더 어렵습니다. "연구자들아 가서 연구해서 뭔가 만들어와"라고 하는 것과, "데이터 더 가져오고 컴퓨팅 더 늘려"라고 하는 것의 차이죠. 사전 학습에서는 무언가 나온다는 걸 아니까요.
실제로 트위터 등에서 말하는 걸 보면 제미나이(Gemini) 같은 경우 사전 학습에서 더 많은 것을 얻는 방법을 찾은 것 같기도 합니다. 하지만 언젠가는 사전 학습 데이터가 고갈될 겁니다. 데이터는 명백히 유한하니까요. 그다음엔 무엇을 합니까? 이전에 했던 것과 다른 획기적인 사전 학습을 하거나, RL을 하거나, 아니면 다른 무언가를 해야겠죠.
하지만 이제 컴퓨팅 규모가 커졌습니다. 아주 커졌죠. 어떤 의미에서는 다시 '연구의 시대(age of research)'로 돌아왔습니다.
다르게 표현해 보자면, 2**012년부터 2020년까지는 연구의 시대였습니다. 2020년부터 2025년까지는 확장의 시대였죠(오차 범위는 있겠지만). 사람들은 "이거 놀라워. 더 확장해. 계속 확장해."라고 했으니까요.** '확장'이라는 단어 하나였죠.
하지만 이제 규모가 너무 큽니다. 정말로 "규모가 크지만 100배 더 늘리면 모든 게 달라질 거야"라고 믿나요? 물론 다르긴 하겠지만, "100배 늘리면 모든 게 변혁될 거야"라는 믿음이 진짜일까요? 저는 그렇게 생각하지 않습니다. 그래서 거대한 컴퓨터를 가진 채 다시 연구의 시대로 돌아온 겁니다.
Q: 아주 흥미로운 표현이네요. 그럼 방금 제기하신 질문을 다시 드려보겠습니다. 우리는 무엇을 확장하고 있으며, 레시피를 갖는다는 건 무엇을 의미할까요? 사전 학습에는 데이터나 컴퓨팅, 파라미터와 손실(loss) 사이에 물리학 법칙 같은 깔끔한 관계가 있었습니다. 우리가 찾아야 할 관계는 어떤 종류이며, 이 새로운 레시피는 어떤 모습일까요?
A: 우리는 이미 한 종류의 확장(사전 학습)에서 다른 종류의 확장(RL)으로의 전환을 목격했습니다. 이제 사람들은 RL을 확장하고 있습니다. 트위터 등에서 들리는 바에 따르면, **이 시점에서는 RL이 사전 학습보다 더 많은 컴퓨팅을 소비**한다고 합니다. RL은 꽤 많은 컴퓨팅을 소비할 수 있거든요. 아주 긴 롤아웃(rollout)을 하니까요. 그리고 롤아웃 당 얻는 학습량은 상대적으로 적어서 정말 많은 컴퓨팅을 쓸 수 있습니다.
저는 이걸 확장이라고 부르지 않겠습니다. 저는 "뭐 하고 있어? 네가 하는 일이 가장 생산적인 일이야? 컴퓨팅을 더 생산적으로 쓸 방법은 없어?"**라고 묻고 싶습니다. 아까 가치 함수 이야기를 했었죠. 사**람들이 가치 함수를 잘 다루게 되면 자원을 더 생산적으로 쓰게 될 겁니다.
만약 모델을 훈련하는 완전히 다른 방법을 찾는다면, "이게 확장인가 아니면 그냥 자원을 쓰는 건가?"라고 할 수 있겠죠. 좀 모호해집니다. 예전 연구의 시대에는 "이거 해보자, 저거 해보자. 오, 흥미로운 게 나왔네" 했던 것처럼, 저는 그런 시대로의 회귀가 있을 것이라고 생각합니다.
Q: 다시 연구의 시대로 돌아왔다면, 한 걸음 물러나서 우리가 가장 깊이 생각해야 할 레시피의 부분은 무엇인가요? 가치 함수라고 하면 사람들은 이미 현재 레시피에서 LLM-as-a-Judge 같은 걸 시도하고 있습니다. 하지만 당신은 훨씬 더 근본적인 것을 염두에 두고 있는 것 같습니다. 사전 학습의 끝에 단계를 더 추가하는 게 아니라 사전 학습 자체를 재고해야 할까요?
A: 가치 함수 논의는 흥미로웠습니다. 가치 함수는 RL을 더 효율적으로 만들어 줄 것이고 그게 차이를 만들겠지만, 가치 함수로 할 수 있는 건 없어도 (더 느리겠지만) 할 수는 있다는 점을 강조하고 싶습니다.
제가 가장 근본적이라고 생각하는 것은, 이 모델들이 인간보다 극적으로 일반화를 못한다는 점입니다. 아주 명백하죠. 이게 매우 근본적인 문제 같습니다.
왜 인간이 모델보다 일반화를 더 잘하는가 (Why humans generalize better than models)
Q: 그러니까 핵심은 일반화(generalization)군요. 두 가지 하위 질문이 있습니다. 하나는 표본 효율성(sample efficiency)에 관한 것입니다. 왜 모델은 인간보다 배우는 데 훨씬 더 많은 데이터가 필요할까요? 두 번째는 데이터 양과 별개로, 왜 모델에게 우리가 원하는 것을 가르치기가 인간보다 훨씬 어려울까요? 인간의 경우, 검증 가능한 보상이 반드시 필요하지 않습니다. 당신이 지금 연구자들을 멘토링하고 있다고 칩시다. 대화를 나누고, 코드를 보여주고, 생각하는 방식을 보여주면 그들은 당신의 사고방식과 연구 방법을 배웁니다. "자, 커리큘럼 다음 단계는 이거야. 어라 훈련이 불안정하네" 같은 번거로운 과정이나 검증 가능한 보상 설정이 필요 없죠.
인간의 표본 효율성에 대한 한 가지 가능한 설명으로 진화를 고려해야 합니다. 진화는 우리에게 가장 유용한 정보를 소량 제공했습니다. 시각, 청각, 움직임 같은 것에 대해서는 진화가 우리에게 많은 것을 주었다는 강력한 근거가 있습니다. 예를 들어 인간의 손재주(dexterity)는... 로봇도 시뮬레이션에서 엄청난 훈련을 시키면 손재주가 좋아질 수 있습니다. 하지만 현실 세계에서 로봇이 사람처럼 새로운 기술을 빨리 배우도록 훈련하는 건 요원해 보입니다.
이런 경우엔 "그래, 움직임. 우리 조상인 다람쥐들은 움직임이 중요했지. 그러니 엄청난 사전 지식(prior)을 갖고 있을 거야"라고 할 수 있습니다. 시각에 대해서도 같은 말을 할 수 있죠. 얀 르쿤(Yann LeCun)이 아이들은 10시간 연습하면 운전을 배운다는 점을 지적했는데, 사실입니다. 하지만 우리의 시각은 정말 좋습니다. 저만 해도 5살 때 자동차에 열광했는데, 그때 이미 자동차 인식 능력은 운전하기에 충분했을 겁니다. 5살 때는 데이터를 그렇게 많이 보지도 못하죠. 부모님 집에만 있으니 데이터 다양성도 낮고요. 그러니 그건 진화 덕분일 수 있습니다.
하지만 언어, 수학, 코딩은요? 아마 아닐 겁니다.
Q: 그래도 모델보다는 더 나은 것 같아요. 분명히 모델들은 언어, 수학, 코딩에서 평균적인 인간보다 더 잘해요. 하지만 학습에 있어서 평균적인 인간보다 더 나은가요?
물론입니다. 제가 하려던 말은 언어, 수학, 코딩, 특히 수학과 코딩의 경우, 인간이 학습을 잘하게 만드는 무언가는 복잡한 사전 지식이라기보다는 뭔가 더 근본적인 것일 가능성이 높다는 것입니다.
A: 인간이 어떤 기술에서 엄청난 신뢰성을 보인다고 칩시다. 만약 그 기술이 수억 년 동안 우리 조상들에게 매우 유용했던 것이라면, 인간이 진화적 사전 지식 덕분에 잘한다고 주장할 수 있습니다. 비록 그게 어떻게 인코딩되어 있는지는 명확하지 않더라도요.
하지만 최근까지 존재하지 않았던 영역(수학, 코딩 등)에서 인간이 뛰어난 능력, 신뢰성, 견고성, 학습 능력을 보인다면, 이는 인간이 그저 '더 나은 기계 학습(machine learning)' 능력을 가지고 있다는 징후에 가깝습니다.
Q: 그게 무엇인지 어떻게 생각해야 할까요? ML 유추 대상은 무엇입니까? 더 적은 표본을 쓰고, 더 비지도(unsupervised) 방식이고... 아이가 운전을 배우는 건, 정확히 말해 10대가 운전을 배우는 건 미리 만들어진 검증 가능한 보상을 받는 게 아닙니다. 기계와 환경과의 상호작용에서 오죠. 표본도 훨씬 적게 들고, 더 비지도적이고, 더 견고해 보입니다.
A: 인간의 견고성은 정말 엄청나죠.
Q: 이 모든 일이 동시에 일어나는 이유를 통합적으로 생각하는 방법이 있나요? 이를 실현할 수 있는 ML 유추 대상은 무엇입니까?
A: 당신이 질문한 것 중 하나는 "어떻게 10대 운전자가 외부 교사 없이 스스로 교정하고 경험에서 배울 수 있는가"입니다. 답은 그**들이 '가치 함수'를 가지고 있다**는 것입니다. 그들은 일반적인 감각을 가지고 있는데, 인간의 경우 이것이 매우 견고합니다. 중독 같은 몇 가지 예외를 빼면 인간의 가치 함수는 매우 견고합니다.
그래서 운전을 배우는 10대의 경우, 운전을 시작하자마자 자신이 어떻게 운전하고 있는지, 얼마나 못하는지, 얼마나 불안한지 즉시 감을 잡습니다. 그리고 "오케이" 하고 보죠. 물론 10대들의 학습 속도는 너무 빨라서 10시간이면 충분하죠.
Q: 인간은 어떤 해결책을 가진 것 같은데, 어떻게 하는 건지, 왜 기계에게는 그게 그렇게 어려운지 궁금합니다. 이런 걸 가능하게 하려면 모델 훈련 방식을 어떻게 재개념화해야 할까요?
A: 아주 훌륭한 질문이고, 저도 많은 의견을 가지고 있습니다. 하지만 불행히도 우리는 모든 머신러닝 아이디어를 자유롭게 논의할 수 있는 세상에 살고 있지 않습니다. ㅠㅠ 이것도 그중 하나죠.
아마 방법이 있을 겁니다. 할 수 있다고 생각합니다. 사람들이 그렇게 한다는 사실 자체가 가능하다는 증거죠.
물론 장애물이 하나 있을 수 있습니다. 인간의 뉴런이 우리가 생각하는 것보다 더 많은 계산을 수행할 가능성입니다. 만약 그게 사실이고 중요한 역할을 한다면 일이 더 어려워질 수 있습니다. 하지만 그렇다 하더라도 저는 이것이 제가 의견을 가지고 있는 어떤 머신러닝 원리의 존재를 가리킨다고 생각합니다. 하지만 안타깝게도 상황상 자세히 논의하기는 어렵습니다.
Q: 아무도 이 팟캐스트 안 들어요, 일리야. ㅠㅠ
Q: 그러니까 핵심은 일반화(generalization)군요. 두 가지 하위 질문이 있습니다. 하나는 표본 효율성(sample efficiency)에 관한 것입니다. 왜 모델은 인간보다 배우는 데 훨씬 더 많은 데이터가 필요할까요? 두 번째는 데이터 양과 별개로, 왜 모델에게 우리가 원하는 것을 가르치기가 인간보다 훨씬 어려울까요? 인간의 경우, 검증 가능한 보상이 반드시 필요하지 않습니다. 당신이 지금 연구자들을 멘토링하고 있다고 칩시다. 대화를 나누고, 코드를 보여주고, 생각하는 방식을 보여주면 그들은 당신의 사고방식과 연구 방법을 배웁니다. "자, 커리큘럼 다음 단계는 이거야. 어라 훈련이 불안정하네" 같은 번거로운 과정이나 검증 가능한 보상 설정이 필요 없죠.
인간의 표본 효율성에 대한 한 가지 가능한 설명으로 진화를 고려해야 합니다. 진화는 우리에게 가장 유용한 정보를 소량 제공했습니다. 시각, 청각, 움직임 같은 것에 대해서는 진화가 우리에게 많은 것을 주었다는 강력한 근거가 있습니다. 예를 들어 인간의 손재주(dexterity)는... 로봇도 시뮬레이션에서 엄청난 훈련을 시키면 손재주가 좋아질 수 있습니다. 하지만 현실 세계에서 로봇이 사람처럼 새로운 기술을 빨리 배우도록 훈련하는 건 요원해 보입니다.
이런 경우엔 "그래, 움직임. 우리 조상인 다람쥐들은 움직임이 중요했지. 그러니 엄청난 사전 지식(prior)을 갖고 있을 거야"라고 할 수 있습니다. 시각에 대해서도 같은 말을 할 수 있죠. 얀 르쿤(Yann LeCun)이 아이들은 10시간 연습하면 운전을 배운다는 점을 지적했는데, 사실입니다. 하지만 우리의 시각은 정말 좋습니다. 저만 해도 5살 때 자동차에 열광했는데, 그때 이미 자동차 인식 능력은 운전하기에 충분했을 겁니다. 5살 때는 데이터를 그렇게 많이 보지도 못하죠. 부모님 집에만 있으니 데이터 다양성도 낮고요. 그러니 그건 진화 덕분일 수 있습니다.
하지만 언어, 수학, 코딩은요? 아마 아닐 겁니다.
Q: 그래도 모델보다는 더 나은 것 같아요. 분명히 모델들은 언어, 수학, 코딩에서 평균적인 인간보다 더 잘해요. 하지만 학습에 있어서 평균적인 인간보다 더 나은가요?
물론입니다. 제가 하려던 말은 언어, 수학, 코딩, 특히 수학과 코딩의 경우, 인간이 학습을 잘하게 만드는 무언가는 복잡한 사전 지식이라기보다는 뭔가 더 근본적인 것일 가능성이 높다는 것입니다.
A: 인간이 어떤 기술에서 엄청난 신뢰성을 보인다고 칩시다. 만약 그 기술이 수억 년 동안 우리 조상들에게 매우 유용했던 것이라면, 인간이 진화적 사전 지식 덕분에 잘한다고 주장할 수 있습니다. 비록 그게 어떻게 인코딩되어 있는지는 명확하지 않더라도요.
하지만 최근까지 존재하지 않았던 영역(수학, 코딩 등)에서 인간이 뛰어난 능력, 신뢰성, 견고성, 학습 능력을 보인다면, 이는 인간이 그저 '더 나은 기계 학습(machine learning)' 능력을 가지고 있다는 징후에 가깝습니다.
Q: 그게 무엇인지 어떻게 생각해야 할까요? ML 유추 대상은 무엇입니까? 더 적은 표본을 쓰고, 더 비지도(unsupervised) 방식이고... 아이가 운전을 배우는 건, 정확히 말해 10대가 운전을 배우는 건 미리 만들어진 검증 가능한 보상을 받는 게 아닙니다. 기계와 환경과의 상호작용에서 오죠. 표본도 훨씬 적게 들고, 더 비지도적이고, 더 견고해 보입니다.
A: 인간의 견고성은 정말 엄청나죠.
Q: 이 모든 일이 동시에 일어나는 이유를 통합적으로 생각하는 방법이 있나요? 이를 실현할 수 있는 ML 유추 대상은 무엇입니까?
A: 당신이 질문한 것 중 하나는 "어떻게 10대 운전자가 외부 교사 없이 스스로 교정하고 경험에서 배울 수 있는가"입니다. 답은 그**들이 '가치 함수'를 가지고 있다**는 것입니다. 그들은 일반적인 감각을 가지고 있는데, 인간의 경우 이것이 매우 견고합니다. 중독 같은 몇 가지 예외를 빼면 인간의 가치 함수는 매우 견고합니다.
그래서 운전을 배우는 10대의 경우, 운전을 시작하자마자 자신이 어떻게 운전하고 있는지, 얼마나 못하는지, 얼마나 불안한지 즉시 감을 잡습니다. 그리고 "오케이" 하고 보죠. 물론 10대들의 학습 속도는 너무 빨라서 10시간이면 충분하죠.
Q: 인간은 어떤 해결책을 가진 것 같은데, 어떻게 하는 건지, 왜 기계에게는 그게 그렇게 어려운지 궁금합니다. 이런 걸 가능하게 하려면 모델 훈련 방식을 어떻게 재개념화해야 할까요?
A: 아주 훌륭한 질문이고, 저도 많은 의견을 가지고 있습니다. 하지만 불행히도 우리는 모든 머신러닝 아이디어를 자유롭게 논의할 수 있는 세상에 살고 있지 않습니다. ㅠㅠ 이것도 그중 하나죠.
아마 방법이 있을 겁니다. 할 수 있다고 생각합니다. 사람들이 그렇게 한다는 사실 자체가 가능하다는 증거죠.
물론 장애물이 하나 있을 수 있습니다. 인간의 뉴런이 우리가 생각하는 것보다 더 많은 계산을 수행할 가능성입니다. 만약 그게 사실이고 중요한 역할을 한다면 일이 더 어려워질 수 있습니다. 하지만 그렇다 하더라도 저는 이것이 제가 의견을 가지고 있는 어떤 머신러닝 원리의 존재를 가리킨다고 생각합니다. 하지만 안타깝게도 상황상 자세히 논의하기는 어렵습니다.
Q: 아무도 이 팟캐스트 안 들어요, 일리야. ㅠㅠ
초지능으로 직행하기 (Straight-shotting superintelligence)
Q: 다시 연구의 시대로 돌아간다면, 이제 분위기는 어떨까요? 예를 들어 알렉스넷(AlexNet) 이후에도 실험을 실행하는 데 드는 컴퓨팅 양은 계속 늘어났고 프런티어 시스템의 크기도 커졌습니다. 이번 연구의 시대에도 엄청난 양의 컴퓨팅이 필요할까요? 아니면 기록보관소로 돌아가 옛날 논문을 읽어야 할까요? 구글, OpenAI, 스탠포드에 계실 때 연구 분위기가 더 났던 시절엔 어땠나요? 커뮤니티에서 어떤 것들을 기대해야 할까요?
확장의 시대가 가져온 결과 중 하나는, 확장이 '방 안의 산소를 다 빨아들였다'는 것입니다. 확장이 공기를 다 빨아들이니 모두가 똑같은 일을 하기 시작했습니다. 아이디어보다 회사가 더 많은 세상이 되었죠.
실리콘밸리 격언 중에 **"아이디어는 저렴하고 실행이 전부다"**라는 말이 있습니다. 사람들이 많이들 그렇게 말하고 일리가 있습니다. 하지만 누군가 트위터에서 **"아이디어가 그렇게 저렴하면 왜 아무도 아이디어를 내지 않는 거지?"**라고 한 걸 봤는데, 그것도 사실입니다.
병목 현상 관점에서 연구 진행을 생각해보면 몇 가지 병목**이 있습니다. **하나는 아이디어고, 하나는 그걸 실현할 능력(컴퓨팅이나 엔지니어링)입니다. 90년대로 돌아가 보면 꽤 좋은 아이디어를 가진 사람들이 있었습니다. 훨씬 더 큰 컴퓨터가 있었다면 아이디어가 유효함을 증명했을지도 모르죠. 하지만 그럴 수 없었기에 아무도 설득하지 못하는 아주 작은 데모만 가질 수 있었습니다. 그때의 병목은 컴퓨팅이었죠.
그러다 확장의 시대에 컴퓨팅이 많이 늘어났습니다. 물론 얼마나 필요한지는 의문이지만 컴퓨팅은 큽니다. 어떤 아이디어를 증명하는 데 더 많은 컴퓨팅이 필요한지 명확하지 않을 만큼 큽니다. 비유를 들자면, 알렉스넷은 GPU 2개로 만들었습니다. 그게 사용된 컴퓨팅의 전부였죠. 트랜스포머는 8개에서 64개 GPU로 만들었습니다. 2017년의 어떤 단일 트랜스포머 논문 실험도 64개 이상의 GPU를 쓰지 않았는데, 오늘날로 치면 GPU 2개 정도일까요? 레즈넷(ResNet)도 그렇죠. o1 추론도 세상에서 가장 컴퓨팅을 많이 쓰는 건 아니라고 주장할 수 있습니다.
그래서 연구를 위해서는 확실히 어느 정도의 컴퓨팅이 필요하지만, 연구를 위해 '역대 최대 규모'의 컴퓨팅이 필요한지는 전혀 명확하지 않습니다. 물론 절대적으로 최고의 시스템을 구축하려면 훨씬 더 많은 컴퓨팅이 도움이 된다고 주장할 수 있고 그건 사실입니다. 특히 모두가 같은 패러다임 안에 있다면 컴퓨팅이 큰 차별화 요소가 되니까요.
Q: 역사에 대해 여쭤보는 건 당신이 실제로 거기에 있었기 때문입니다. 실제로 무슨 일이 있었는지 확신이 안 서서요. 최소한의 컴퓨팅으로 아이디어를 개발하는 게 가능했다는 것처럼 들리는데, 트랜스포머가 즉시 유명해지진 않았잖아요. 더 높은 수준의 컴퓨팅에서 검증되면서 모두가 사용하고 그 위에 쌓아 올리는 무언가가 되었죠.
A: 맞습니다.
Q: 만약 SSI(Safe Superintelligence)에 50가지 다른 아이디어가 있다면, 다른 프런티어 랩들이 가진 종류의 컴퓨팅 없이 어떤 게 차기 트랜스포머고 어떤 게 깨지기 쉬운지 어떻게 알 수 있나요?
A: 거기에 대해 코멘트할 수 있습니다. 짧게 말해 SSI를 언급하셨는데, 구체적으로 우리 SSI가 연구를 위해 가진 컴퓨팅 양은 그렇게 적지 않습니다. 왜 그런지 간단한 산수로 설명할 수 있습니다. SSI는 30억 달러(약 4조 원)를 모금했는데 절대적으로 큰 금액입니다. 물론 "다른 회사들은 훨씬 더 많이 모으잖아"라고 할 수 있습니다. 하지만 **그들의 컴퓨팅 대부분은 추론(inference)으로 나갑니다. 이 큰 숫자들, 큰 대출금들은 추론용으로 배정**된 겁니다. 그게 첫 번째고요.
두 번째, 추론을 하는 제품을 가지려면 엔지니어, 영업 사원 등 대규모 인력이 필요합니다. 많은 연구가 온갖 제품 관련 기능을 만드는 데 할애되어야 하죠. 그래서 실제로 '연구'에 남는 것을 보면 차이는 훨씬 작아집니다.
또 다른 점은, 만약 당신이 다른 무언가를 하고 있다면 그걸 증명하기 위해 절대적인 최대 규모가 정말 필요한가 하는 겁니다. 저는 전혀 그렇지 않다고 생각합니다. 우리 경우엔, 우리가 하는 일이 옳다는 걸 우리 자신과 다른 사람들에게 확신시켜 주기에 충분한 컴퓨팅을 가지고 있습니다.
Q: OpenAI 같은 회사들이 실험에만 연간 50~60억 달러를 쓴다는 공개 추정치가 있습니다. 이건 추론 등에 쓰는 돈과는 별개로요. 즉, 그들은 당신들이 가진 전체 자금보다 더 많은 돈을 매년 연구 실험에 쓰고 있는 것 같은데요.
A: 그건 그 돈으로 무엇을 하느냐의 문제입니다. 그들의 경우, 다른 회사들의 경우, 훈련 컴퓨팅에 대한 수요가 훨씬 더 많습니다. 훨씬 더 많은 작업 흐름(work stream)이 있고, 다른 모달리티(modality)가 있고, 그냥 할 게 더 많습니다. 그래서 파편화되죠.
Q: SSI는 돈을 어떻게 벌 건가요?
A: 그 질문에 대한 제 대답은 이렇습니다. 지금은 연구에만 집중하고, 그 질문에 대한 답은 나중에 저절로 드러날 겁니다. 가능한 답은 아주 많을 거라고 생각합니다.
Q: SSI의 계획은 여전히 초지능으로 직행(straight shot)하는 것인가요?
A: 아마도요. 저는 거기에 장점이 있다고 생각합니다. 일상적인 시장 경쟁에 영향을 받지 않는다는 건 아주 좋은 일이니까요. 하지만 계획을 변경하게 만들 수 있는 두 가지 이유가 있다고 봅니다.
하**나는 실용적인 이유인데, 타임라인이 길어질 경우입니다. 그럴 수 있죠.**
둘째, 최고로 강력한 AI가 세상에 나와 영향을 미치는 것에 큰 가치가 있다고 생각합니다. 저는 이것이 의미 있게 가치 있는 일이라고 봅니다.
Q: 그렇다면 왜 기본 계획이 초지능으로 직행하는 것인가요? OpenAI나 Anthropic 같은 다른 회사들의 명시적인 생각은 "대중이 적응하고 대비할 수 있도록 점점 더 약한 지능을 내놓겠다"는 것인데요. 왜 초지능을 직접 만드는 게 잠재적으로 더 낫나요?
A: 찬성 논리와 반대 논리를 말씀드리겠습니다. **찬성 논리는, 시장에 있으면 '쥐 경주(rat race)'에 참여해야 한다는 어려움에 직면한다는 것입니다. 쥐 경주는 어려운 트레이드오프를 강요하기 때문에 꽤 힘듭니다. "우리는 이 모든 것에서 우리 자신을 격리하고 연구에만 집중해서, 준비되었을 때만 나오겠다"**라고 말하는 건 좋습니다.
하지만 반대 논리도 타당하며, 이들은 서로 대립하는 힘입니다. 반대 논리는 "세상이 강력한 AI를 보는 것이 유용하다"는 것입니다. 강력한 AI를 보는 것이 유용합니다. 그게 AI를 소통할 수 있는 유일한 방법이기 때문입니다.
Q: 아이디어를 소통하는 게 아니라요?
A: 아이디어가 아니라 AI를 소통하는 겁니다.
Q: "AI를 소통한다"는 게 무슨 뜻인가요?
A: AI에 대한 에세이를 쓴다고 가정해 봅시다. "AI는 이렇게 될 거고, 저렇게 될 거고..."라고 씁니다. 읽는 사람은 "오, 흥미로운 에세이네"라고 하겠죠. 이제 AI가 이걸 하고 저걸 하는 걸 본다고 가정해 봅시다. 비교가 안 됩니다. 기본적으로 저는 AI가 대중에게 공개되는 것에는 큰 이점이 있다고 생각하며, 그것이 우리가 완전히 직행하지 않을 이유가 될 수 있습니다.
Q: 다시 연구의 시대로 돌아간다면, 이제 분위기는 어떨까요? 예를 들어 알렉스넷(AlexNet) 이후에도 실험을 실행하는 데 드는 컴퓨팅 양은 계속 늘어났고 프런티어 시스템의 크기도 커졌습니다. 이번 연구의 시대에도 엄청난 양의 컴퓨팅이 필요할까요? 아니면 기록보관소로 돌아가 옛날 논문을 읽어야 할까요? 구글, OpenAI, 스탠포드에 계실 때 연구 분위기가 더 났던 시절엔 어땠나요? 커뮤니티에서 어떤 것들을 기대해야 할까요?
확장의 시대가 가져온 결과 중 하나는, 확장이 '방 안의 산소를 다 빨아들였다'는 것입니다. 확장이 공기를 다 빨아들이니 모두가 똑같은 일을 하기 시작했습니다. 아이디어보다 회사가 더 많은 세상이 되었죠.
실리콘밸리 격언 중에 **"아이디어는 저렴하고 실행이 전부다"**라는 말이 있습니다. 사람들이 많이들 그렇게 말하고 일리가 있습니다. 하지만 누군가 트위터에서 **"아이디어가 그렇게 저렴하면 왜 아무도 아이디어를 내지 않는 거지?"**라고 한 걸 봤는데, 그것도 사실입니다.
병목 현상 관점에서 연구 진행을 생각해보면 몇 가지 병목**이 있습니다. **하나는 아이디어고, 하나는 그걸 실현할 능력(컴퓨팅이나 엔지니어링)입니다. 90년대로 돌아가 보면 꽤 좋은 아이디어를 가진 사람들이 있었습니다. 훨씬 더 큰 컴퓨터가 있었다면 아이디어가 유효함을 증명했을지도 모르죠. 하지만 그럴 수 없었기에 아무도 설득하지 못하는 아주 작은 데모만 가질 수 있었습니다. 그때의 병목은 컴퓨팅이었죠.
그러다 확장의 시대에 컴퓨팅이 많이 늘어났습니다. 물론 얼마나 필요한지는 의문이지만 컴퓨팅은 큽니다. 어떤 아이디어를 증명하는 데 더 많은 컴퓨팅이 필요한지 명확하지 않을 만큼 큽니다. 비유를 들자면, 알렉스넷은 GPU 2개로 만들었습니다. 그게 사용된 컴퓨팅의 전부였죠. 트랜스포머는 8개에서 64개 GPU로 만들었습니다. 2017년의 어떤 단일 트랜스포머 논문 실험도 64개 이상의 GPU를 쓰지 않았는데, 오늘날로 치면 GPU 2개 정도일까요? 레즈넷(ResNet)도 그렇죠. o1 추론도 세상에서 가장 컴퓨팅을 많이 쓰는 건 아니라고 주장할 수 있습니다.
그래서 연구를 위해서는 확실히 어느 정도의 컴퓨팅이 필요하지만, 연구를 위해 '역대 최대 규모'의 컴퓨팅이 필요한지는 전혀 명확하지 않습니다. 물론 절대적으로 최고의 시스템을 구축하려면 훨씬 더 많은 컴퓨팅이 도움이 된다고 주장할 수 있고 그건 사실입니다. 특히 모두가 같은 패러다임 안에 있다면 컴퓨팅이 큰 차별화 요소가 되니까요.
Q: 역사에 대해 여쭤보는 건 당신이 실제로 거기에 있었기 때문입니다. 실제로 무슨 일이 있었는지 확신이 안 서서요. 최소한의 컴퓨팅으로 아이디어를 개발하는 게 가능했다는 것처럼 들리는데, 트랜스포머가 즉시 유명해지진 않았잖아요. 더 높은 수준의 컴퓨팅에서 검증되면서 모두가 사용하고 그 위에 쌓아 올리는 무언가가 되었죠.
A: 맞습니다.
Q: 만약 SSI(Safe Superintelligence)에 50가지 다른 아이디어가 있다면, 다른 프런티어 랩들이 가진 종류의 컴퓨팅 없이 어떤 게 차기 트랜스포머고 어떤 게 깨지기 쉬운지 어떻게 알 수 있나요?
A: 거기에 대해 코멘트할 수 있습니다. 짧게 말해 SSI를 언급하셨는데, 구체적으로 우리 SSI가 연구를 위해 가진 컴퓨팅 양은 그렇게 적지 않습니다. 왜 그런지 간단한 산수로 설명할 수 있습니다. SSI는 30억 달러(약 4조 원)를 모금했는데 절대적으로 큰 금액입니다. 물론 "다른 회사들은 훨씬 더 많이 모으잖아"라고 할 수 있습니다. 하지만 **그들의 컴퓨팅 대부분은 추론(inference)으로 나갑니다. 이 큰 숫자들, 큰 대출금들은 추론용으로 배정**된 겁니다. 그게 첫 번째고요.
두 번째, 추론을 하는 제품을 가지려면 엔지니어, 영업 사원 등 대규모 인력이 필요합니다. 많은 연구가 온갖 제품 관련 기능을 만드는 데 할애되어야 하죠. 그래서 실제로 '연구'에 남는 것을 보면 차이는 훨씬 작아집니다.
또 다른 점은, 만약 당신이 다른 무언가를 하고 있다면 그걸 증명하기 위해 절대적인 최대 규모가 정말 필요한가 하는 겁니다. 저는 전혀 그렇지 않다고 생각합니다. 우리 경우엔, 우리가 하는 일이 옳다는 걸 우리 자신과 다른 사람들에게 확신시켜 주기에 충분한 컴퓨팅을 가지고 있습니다.
Q: OpenAI 같은 회사들이 실험에만 연간 50~60억 달러를 쓴다는 공개 추정치가 있습니다. 이건 추론 등에 쓰는 돈과는 별개로요. 즉, 그들은 당신들이 가진 전체 자금보다 더 많은 돈을 매년 연구 실험에 쓰고 있는 것 같은데요.
A: 그건 그 돈으로 무엇을 하느냐의 문제입니다. 그들의 경우, 다른 회사들의 경우, 훈련 컴퓨팅에 대한 수요가 훨씬 더 많습니다. 훨씬 더 많은 작업 흐름(work stream)이 있고, 다른 모달리티(modality)가 있고, 그냥 할 게 더 많습니다. 그래서 파편화되죠.
Q: SSI는 돈을 어떻게 벌 건가요?
A: 그 질문에 대한 제 대답은 이렇습니다. 지금은 연구에만 집중하고, 그 질문에 대한 답은 나중에 저절로 드러날 겁니다. 가능한 답은 아주 많을 거라고 생각합니다.
Q: SSI의 계획은 여전히 초지능으로 직행(straight shot)하는 것인가요?
A: 아마도요. 저는 거기에 장점이 있다고 생각합니다. 일상적인 시장 경쟁에 영향을 받지 않는다는 건 아주 좋은 일이니까요. 하지만 계획을 변경하게 만들 수 있는 두 가지 이유가 있다고 봅니다.
하**나는 실용적인 이유인데, 타임라인이 길어질 경우입니다. 그럴 수 있죠.**
둘째, 최고로 강력한 AI가 세상에 나와 영향을 미치는 것에 큰 가치가 있다고 생각합니다. 저는 이것이 의미 있게 가치 있는 일이라고 봅니다.
Q: 그렇다면 왜 기본 계획이 초지능으로 직행하는 것인가요? OpenAI나 Anthropic 같은 다른 회사들의 명시적인 생각은 "대중이 적응하고 대비할 수 있도록 점점 더 약한 지능을 내놓겠다"는 것인데요. 왜 초지능을 직접 만드는 게 잠재적으로 더 낫나요?
A: 찬성 논리와 반대 논리를 말씀드리겠습니다. **찬성 논리는, 시장에 있으면 '쥐 경주(rat race)'에 참여해야 한다는 어려움에 직면한다는 것입니다. 쥐 경주는 어려운 트레이드오프를 강요하기 때문에 꽤 힘듭니다. "우리는 이 모든 것에서 우리 자신을 격리하고 연구에만 집중해서, 준비되었을 때만 나오겠다"**라고 말하는 건 좋습니다.
하지만 반대 논리도 타당하며, 이들은 서로 대립하는 힘입니다. 반대 논리는 "세상이 강력한 AI를 보는 것이 유용하다"는 것입니다. 강력한 AI를 보는 것이 유용합니다. 그게 AI를 소통할 수 있는 유일한 방법이기 때문입니다.
Q: 아이디어를 소통하는 게 아니라요?
A: 아이디어가 아니라 AI를 소통하는 겁니다.
Q: "AI를 소통한다"는 게 무슨 뜻인가요?
A: AI에 대한 에세이를 쓴다고 가정해 봅시다. "AI는 이렇게 될 거고, 저렇게 될 거고..."라고 씁니다. 읽는 사람은 "오, 흥미로운 에세이네"라고 하겠죠. 이제 AI가 이걸 하고 저걸 하는 걸 본다고 가정해 봅시다. 비교가 안 됩니다. 기본적으로 저는 AI가 대중에게 공개되는 것에는 큰 이점이 있다고 생각하며, 그것이 우리가 완전히 직행하지 않을 이유가 될 수 있습니다.
모든 지능을 갖춘 것이 AI가 아니라 지속적 학습을 통해 우리의 일상에 배포되고 지속적 학습을 통해서 더 나은 지능을 갖출 수 있는 것이 AGI다. 일을 빨리 배울 수 있는 AI가 나오면 규제가 덜한 국가/산업 현장에 먼저 배포되고 엄청나게 빠른 경제 성장을 이룰 수 있다. 지난 몇십년간 제조업을 집어 삼킨 중국이 AI로 재무장하면서 재도약한다면 어떤 세상이 오는걸까? 어쩌면 미국은 그게 가장 두렵지 않을까?
SSI의 모델은 배포를 통해 학습할 것이다 (SSI’s model will learn from deployment)
Q: 저는 최종 결과물을 안전하게 만드는 방법이 단순히 '어떻게 안전하게 만들까'를 생각하는 것만으로 이루어진 인간 공학이나 연구 분야를 떠올릴 수 없기 때문입니다. 비행기 사고율이 수십 년 전보다 훨씬 낮은 이유, 리눅스에서 버그를 찾는 게 훨씬 어려운 이유는 대부분 이 시스템들이 세상에 배포되었기 때문입니다. 실패를 목격하고, 수정되고, 시스템이 더 견고해졌죠. AGI나 초인적 지능이라고 왜 다르겠습니까? 특히 초지능의 해악이 단순히 사악한 클립 생산자가 돌아다니는 게 아니라면요. 이건 정말 강력한 것이고 우리는 사람들이 이것과 어떻게 상호작용할지, 무엇을 할지 개념화조차 못 하고 있습니다. 점진적인 접근(access)이 충격을 분산시키고 사람들이 대비하게 돕는 더 나은 방법 아닐까요?
A: 음, 그 점에 대해서는 직행 시나리오에서도 여전히 점진적인 출시(gradual release)를 할 겁니다. 그렇게 상상합니다.
점진주의(Gradualism)는 어떤 계획이든 내재된 구성 요소가 될 것입니다. 단지 문밖으로 내보내는 '첫 번째 것'이 무엇이냐의 문제입니다. 그게 첫 번째고요.
두 번째, 당신은 다른 사람들보다 **'지속적 학습(continual learning)'**을 더 옹호해 왔고, 저는 이것이 중요하고 올바른 것이라고 생각합니다. 이유는 이렇습니다. 언어가 사고에 영향을 미치는 또 다른 예를 들어보죠. 이번에는 모든 사람의 사고를 형성한 두 단어가 있다고 봅니다.
첫 번째 단어: AGI. 두 번째 단어: 사전 학습(Pre-training). 설명해 드리죠.
AGI라는 용어, 왜 존재할까요? 아주 특정한 용어잖아요. 제 생각에 AGI라는 용어가 존재하는 이유는 지능의 최종 상태를 설명하는 아주 중요하고 본질적인 서술어라서가 아니라, 다른 용어에 대한 반작용(reaction) 때문입니다. 그 용어는 바로 '좁은 AI(Narrow AI)'입니다.
게임 플레이와 AI의 고대사로 돌아가 보면, 체커 AI, 체스 AI, 컴퓨터 게임 AI를 보고 모두가 "이 좁은 지능 좀 봐. 체스 AI가 카스파로프를 이길 순 있어도 다른 건 못 하잖아. 너무 좁아. 인공 좁은 지능(ANI)이야."라고 했습니다. 그래서 이에 대한 반작용으로 어떤 사람들은 "이건 안 좋아. 너무 좁아. 우리에게 필요한 건 일반 AI(General AI), 모든 걸 다 할 수 있는 AI야."라고 했습니다. 그 용어가 탄력을 받았죠.
탄력을 받은 두 번째는 사전 학습, 구체적으로는 사전 학습의 레시피입니다. 사람들이 지금 RL을 하는 방식은 어쩌면 사전 학습의 개념적 각인(imprint)을 지우고 있는 것일지도 모릅니다. 하지만 사전 학습은 이런 속성을 가졌습니다. 사전 학습을 더 많이 하면 모델이 모든 면에서 거의 균일하게 더 좋아집니다. 일반 AI죠. 사전 학습이 AGI를 줍니다.
하지만 AGI와 사전 학습에 일어난 일은, 어떤 의미에서 목표를 지나쳐 버렸다는(overshot) 것**입니다. **"AGI"라는 용어를, 특히 사전 학습의 맥락에서 생각해보면, 인간은 AGI가 아니라는 걸 깨닫게 됩니다. 네, 기술의 토대는 분명히 있지만 인간은 엄청난 양의 지식이 부족합니다. 대신 우리는 지속적 학습에 의존합니다.
그러니 "성공해서 안전한 초지능을 만들었다"고 가정해 봅시다. 문제는 그걸 어떻게 정의하느냐입니다. 지속적 학습 곡선의 어디쯤에 있을까요? 저는 아주 의욕 넘치는 초지능 15세를 만듭니다. 아는 건 별로 없지만 훌륭한 학생이고 아주 열정적이죠. "가서 프로그래머가 돼, 가서 의사가 돼, 가서 배워."라고 합니다.
그러니까 배포 자체가 일종의 학습 시행착오 기간을 포함할 것이라고 상상할 수 있습니다. 완성된 물건을 툭 던져놓는 게 아니라 과정(process)인 거죠.
Q: 알겠습니다. 당신은 초지능이 경제의 모든 직업을 수행할 수 있는 '완성된 정신'이 아니라**고 시사하는 거군요. 원래 OpenAI 헌장 같은 곳에서 정의하는 AGI는 인간이 할 수 있는 모든 경제적 작업을 할 수 있는 것이잖아요. **당신은 대신 모든 직업을 '배울 수 있는' 정신을 제안하는 것이고, 그게 초지능이라는 거군요.
A: 네. 하지만 학습 알고리즘을 갖추면, 인간 노동자가 조직에 합류하는 것과 같은 방식으로 세상에 배포됩니다.
Q: 정확합니다. 두 가지 일 중 하나가 일어날 것 같습니다. 하나는 이 초효율적인 학습 알고리즘이 초인적이 되어, ML 연구 작업에서 당신만큼, 혹은 잠재적으로 더 잘하게 되는 것입니다. 그 결과 알고리즘 자체가 점점 더 초인적으로 변하겠죠. 다른 하나는, 설령 그런 일이 안 일어나더라도, 만약 당신에게 단일 모델이 있다면—이건 명시적으로 당신의 비전인데—**경제 전반에 배포되어 다른 일을 하고, 그 일을 배우고, 직무상 지속적으로 학습하며 인간이 익힐 수 있는 모든 기술을 익히는 모델의 인스턴스(instance)들이 있고, 그들의 학습 내용을 하나로 합친다면(amalgamating), 기본적으로 소프트웨어적인 자기 개선(recursive self-improvement) 없이도 기능적으로 초지능이 되는 모델을 갖게 됩니다.** 왜냐하면 이제 경제의 모든 직업을 수행할 수 있는 하나의 모델이 생겼고, 인간은 우리 마음을 그런 식으로 합칠 수 없으니까요. **그렇다면 광범위한 배포로 인한 지능 폭발(intelligence explosion)**을 예상하십니까?
A: 저는 빠른 경제 성장이 있을 가능성이 높다고 생각합니다. 광범위한 배포와 관련해서는 상충되는 두 가지 주장을 할 수 있습니다.
하나는, 일을 빨리 배우는 AI가 생기고 그게 많아지면, 이를 경제에 배포하려는 강력한 힘이 생길 것이라는 점**입니다. 규제로 막지 않는다면요(막을 수도 있겠지만). **한동안 매우 빠른 경제 성장이 일어날 가능성이 매우 높습니다.
얼마나 빠를지는 알기 어렵습니다. 한편으론 매우 효율적인 일꾼이 있지만, 다른 한편으론 세상이 정말 크고 많은 물건들이 있으며 그 물건들은 다른 속도로 움직이니까요. 하지만 AI가... 그래서 매우 빠른 경제 성장이 가능하다고 봅니다.
우리는 규칙이 다른 여러 나라를 보게 될 것이고, 더 친화적인 규칙을 가진 나라들의 경제 성장이 더 빠를 것입니다. 예측하기 어렵네요.
SSI의 모델은 배포를 통해 학습할 것이다 (SSI’s model will learn from deployment)
Q: 저는 최종 결과물을 안전하게 만드는 방법이 단순히 '어떻게 안전하게 만들까'를 생각하는 것만으로 이루어진 인간 공학이나 연구 분야를 떠올릴 수 없기 때문입니다. 비행기 사고율이 수십 년 전보다 훨씬 낮은 이유, 리눅스에서 버그를 찾는 게 훨씬 어려운 이유는 대부분 이 시스템들이 세상에 배포되었기 때문입니다. 실패를 목격하고, 수정되고, 시스템이 더 견고해졌죠. AGI나 초인적 지능이라고 왜 다르겠습니까? 특히 초지능의 해악이 단순히 사악한 클립 생산자가 돌아다니는 게 아니라면요. 이건 정말 강력한 것이고 우리는 사람들이 이것과 어떻게 상호작용할지, 무엇을 할지 개념화조차 못 하고 있습니다. 점진적인 접근(access)이 충격을 분산시키고 사람들이 대비하게 돕는 더 나은 방법 아닐까요?
A: 음, 그 점에 대해서는 직행 시나리오에서도 여전히 점진적인 출시(gradual release)를 할 겁니다. 그렇게 상상합니다.
점진주의(Gradualism)는 어떤 계획이든 내재된 구성 요소가 될 것입니다. 단지 문밖으로 내보내는 '첫 번째 것'이 무엇이냐의 문제입니다. 그게 첫 번째고요.
두 번째, 당신은 다른 사람들보다 **'지속적 학습(continual learning)'**을 더 옹호해 왔고, 저는 이것이 중요하고 올바른 것이라고 생각합니다. 이유는 이렇습니다. 언어가 사고에 영향을 미치는 또 다른 예를 들어보죠. 이번에는 모든 사람의 사고를 형성한 두 단어가 있다고 봅니다.
첫 번째 단어: AGI. 두 번째 단어: 사전 학습(Pre-training). 설명해 드리죠.
AGI라는 용어, 왜 존재할까요? 아주 특정한 용어잖아요. 제 생각에 AGI라는 용어가 존재하는 이유는 지능의 최종 상태를 설명하는 아주 중요하고 본질적인 서술어라서가 아니라, 다른 용어에 대한 반작용(reaction) 때문입니다. 그 용어는 바로 '좁은 AI(Narrow AI)'입니다.
게임 플레이와 AI의 고대사로 돌아가 보면, 체커 AI, 체스 AI, 컴퓨터 게임 AI를 보고 모두가 "이 좁은 지능 좀 봐. 체스 AI가 카스파로프를 이길 순 있어도 다른 건 못 하잖아. 너무 좁아. 인공 좁은 지능(ANI)이야."라고 했습니다. 그래서 이에 대한 반작용으로 어떤 사람들은 "이건 안 좋아. 너무 좁아. 우리에게 필요한 건 일반 AI(General AI), 모든 걸 다 할 수 있는 AI야."라고 했습니다. 그 용어가 탄력을 받았죠.
탄력을 받은 두 번째는 사전 학습, 구체적으로는 사전 학습의 레시피입니다. 사람들이 지금 RL을 하는 방식은 어쩌면 사전 학습의 개념적 각인(imprint)을 지우고 있는 것일지도 모릅니다. 하지만 사전 학습은 이런 속성을 가졌습니다. 사전 학습을 더 많이 하면 모델이 모든 면에서 거의 균일하게 더 좋아집니다. 일반 AI죠. 사전 학습이 AGI를 줍니다.
하지만 AGI와 사전 학습에 일어난 일은, 어떤 의미에서 목표를 지나쳐 버렸다는(overshot) 것**입니다. **"AGI"라는 용어를, 특히 사전 학습의 맥락에서 생각해보면, 인간은 AGI가 아니라는 걸 깨닫게 됩니다. 네, 기술의 토대는 분명히 있지만 인간은 엄청난 양의 지식이 부족합니다. 대신 우리는 지속적 학습에 의존합니다.
그러니 "성공해서 안전한 초지능을 만들었다"고 가정해 봅시다. 문제는 그걸 어떻게 정의하느냐입니다. 지속적 학습 곡선의 어디쯤에 있을까요? 저는 아주 의욕 넘치는 초지능 15세를 만듭니다. 아는 건 별로 없지만 훌륭한 학생이고 아주 열정적이죠. "가서 프로그래머가 돼, 가서 의사가 돼, 가서 배워."라고 합니다.
그러니까 배포 자체가 일종의 학습 시행착오 기간을 포함할 것이라고 상상할 수 있습니다. 완성된 물건을 툭 던져놓는 게 아니라 과정(process)인 거죠.
Q: 알겠습니다. 당신은 초지능이 경제의 모든 직업을 수행할 수 있는 '완성된 정신'이 아니라**고 시사하는 거군요. 원래 OpenAI 헌장 같은 곳에서 정의하는 AGI는 인간이 할 수 있는 모든 경제적 작업을 할 수 있는 것이잖아요. **당신은 대신 모든 직업을 '배울 수 있는' 정신을 제안하는 것이고, 그게 초지능이라는 거군요.
A: 네. 하지만 학습 알고리즘을 갖추면, 인간 노동자가 조직에 합류하는 것과 같은 방식으로 세상에 배포됩니다.
Q: 정확합니다. 두 가지 일 중 하나가 일어날 것 같습니다. 하나는 이 초효율적인 학습 알고리즘이 초인적이 되어, ML 연구 작업에서 당신만큼, 혹은 잠재적으로 더 잘하게 되는 것입니다. 그 결과 알고리즘 자체가 점점 더 초인적으로 변하겠죠. 다른 하나는, 설령 그런 일이 안 일어나더라도, 만약 당신에게 단일 모델이 있다면—이건 명시적으로 당신의 비전인데—**경제 전반에 배포되어 다른 일을 하고, 그 일을 배우고, 직무상 지속적으로 학습하며 인간이 익힐 수 있는 모든 기술을 익히는 모델의 인스턴스(instance)들이 있고, 그들의 학습 내용을 하나로 합친다면(amalgamating), 기본적으로 소프트웨어적인 자기 개선(recursive self-improvement) 없이도 기능적으로 초지능이 되는 모델을 갖게 됩니다.** 왜냐하면 이제 경제의 모든 직업을 수행할 수 있는 하나의 모델이 생겼고, 인간은 우리 마음을 그런 식으로 합칠 수 없으니까요. **그렇다면 광범위한 배포로 인한 지능 폭발(intelligence explosion)**을 예상하십니까?
A: 저는 빠른 경제 성장이 있을 가능성이 높다고 생각합니다. 광범위한 배포와 관련해서는 상충되는 두 가지 주장을 할 수 있습니다.
하나는, 일을 빨리 배우는 AI가 생기고 그게 많아지면, 이를 경제에 배포하려는 강력한 힘이 생길 것이라는 점**입니다. 규제로 막지 않는다면요(막을 수도 있겠지만). **한동안 매우 빠른 경제 성장이 일어날 가능성이 매우 높습니다.
얼마나 빠를지는 알기 어렵습니다. 한편으론 매우 효율적인 일꾼이 있지만, 다른 한편으론 세상이 정말 크고 많은 물건들이 있으며 그 물건들은 다른 속도로 움직이니까요. 하지만 AI가... 그래서 매우 빠른 경제 성장이 가능하다고 봅니다.
우리는 규칙이 다른 여러 나라를 보게 될 것이고, 더 친화적인 규칙을 가진 나라들의 경제 성장이 더 빠를 것입니다. 예측하기 어렵네요.
정렬 (Alignment)
Q: 이건 매우 불안정한(precarious) 상황인 것 같습니다. 극한으로 가면, 이것이 가능해야 한다는 걸 우린 압니다. 학습에 있어서 인간만큼 뛰어나지만, 인간은 할 수 없는 방식으로 뇌(인스턴스)를 합칠 수 있는 무언가가 있다면, 이건 물리적으로 가능해야 합니다. 인간도 가능하고 디지털 컴퓨터도 가능하니까요. 이 둘을 결합하면 됩니다. 이런 종류의 것은 극도로 강력해 보입니다. 경제 성장은 한 가지 표현일 뿐이죠. 다이슨 스피어도 많은 경제 성장이니까요. 하지만 다르게 표현하면, 잠재적으로 아주 짧은 기간 안에... SSI에 사람을 채용하면 6개월 뒤에 순생산성을 내겠죠. 인간은 정말 빨리 배우고, 이 존재는 정말 빨리 똑똑해집니다. 이 과정이 잘 진행되게 하려면 어떻게 생각해야 할까요? SSI는 왜 그걸 잘할 수 있는 위치에 있나요? SSI의 계획은 무엇입니까?
A: 제 생각이 바뀌고 있는 부분 중 하나는, 이제 **AI가 점진적으로, 그리고 미리 배포되는 것에 더 많은 중요성을 둔다**는 점입니다. **AI의 아주 어려운 점 중 하나는 아직 존재하지 않는 시스템에 대해 이야기하고 있고 상상하기 어렵다**는 것입니다.
실제로 AGI를 느끼기는 매우 어렵습니다. 우리가 늙고 쇠약해졌을 때 늙음이 어떤 것인지 대화하는 것과 같습니다. 대화하고 상상해 볼 순 있지만 그냥 어렵습니다. 그리고 현실로 돌아오면 그렇지 않죠. AGI와 미래의 힘에 관한 많은 이슈는 상상하기 어렵다는 사실에서 기인한다고 봅니다.
미래의 AI는 다를 겁니다. 강력할 겁니다. 사실 AI와 AGI의 문제는 무엇입니까? 문제는 힘(power)입니다. 힘이 정말 커지면 무슨 일이 일어날까요?
지난 1년 동안 제가 생각을 바꾼 방식 중 하나는(그리고 그 생각의 변화는 우리 회사 계획으로 역전파될 수도 있습니다), 상**상하기 어렵다면 어떻게 해야 할까요? 그 물건을 보여줘야 합니다. 보여줘야 해요. 저는 AI 분야에서 일하는 대부분의 사람들도 미래의 AI를 상상하지 못한다고 봅니다. 사람들이 매일 보는 것과 너무 다르기 때문이죠.**
제가 일어날 것이라고 예측하는 게 있습니다. AI가 더 강력해질수록 사람들은 행동을 바꿀 것입니다. 지금은 일어나지 않는 온갖 전례 없는 일들을 보게 될 것입니다. 예를 들어, 좋든 나쁘든 프런티어 기업들은 일어날 일에 매우 중요한 역할을 할 것이고, 정부도 그럴 것입니다.
우리가 보게 될 일들, 그 시작을 보고 있는 일들은 치열한 경쟁 관계인 기업들이 AI 안전에 대해 협력하기 시작하는 것입니다. OpenAI와 Anthropic이 첫 번째 작은 발걸음을 떼는 걸 보셨을 수도 있지만, 그전엔 없던 일입니다. 이건 제가 3년 전 강연에서 일어날 것이라고 예측했던 일입니다. 또 AI가 계속 더 강력해지고 눈에 띄게 강력해짐에 따라, 정부와 대중으로부터 무언가를 해야 한다는 욕구도 생길 것입니다. AI를 보여주는 것은 매우 중요한 힘입니다. 그게 첫 번째고요.
두 번째, AI가 만들어지고 있습니다. 무엇을 해야 할까요? 지금 AI가 강력하게 느껴지지 않는 이유는 실수 때문이라고 봅니다. 언젠가 AI가 정말 강력하게 느껴지기 시작할 때가 올 겁니다. 그때가 되면 모든 AI 기업이 안전에 접근하는 방식에 큰 변화가 생길 것입니다. 훨씬 더 편집증적(paranoid)으로 변할 겁니다. 저는 이걸 일어날 일이라고 예측합니다. 제가 맞는지 두고 보죠. 그들이 AI가 더 강력해지는 걸 볼 것이기 때문에 일어날 일이라고 생각합니다. 지금 일어나는 모든 일은 사람들이 오늘의 AI만 보고 미래의 AI를 상상하기 어렵기 때문입니다.
세 번째로 일어나야 할 일이 있습니다. SSI 관점뿐만 아니라 더 넓은 관점에서, 기업들은 무엇을 만들기를 열망해야 할까요?
모두가 갇혀 있는 하나의 큰 아이디어가 있습니다. 바로 '자기 개선 AI(self-improving AI)'입니다. 왜 그럴까요? 회사보다 아이디어가 적기 때문입니다. 하지만 저는 더 만들기 좋은 것이 있고 모두가 그걸 원하게 될 것이라고 봅니다.
바로 '지각 있는 생명체(sentient life)를 구체적으로 아끼도록 견고하게 정렬된 AI'**입니다. 특히 인간의 생명만 아끼는 AI보다 지각 있는 생명체를 아끼는 AI를 만드는 게 더 쉬울 것이라는 주장이 가능합니다. AI 자체가 지각이 있을(sentient) 것이기 때문입니다. 거울 뉴런이나 인간의 동물에 대한 공감 등을 생각해보면, (충분하지 않다고 주장할 수도 있겠지만) 존재하긴 합니다. **우리는 우리 자신을 모델링하는 것과 같은 회로를 사용해 타인을 모델링합니다. 그게 가장 효율적이니까요.
Q: 설령 AI가 지각 있는 존재를 아끼게 만든다 해도(정렬을 해결했다면 그게 시도해야 할 목표인지조차 불확실하지만), 대부분의 지각 있는 존재는 AI가 될 것입니다. 수조, 결국엔 수천조의 AI가 있겠죠. 인간은 지각 있는 존재 중 아주 작은 부분이 될 것입니다. 그래서 목표가 미래 문명에 대한 인간의 통제라면 이것이 최선의 기준인지는 명확하지 않습니다.
맞습니다. 최선의 기준이 아닐 수도 있습니다. 두 가지를 말씀드리겠습니다. 첫째, 지각 있는 생명체에 대한 배려, 여기엔 장점이 있습니다. 고려해 봐야 합니다. 기업들이 이런 상황에 처했을 때 사용할 수 있는 짧은 아이디어 목록이 있다면 도움이 될 것입니다.
둘째, 가장 강력한 초지능의 힘이 어떻게든 제한된다면(capped), 그것이 이런 우려들을 해소하는 데 실질적으로 도움이 될 것입니다. 어떻게 할지는 확실치 않지만, 정말 강력한 시스템에 대해 이야기할 때 실질적인 도움이 될 것입니다.
Q: 정렬 논의를 계속하기 전에 그 부분을 더 파고들고 싶습니다. 정상에 공간이 얼마나 있나요? 초지능을 어떻게 생각하십니까? 학습 효율성 아이디어를 사용하면, 그냥 새로운 기술이나 지식을 배우는 속도가 엄청나게 빠른 건가요? 전략의 풀이 더 큰 건가요? 중심에 더 강력하거나 큰 하나의 응집력 있는 "그것"이 있나요? 만약 그렇다면, 이것이 나머지 인류 문명에 비해 신과 같은 존재가 될까요, 아니면 그냥 또 다른 에이전트, 혹은 에이전트들의 무리처럼 느껴질까요?
A: 이 부분은 사람마다 직관이 다릅니다. 확실히 매우 강력할 것입니다. 가장 일어날 가능성이 높은 일은, 그런 AI가 여러 개, 대략 같은 시기에 만들어지는 것입니다. 만약 클러스터가 충분히 크다면—문자 그대로 대륙 크기의 클러스터라면—그건 정말, 정말 강력할 수 있습니다. 문자 그대로 대륙 크기의 클러스터를 가진다면 그 AI들은 매우 강력할 수 있습니다. 제가 말할 수 있는 건 극도로 강력한, 정말 극적으로 강력한 AI에 대해 이야기한다면, 그것들이 어떤 방식으로든 제한되거나 어떤 종류의 합의 같은 것이 있다면 좋을 것이라는 점입니다.
Q: 초지능에 대한 우려가 무엇입니까?
A: 우려를 설명하는 한 가지 방법은 이렇습니다. 충분히 강력한 시스템, 정말 충분히 강력한 시스템을 상상해 보세요. 그리고 '지각 있는 생명체를 아낀다' 같이 합리적인 일을 매우 외골수적인(single-minded) 방식으로 수행한다고 해도, 우리는 그 결과를 좋아하지 않을 수도 있습니다. 그게 진짜 문제입니다.
어쩌면 답은 일반적인 의미의 RL 에이전트를 만들지 않는 것일 수도 있습니다. 몇 가지 지적하고 싶습니다. 인간은 반(semi)-RL 에이전트라고 생각합니다. 우리는 보상을 추구하다가, 감정 같은 것 때문에 그 보상에 지쳐서 다른 보상을 추구합니다. 시장(market)은 매우 근시안적인 종류의 에이전트입니다. 진화도 마찬가지입니다. 어떤 면에서는 매우 지능적이지만 다른 면에서는 매우 멍청하죠. 정부는 세 부분 사이의 끝없는 싸움이 되도록 설계되었고, 이는 어떤 효과를 냅니다. 저는 이런 것들을 생각합니다.
Q: 이건 매우 불안정한(precarious) 상황인 것 같습니다. 극한으로 가면, 이것이 가능해야 한다는 걸 우린 압니다. 학습에 있어서 인간만큼 뛰어나지만, 인간은 할 수 없는 방식으로 뇌(인스턴스)를 합칠 수 있는 무언가가 있다면, 이건 물리적으로 가능해야 합니다. 인간도 가능하고 디지털 컴퓨터도 가능하니까요. 이 둘을 결합하면 됩니다. 이런 종류의 것은 극도로 강력해 보입니다. 경제 성장은 한 가지 표현일 뿐이죠. 다이슨 스피어도 많은 경제 성장이니까요. 하지만 다르게 표현하면, 잠재적으로 아주 짧은 기간 안에... SSI에 사람을 채용하면 6개월 뒤에 순생산성을 내겠죠. 인간은 정말 빨리 배우고, 이 존재는 정말 빨리 똑똑해집니다. 이 과정이 잘 진행되게 하려면 어떻게 생각해야 할까요? SSI는 왜 그걸 잘할 수 있는 위치에 있나요? SSI의 계획은 무엇입니까?
A: 제 생각이 바뀌고 있는 부분 중 하나는, 이제 **AI가 점진적으로, 그리고 미리 배포되는 것에 더 많은 중요성을 둔다**는 점입니다. **AI의 아주 어려운 점 중 하나는 아직 존재하지 않는 시스템에 대해 이야기하고 있고 상상하기 어렵다**는 것입니다.
실제로 AGI를 느끼기는 매우 어렵습니다. 우리가 늙고 쇠약해졌을 때 늙음이 어떤 것인지 대화하는 것과 같습니다. 대화하고 상상해 볼 순 있지만 그냥 어렵습니다. 그리고 현실로 돌아오면 그렇지 않죠. AGI와 미래의 힘에 관한 많은 이슈는 상상하기 어렵다는 사실에서 기인한다고 봅니다.
미래의 AI는 다를 겁니다. 강력할 겁니다. 사실 AI와 AGI의 문제는 무엇입니까? 문제는 힘(power)입니다. 힘이 정말 커지면 무슨 일이 일어날까요?
지난 1년 동안 제가 생각을 바꾼 방식 중 하나는(그리고 그 생각의 변화는 우리 회사 계획으로 역전파될 수도 있습니다), 상**상하기 어렵다면 어떻게 해야 할까요? 그 물건을 보여줘야 합니다. 보여줘야 해요. 저는 AI 분야에서 일하는 대부분의 사람들도 미래의 AI를 상상하지 못한다고 봅니다. 사람들이 매일 보는 것과 너무 다르기 때문이죠.**
제가 일어날 것이라고 예측하는 게 있습니다. AI가 더 강력해질수록 사람들은 행동을 바꿀 것입니다. 지금은 일어나지 않는 온갖 전례 없는 일들을 보게 될 것입니다. 예를 들어, 좋든 나쁘든 프런티어 기업들은 일어날 일에 매우 중요한 역할을 할 것이고, 정부도 그럴 것입니다.
우리가 보게 될 일들, 그 시작을 보고 있는 일들은 치열한 경쟁 관계인 기업들이 AI 안전에 대해 협력하기 시작하는 것입니다. OpenAI와 Anthropic이 첫 번째 작은 발걸음을 떼는 걸 보셨을 수도 있지만, 그전엔 없던 일입니다. 이건 제가 3년 전 강연에서 일어날 것이라고 예측했던 일입니다. 또 AI가 계속 더 강력해지고 눈에 띄게 강력해짐에 따라, 정부와 대중으로부터 무언가를 해야 한다는 욕구도 생길 것입니다. AI를 보여주는 것은 매우 중요한 힘입니다. 그게 첫 번째고요.
두 번째, AI가 만들어지고 있습니다. 무엇을 해야 할까요? 지금 AI가 강력하게 느껴지지 않는 이유는 실수 때문이라고 봅니다. 언젠가 AI가 정말 강력하게 느껴지기 시작할 때가 올 겁니다. 그때가 되면 모든 AI 기업이 안전에 접근하는 방식에 큰 변화가 생길 것입니다. 훨씬 더 편집증적(paranoid)으로 변할 겁니다. 저는 이걸 일어날 일이라고 예측합니다. 제가 맞는지 두고 보죠. 그들이 AI가 더 강력해지는 걸 볼 것이기 때문에 일어날 일이라고 생각합니다. 지금 일어나는 모든 일은 사람들이 오늘의 AI만 보고 미래의 AI를 상상하기 어렵기 때문입니다.
세 번째로 일어나야 할 일이 있습니다. SSI 관점뿐만 아니라 더 넓은 관점에서, 기업들은 무엇을 만들기를 열망해야 할까요?
모두가 갇혀 있는 하나의 큰 아이디어가 있습니다. 바로 '자기 개선 AI(self-improving AI)'입니다. 왜 그럴까요? 회사보다 아이디어가 적기 때문입니다. 하지만 저는 더 만들기 좋은 것이 있고 모두가 그걸 원하게 될 것이라고 봅니다.
바로 '지각 있는 생명체(sentient life)를 구체적으로 아끼도록 견고하게 정렬된 AI'**입니다. 특히 인간의 생명만 아끼는 AI보다 지각 있는 생명체를 아끼는 AI를 만드는 게 더 쉬울 것이라는 주장이 가능합니다. AI 자체가 지각이 있을(sentient) 것이기 때문입니다. 거울 뉴런이나 인간의 동물에 대한 공감 등을 생각해보면, (충분하지 않다고 주장할 수도 있겠지만) 존재하긴 합니다. **우리는 우리 자신을 모델링하는 것과 같은 회로를 사용해 타인을 모델링합니다. 그게 가장 효율적이니까요.
Q: 설령 AI가 지각 있는 존재를 아끼게 만든다 해도(정렬을 해결했다면 그게 시도해야 할 목표인지조차 불확실하지만), 대부분의 지각 있는 존재는 AI가 될 것입니다. 수조, 결국엔 수천조의 AI가 있겠죠. 인간은 지각 있는 존재 중 아주 작은 부분이 될 것입니다. 그래서 목표가 미래 문명에 대한 인간의 통제라면 이것이 최선의 기준인지는 명확하지 않습니다.
맞습니다. 최선의 기준이 아닐 수도 있습니다. 두 가지를 말씀드리겠습니다. 첫째, 지각 있는 생명체에 대한 배려, 여기엔 장점이 있습니다. 고려해 봐야 합니다. 기업들이 이런 상황에 처했을 때 사용할 수 있는 짧은 아이디어 목록이 있다면 도움이 될 것입니다.
둘째, 가장 강력한 초지능의 힘이 어떻게든 제한된다면(capped), 그것이 이런 우려들을 해소하는 데 실질적으로 도움이 될 것입니다. 어떻게 할지는 확실치 않지만, 정말 강력한 시스템에 대해 이야기할 때 실질적인 도움이 될 것입니다.
Q: 정렬 논의를 계속하기 전에 그 부분을 더 파고들고 싶습니다. 정상에 공간이 얼마나 있나요? 초지능을 어떻게 생각하십니까? 학습 효율성 아이디어를 사용하면, 그냥 새로운 기술이나 지식을 배우는 속도가 엄청나게 빠른 건가요? 전략의 풀이 더 큰 건가요? 중심에 더 강력하거나 큰 하나의 응집력 있는 "그것"이 있나요? 만약 그렇다면, 이것이 나머지 인류 문명에 비해 신과 같은 존재가 될까요, 아니면 그냥 또 다른 에이전트, 혹은 에이전트들의 무리처럼 느껴질까요?
A: 이 부분은 사람마다 직관이 다릅니다. 확실히 매우 강력할 것입니다. 가장 일어날 가능성이 높은 일은, 그런 AI가 여러 개, 대략 같은 시기에 만들어지는 것입니다. 만약 클러스터가 충분히 크다면—문자 그대로 대륙 크기의 클러스터라면—그건 정말, 정말 강력할 수 있습니다. 문자 그대로 대륙 크기의 클러스터를 가진다면 그 AI들은 매우 강력할 수 있습니다. 제가 말할 수 있는 건 극도로 강력한, 정말 극적으로 강력한 AI에 대해 이야기한다면, 그것들이 어떤 방식으로든 제한되거나 어떤 종류의 합의 같은 것이 있다면 좋을 것이라는 점입니다.
Q: 초지능에 대한 우려가 무엇입니까?
A: 우려를 설명하는 한 가지 방법은 이렇습니다. 충분히 강력한 시스템, 정말 충분히 강력한 시스템을 상상해 보세요. 그리고 '지각 있는 생명체를 아낀다' 같이 합리적인 일을 매우 외골수적인(single-minded) 방식으로 수행한다고 해도, 우리는 그 결과를 좋아하지 않을 수도 있습니다. 그게 진짜 문제입니다.
어쩌면 답은 일반적인 의미의 RL 에이전트를 만들지 않는 것일 수도 있습니다. 몇 가지 지적하고 싶습니다. 인간은 반(semi)-RL 에이전트라고 생각합니다. 우리는 보상을 추구하다가, 감정 같은 것 때문에 그 보상에 지쳐서 다른 보상을 추구합니다. 시장(market)은 매우 근시안적인 종류의 에이전트입니다. 진화도 마찬가지입니다. 어떤 면에서는 매우 지능적이지만 다른 면에서는 매우 멍청하죠. 정부는 세 부분 사이의 끝없는 싸움이 되도록 설계되었고, 이는 어떤 효과를 냅니다. 저는 이런 것들을 생각합니다.
❤2
이 논의를 어렵게 만드는 또 다른 점은 우리가 존재하지 않는, 만드는 법도 모르는 시스템에 대해 이야기하고 있다는 것입니다. 그게 제 믿음입니다. 사람들이 지금 하고 있는 것은 어느 정도 가다가 힘이 빠질(peter out) 것입니다. 계속 개선되겠지만 "그것(it)"은 아닐 겁니다. "그것"을 우리는 만드는 법을 모르고, 많은 것이 '신뢰할 수 있는 일반화'를 이해하는 데 달려 있습니다.
하나 더 말씀드리자면, 정렬을 어렵게 만드는 원인 중 하나는 인간 가치를 배우는 능력이 취약하다는 것입니다. 그리고 그것을 최적화하는 능력도 취약합니다. 실제로 최적화하는 법을 배우니까요. "이 모든 게 신뢰할 수 없는 일반화의 사례 아닌가요?"라고 말할 수 있지 않을까요? 왜 인간은 훨씬 더 잘 일반화하는 것처럼 보일까요? 일반화가 훨씬 더 좋다면 어떻게 될까요? 어떤 효과가 있을까요? 하지만 그런 질문들은 지금으로선 여전히 대답할 수 없습니다.
Q: AI가 잘 진행되는 모습은 어떻게 생각해야 할까요? AI가 어떻게 진화할지 범위를 잡으셨습니다. 지속적 학습 에이전트가 있을 것이고, AI는 매우 강력할 것이며, 아마도 많은 다른 AI들이 있을 것입니다. 대륙 크기의 컴퓨팅 지능들이 돌아다니는 상황을 어떻게 생각하십니까? 얼마나 위험한가요? 어떻게 덜 위험하게 만들까요? 그리고 정렬되지 않은 AI나 나쁜 행위자가 있을 수 있는 균형(equilibrium)을 어떻게 보호할까요?
A: 제가 "지각 있는 생명체를 아끼는 AI"를 좋아했던 이유 중 하나가 이겁니다. 그게 좋은지 나쁜지는 논쟁할 수 있습니다. 하지만 만약 이 극적인 시스템들 중 처음 N개가 인류를 아끼고 사랑한다면, 혹은 지각 있는 생명체를 아낀다면(물론 이것도 달성되어야 합니다. 달성되어야 해요), 그렇다면 저는 꽤 오랫동안 상황이 잘 풀릴 수 있다고 봅니다.
그러면 장기적으로 무슨 일이 일어날까 하는 질문이 남습니다. 장기적 균형을 어떻게 달성할까요? 거기에도 답이 있다고 생각합니다. 저는 이 답을 좋아하지 않지만, 고려해 봐야 합니다.
장기적으로 "강력한 AI들이 존재하는 세상이라면 단기적으로는 보편적 고소득(universal high income)을 얻고 다들 잘 살 거야"라고 말할 수 있습니다. 하지만 불교 신자들은 뭐라고 합니까? "변화만이 유일한 상수다." 상황은 변합니다. 정부나 정치 구조 같은 게 있고 기능하다가 유효기간이 지나면 멈춥니다. 우리는 그런 일이 일어나는 걸 늘 봅니다.
**장기적 균형을 위한 한 가지 접근법은 모든 사람이 자신의 명령을 수행하는 AI를 갖는 것**입니다. 그게 영구적으로 유지될 수 있다면 좋겠죠. 하지만 단점은 AI가 나가서 돈을 벌어오고 정치 영역에서 그 사람의 필요를 대변하고, "제가 이런 걸 했고 상황은 이렇습니다"라고 보고서를 쓰면 사람은 "좋아, 계속해"라고 하는 식이라는 겁니다. 사람은 더 이상 참여자가 아닙니다. 그건 위태로운 위치라고 할 수 있습니다.
먼저 말해두지만 저는 이 해결책을 좋아하지 않습니다. 하지만 해결책이긴 합니다. **해결책은 사람들이 어떤 종류의 뉴럴링크++(Neuralink++) 같은 것으로 '부분적 AI(part-AI)'가 되는 것**입니다.
그 결과 무슨 일이 일어나냐면, 이제 AI가 무언가를 이해하면 우리도 이해하게 됩니다. 이해가 통째로 전달되니까요. 그래서 AI가 어떤 상황에 처하면 당신도 그 상황에 완전히 참여하게 됩니다. 저는 이것이 균형에 대한 답이라고 생각합니다.
Q: 수백만 년, 혹은 수십억 년 전 전혀 다른 환경에서 발달한 감정이 여전히 우리의 행동을 강력하게 인도하고 있다는 사실이 정렬 성공의 예시인지 궁금합니다. 무슨 뜻이냐면, 가치 함수인지 보상 함수인지 모르겠지만, 뇌간(brainstem)에는 "더 성공적인 누군가와 짝짓기하라"는 지시가 있습니다. 대뇌피질은 현대적 맥락에서 성공이 무엇인지 이해하는 부분이죠. 하지만 뇌간은 대뇌피질을 정렬시켜 "네가 성공을 무엇으로 인식하든—난 그게 뭔지 이해할 만큼 똑똑하지 않지만—넌 여전히 이 지시를 따를 거야"라고 말할 수 있습니다.
A: 더 일반적인 요점이 있다고 생각합니다. 저는 진화가 어떻게 고차원적인 욕구를 인코딩하는지 정말 미스터리라고 생각합니다. 진화가 냄새 좋은 음식을 갈망하게 하는 건 이해하기 쉽습니다. 냄새는 화학물질이니 그 화학물질을 쫓으면 되니까요. 진화가 그런 걸 하는 건 상상하기 쉽습니다.
하지만 진화는 우리에게 온갖 사회적 욕구도 부여**했습니다. 우리는 **사회적으로 긍정적으로 보이는 것에 정말 신경 씁니다. 좋은 평판을 유지하는 것에 신경 쓰죠. 우리가 가진 이 모든 사회적 직관들이 우리 안에 구워져(baked in) 있다고 강하게 느낍니다.
진화가 어떻게 그걸 했는지 모르겠습니다. 그건 **뇌에 표현된 고차원적인 개념**이니까요. 어떤 사회적인 것에 신경 쓴다고 칩시다. 냄새 같은 저차원 신호가 아닙니다. 센서가 있는 것도 아니죠. 뇌는 사회적으로 무슨 일이 일어나고 있는지 이해하기 위해 수많은 정보 조각을 맞추는 많은 계산을 해야 합니다.
그런데 어떻게든 진화는 "그게 네가 신경 써야 할 거야"라고 했습니다. 어떻게 했을까요? 심지어 빨리 해냈습니다. 우리가 신경 쓰는 이 모든 정교한 사회적 것들은 꽤 최근에 진화했으니까요. 진화는 이 고차원적 욕구를 하드코딩하는 데 어려움이 없었습니다.
어떻게 했는지에 대한 좋은 가설을 저는 모릅니다. 몇 가지 아이디어를 굴려봤지만 만족스러운 건 없었습니다.
Q: 특히 인상적인 건 당신이 살면서 배운 욕구라는 점입니다. 당신의 뇌가 지능적이기 때문에 지능적인 욕구를 배울 수 있다는 건 말이 됩니다. 제 요점은 욕구가 게놈(genome)에 내장되어 있는데 게놈은 지능적이지 않다는 겁니다. 하지만 당신은 이 특징을 설명할 수 있습니다. 그 특징을 어떻게 정의하는지조차 명확하지 않은데 유전자에 넣을 수 있죠.
A: 기본적으로, 혹은 다르게 표현해 보겠습니다. 게놈이 사용할 수 있는 도구를 생각해 보면, "자, 여기 뇌를 만드는 레시피가 있어"라고 합니다. "도파민 뉴런을 후각 센서에 연결해"라고 할 수 있습니다. 어떤 종류의 좋은 냄새가 나면 먹고 싶어지겠죠. 게놈이 그런 일을 하는 건 상상할 수 있습니다.
제가 주장하는 건 상상하기 더 어렵다는 겁니다. 게놈이 "너는 뇌 전체, 혹은 뇌의 큰 부분이 수행하는 어떤 복잡한 계산에 대해 신경 써야 해"라고 말하는 걸 상상하기가요. 그게 제가 주장하는 전부입니다. 어떻게 했을지에 대한 추측은 해볼 수 있습니다.
추측을 하나 제시하고, 왜 그 추측이 아마 틀렸는지 설명해 드리죠. 뇌에는 영역들이 있습니다. 대뇌피질이 있죠. 피질은 균일하지만 뇌 영역들과 피질의 뉴런들은 대개 이웃들과 대화합니다. 그게 뇌 영역이 생기는 이유입니다. 음성 처리를 하려면 음성을 다루는 모든 뉴런이 서로 대화해야 하니까요. 뉴런은 대개 가까운 이웃하고만 대화할 수 있어서 영역이 되어야 합니다. 모든 영역은 사람마다 대개 같은 위치에 있습니다.
그러니 어쩌면 진화가 말 그대로 뇌의 위치를 하드코딩했을 수도 있습니다. "오, 뇌의 GPS 좌표 몇 콤마 몇이 활성화되면, 그게 네가 신경 써야 할 거야."라고요. 진화의 도구 상자 안에 있는 방법이니까 그렇게 했을 수도 있죠.
Q: 네, 하지만 선천적 시각장애인의 경우 그 피질 영역이 다른 감각에 의해 채택되는 예들이 있습니다. 시각이 없어도 사람들이 나를 좋아해 줬으면 하는 느낌(보통 시각적 단서가 있는)을 여전히 느낄 수 있는지 모르겠네요.
A: 전적으로 동의합니다. 이 이론에 대한 훨씬 더 강력한 반론이 있습니다. 어린 시절에 뇌의 절반을 제거하는 수술을 받고도 여전히 모든 뇌 영역을 가진 사람들이 있습니다. 그 영역들이 어떻게든 하나의 반구로 이동하죠. 이는 뇌 영역의 위치가 고정되어 있지 않다는 것을 시사하며, 따라서 그 이론은 사실이 아닙니다. 사실이었다면 멋졌겠지만 아닙니다. 그래서 미스터리입니다. 하지만 흥미로운 미스터리죠. 진화가 어떻게든 우리가 사회적 문제에 매우, 매우 신뢰성 있게 신경 쓰도록 부여할 수 있었다는 사실 말입니다. 온갖 이상한 정신 상태나 결핍, 정서적 문제를 가진 사람들도 이런 것에는 신경 쓰는 경향이 있습니다.
하나 더 말씀드리자면, 정렬을 어렵게 만드는 원인 중 하나는 인간 가치를 배우는 능력이 취약하다는 것입니다. 그리고 그것을 최적화하는 능력도 취약합니다. 실제로 최적화하는 법을 배우니까요. "이 모든 게 신뢰할 수 없는 일반화의 사례 아닌가요?"라고 말할 수 있지 않을까요? 왜 인간은 훨씬 더 잘 일반화하는 것처럼 보일까요? 일반화가 훨씬 더 좋다면 어떻게 될까요? 어떤 효과가 있을까요? 하지만 그런 질문들은 지금으로선 여전히 대답할 수 없습니다.
Q: AI가 잘 진행되는 모습은 어떻게 생각해야 할까요? AI가 어떻게 진화할지 범위를 잡으셨습니다. 지속적 학습 에이전트가 있을 것이고, AI는 매우 강력할 것이며, 아마도 많은 다른 AI들이 있을 것입니다. 대륙 크기의 컴퓨팅 지능들이 돌아다니는 상황을 어떻게 생각하십니까? 얼마나 위험한가요? 어떻게 덜 위험하게 만들까요? 그리고 정렬되지 않은 AI나 나쁜 행위자가 있을 수 있는 균형(equilibrium)을 어떻게 보호할까요?
A: 제가 "지각 있는 생명체를 아끼는 AI"를 좋아했던 이유 중 하나가 이겁니다. 그게 좋은지 나쁜지는 논쟁할 수 있습니다. 하지만 만약 이 극적인 시스템들 중 처음 N개가 인류를 아끼고 사랑한다면, 혹은 지각 있는 생명체를 아낀다면(물론 이것도 달성되어야 합니다. 달성되어야 해요), 그렇다면 저는 꽤 오랫동안 상황이 잘 풀릴 수 있다고 봅니다.
그러면 장기적으로 무슨 일이 일어날까 하는 질문이 남습니다. 장기적 균형을 어떻게 달성할까요? 거기에도 답이 있다고 생각합니다. 저는 이 답을 좋아하지 않지만, 고려해 봐야 합니다.
장기적으로 "강력한 AI들이 존재하는 세상이라면 단기적으로는 보편적 고소득(universal high income)을 얻고 다들 잘 살 거야"라고 말할 수 있습니다. 하지만 불교 신자들은 뭐라고 합니까? "변화만이 유일한 상수다." 상황은 변합니다. 정부나 정치 구조 같은 게 있고 기능하다가 유효기간이 지나면 멈춥니다. 우리는 그런 일이 일어나는 걸 늘 봅니다.
**장기적 균형을 위한 한 가지 접근법은 모든 사람이 자신의 명령을 수행하는 AI를 갖는 것**입니다. 그게 영구적으로 유지될 수 있다면 좋겠죠. 하지만 단점은 AI가 나가서 돈을 벌어오고 정치 영역에서 그 사람의 필요를 대변하고, "제가 이런 걸 했고 상황은 이렇습니다"라고 보고서를 쓰면 사람은 "좋아, 계속해"라고 하는 식이라는 겁니다. 사람은 더 이상 참여자가 아닙니다. 그건 위태로운 위치라고 할 수 있습니다.
먼저 말해두지만 저는 이 해결책을 좋아하지 않습니다. 하지만 해결책이긴 합니다. **해결책은 사람들이 어떤 종류의 뉴럴링크++(Neuralink++) 같은 것으로 '부분적 AI(part-AI)'가 되는 것**입니다.
그 결과 무슨 일이 일어나냐면, 이제 AI가 무언가를 이해하면 우리도 이해하게 됩니다. 이해가 통째로 전달되니까요. 그래서 AI가 어떤 상황에 처하면 당신도 그 상황에 완전히 참여하게 됩니다. 저는 이것이 균형에 대한 답이라고 생각합니다.
Q: 수백만 년, 혹은 수십억 년 전 전혀 다른 환경에서 발달한 감정이 여전히 우리의 행동을 강력하게 인도하고 있다는 사실이 정렬 성공의 예시인지 궁금합니다. 무슨 뜻이냐면, 가치 함수인지 보상 함수인지 모르겠지만, 뇌간(brainstem)에는 "더 성공적인 누군가와 짝짓기하라"는 지시가 있습니다. 대뇌피질은 현대적 맥락에서 성공이 무엇인지 이해하는 부분이죠. 하지만 뇌간은 대뇌피질을 정렬시켜 "네가 성공을 무엇으로 인식하든—난 그게 뭔지 이해할 만큼 똑똑하지 않지만—넌 여전히 이 지시를 따를 거야"라고 말할 수 있습니다.
A: 더 일반적인 요점이 있다고 생각합니다. 저는 진화가 어떻게 고차원적인 욕구를 인코딩하는지 정말 미스터리라고 생각합니다. 진화가 냄새 좋은 음식을 갈망하게 하는 건 이해하기 쉽습니다. 냄새는 화학물질이니 그 화학물질을 쫓으면 되니까요. 진화가 그런 걸 하는 건 상상하기 쉽습니다.
하지만 진화는 우리에게 온갖 사회적 욕구도 부여**했습니다. 우리는 **사회적으로 긍정적으로 보이는 것에 정말 신경 씁니다. 좋은 평판을 유지하는 것에 신경 쓰죠. 우리가 가진 이 모든 사회적 직관들이 우리 안에 구워져(baked in) 있다고 강하게 느낍니다.
진화가 어떻게 그걸 했는지 모르겠습니다. 그건 **뇌에 표현된 고차원적인 개념**이니까요. 어떤 사회적인 것에 신경 쓴다고 칩시다. 냄새 같은 저차원 신호가 아닙니다. 센서가 있는 것도 아니죠. 뇌는 사회적으로 무슨 일이 일어나고 있는지 이해하기 위해 수많은 정보 조각을 맞추는 많은 계산을 해야 합니다.
그런데 어떻게든 진화는 "그게 네가 신경 써야 할 거야"라고 했습니다. 어떻게 했을까요? 심지어 빨리 해냈습니다. 우리가 신경 쓰는 이 모든 정교한 사회적 것들은 꽤 최근에 진화했으니까요. 진화는 이 고차원적 욕구를 하드코딩하는 데 어려움이 없었습니다.
어떻게 했는지에 대한 좋은 가설을 저는 모릅니다. 몇 가지 아이디어를 굴려봤지만 만족스러운 건 없었습니다.
Q: 특히 인상적인 건 당신이 살면서 배운 욕구라는 점입니다. 당신의 뇌가 지능적이기 때문에 지능적인 욕구를 배울 수 있다는 건 말이 됩니다. 제 요점은 욕구가 게놈(genome)에 내장되어 있는데 게놈은 지능적이지 않다는 겁니다. 하지만 당신은 이 특징을 설명할 수 있습니다. 그 특징을 어떻게 정의하는지조차 명확하지 않은데 유전자에 넣을 수 있죠.
A: 기본적으로, 혹은 다르게 표현해 보겠습니다. 게놈이 사용할 수 있는 도구를 생각해 보면, "자, 여기 뇌를 만드는 레시피가 있어"라고 합니다. "도파민 뉴런을 후각 센서에 연결해"라고 할 수 있습니다. 어떤 종류의 좋은 냄새가 나면 먹고 싶어지겠죠. 게놈이 그런 일을 하는 건 상상할 수 있습니다.
제가 주장하는 건 상상하기 더 어렵다는 겁니다. 게놈이 "너는 뇌 전체, 혹은 뇌의 큰 부분이 수행하는 어떤 복잡한 계산에 대해 신경 써야 해"라고 말하는 걸 상상하기가요. 그게 제가 주장하는 전부입니다. 어떻게 했을지에 대한 추측은 해볼 수 있습니다.
추측을 하나 제시하고, 왜 그 추측이 아마 틀렸는지 설명해 드리죠. 뇌에는 영역들이 있습니다. 대뇌피질이 있죠. 피질은 균일하지만 뇌 영역들과 피질의 뉴런들은 대개 이웃들과 대화합니다. 그게 뇌 영역이 생기는 이유입니다. 음성 처리를 하려면 음성을 다루는 모든 뉴런이 서로 대화해야 하니까요. 뉴런은 대개 가까운 이웃하고만 대화할 수 있어서 영역이 되어야 합니다. 모든 영역은 사람마다 대개 같은 위치에 있습니다.
그러니 어쩌면 진화가 말 그대로 뇌의 위치를 하드코딩했을 수도 있습니다. "오, 뇌의 GPS 좌표 몇 콤마 몇이 활성화되면, 그게 네가 신경 써야 할 거야."라고요. 진화의 도구 상자 안에 있는 방법이니까 그렇게 했을 수도 있죠.
Q: 네, 하지만 선천적 시각장애인의 경우 그 피질 영역이 다른 감각에 의해 채택되는 예들이 있습니다. 시각이 없어도 사람들이 나를 좋아해 줬으면 하는 느낌(보통 시각적 단서가 있는)을 여전히 느낄 수 있는지 모르겠네요.
A: 전적으로 동의합니다. 이 이론에 대한 훨씬 더 강력한 반론이 있습니다. 어린 시절에 뇌의 절반을 제거하는 수술을 받고도 여전히 모든 뇌 영역을 가진 사람들이 있습니다. 그 영역들이 어떻게든 하나의 반구로 이동하죠. 이는 뇌 영역의 위치가 고정되어 있지 않다는 것을 시사하며, 따라서 그 이론은 사실이 아닙니다. 사실이었다면 멋졌겠지만 아닙니다. 그래서 미스터리입니다. 하지만 흥미로운 미스터리죠. 진화가 어떻게든 우리가 사회적 문제에 매우, 매우 신뢰성 있게 신경 쓰도록 부여할 수 있었다는 사실 말입니다. 온갖 이상한 정신 상태나 결핍, 정서적 문제를 가진 사람들도 이런 것에는 신경 쓰는 경향이 있습니다.
“우리는 확실히 연구의 시대에 있는 회사입니다"
Q: SSI는 무엇을 다르게 할 계획인가요? 당연히 당신의 계획은 이 시기가 도래했을 때 프런티어 기업 중 하나가 되는 것이겠죠. "나는 다른 회사들은 모르는, 안전하게 하는 접근법을 알고 있어"라고 생각해서 SSI를 시작했을 텐데요. 그 차이점은 무엇입니까?
A: 제가 설명하는 방식은 이렇습니다. 유망하다고 생각하는 아이디어들이 있고, 그것이 정말 유망한지 아닌지 조사해 보고 싶습니다. 정말 그렇게 간단합니다. 시도(attempt)입니다. 만약 그 아이디어들이 옳다고 판명된다면—우리가 논의했던 일반화를 이해하는 것과 관련된 아이디어들 말이죠—우리는 가치 있는 무언가를 갖게 될 것입니다. 옳다고 판명될까요? 우리는 연구를 하고 있습니다. 우리는 확실히 "연구의 시대"에 있는 회사입니다. 우리는 진전을 이루고 있습니다. 사실 지난 1년 동안 꽤 좋은 진전을 이뤘지만, 더 많은 진전, 더 많은 연구를 계속해야 합니다. 저는 그렇게 봅니다. 하나의 목소리이자 참여자가 되려는 시도로 봅니다.
Q: 당신의 공동 창업자이자 전 CEO가 최근 메타(Meta)로 떠났는데, 사람들은 "많은 돌파구가 만들어지고 있었다면 일어나기 힘든 일 아니냐"고 묻습니다. 어떻게 답변하시겠습니까?
A: 이에 대해서는 잊혔을 수도 있는 몇 가지 사실을 상기시켜 드리는 것으로 대신하겠습니다. 상황을 설명해 주는 맥락이죠. 맥락은 우리가 320억 달러 가치로 자금을 조달하고 있었는데, 그때 메타가 들어와서 인수를 제안했고, 저는 거절했다는 겁니다.
하지만 제 전 공동 창업자는 어떤 면에서 '예스'라고 했습니다. 그 결과 그는 많은 단기 유동성을 누릴 수 있게 되었고, SSI에서 메타로 간 유일한 사람이 되었습니다.
Q: SSI의 계획은 초인적 지능이 등장하는 인류 역사의 매우 중요한 시기에 프런티어에 있는 회사가 되는 것 같군요. 당신은 초인적 지능이 잘 작동하게 하는 방법에 대한 아이디어를 가지고 있고요. 하지만 다른 회사들도 각자의 아이디어를 시도할 겁니다. 초지능을 잘 만드는 데 있어 SSI의 접근 방식은 무엇이 다릅니까?
A: SSI를 차별화하는 주된 것은 기술적 접근 방식입니다. 저는 가치 있다고 생각하는 다른 기술적 접근 방식을 가지고 있고 그것을 추구하고 있습니다.
저는 **결국 전략의 수렴(convergence)이 있을 것**이라고 주장합니다. 언젠가 AI가 더 강력해짐에 따라 전략이 무엇이어야 하는지 모두에게 어느 정도 명확해지는 수렴이 있을 것입니다. 서로 대화할 방법을 찾아야 하고, 첫 번째 실제 초지능 AI가 정렬되고 어떻게든 지각 있는 생명체를 아끼고, 사람을 아끼고, 민주적이고, 이런 것들의 조합이어야 한다는 조건 말입니다. 저는 이것이 모두가 노력해야 할 조건이라고 생각합니다.
그게 SSI가 노력하는 것입니다. 이번에는, 이미 그렇지 않다면, 다른 모든 회사들도 자신들이 같은 것을 향해 노력하고 있다는 것을 깨닫게 될 것입니다. 두고 보죠. AI가 더 강력해지면 세상이 진정으로 변할 것이라고 생각합니다. 상황은 정말 다를 것이고 사람들은 정말 다르게 행동할 것입니다.
Q: 예측에 대해 말하자면, 당신이 묘사한 시스템, 즉 인간만큼 잘 배우고 결과적으로 초인적이 되는 시스템에 대한 예측은 언제입니까?
A: 5년에서 20년 사이라고 생각합니다.
Q: 5년에서 20년이요? 세상이 어떻게 다가올지 펼쳐보고 싶습니다. 앞으로 몇 년간 다른 회사들은 현재의 접근 방식을 계속하고 그것이 정체(stall out)됩니다. 여기서 "정체"란 매출이 수천억 달러를 넘지 못한다는 뜻인가요? 정체된다는 게 어떤 의미라고 생각하십니까?
A: 정체는... 모든 회사에서 매우 비슷하게 보일 것 같습니다. 이럴 수도 있죠. 확신할 순 없습니다. 정체되더라도 이 회사들은 엄청난 매출을 올릴 수 있다고 생각하거든요. 이익은 아닐 수도 있습니다. 서로 차별화하기 위해 열심히 노력해야 할 테니까요. 하지만 매출은 확실히요.
Q: 하지만 당신 모델의 무언가는 올바른 해결책이 나타나면 모든 회사 간에 수렴이 있을 것이라고 암시합니다. 왜 그렇다고 생각하시나요?
A: 저는 정렬 전략에 대한 수렴을 더 이야기한 겁니다. 기술적 접근 방식에 대한 수렴도 결국 일어날 것이라고 생각하지만, 저는 정렬 전략에 대한 수렴을 암시했습니다. 정확히 무엇을 해야 할까요?
Q: 미래가 어떻게 펼쳐질지 더 잘 이해하고 싶습니다. 현재 여러 회사들이 있고, 당신은 그들의 접근 방식이 매출은 계속 내겠지만 인간 같은 학습자에는 도달하지 못할 것이라고 예상합니다. 이제 여러 갈래의 회사들이 있습니다. 당신도 있고, 씽킹 머신(Thinking Machines)도 있고, 다른 연구소들도 있죠. 아마 그중 하나가 올바른 접근법을 알아낼 겁니다. 하지만 그들의 제품 출시가 다른 사람들에게 이걸 어떻게 하는지 명확하게 해주지 않을까요?
A: 어떻게 하는지 명확하진 않겠지만, 다른 무언가가 가능하다는 것은 명확해질 것이고, 그것은 정보입니다. 사람들은 그게 어떻게 작동하는지 알아내려고 노력하겠죠.
하지만 여기서 다루지 않은, 논의되지 않은 것 중 하나는 AI의 능력이 증가할 때마다 일하는 방식에 어떤 변화가 있을 것이라는 점**입니다. **정확히 어떤 것인지는 모르겠지만요. 저는 그게 중요할 것이라고 생각하지만 정확히 무엇인지는 설명할 수 없습니다.
Q: 기본적으로 그 모델을 가진 회사가 모든 이득을 얻을 것이라고 예상하게 됩니다. 그 모델은 세상에서 기술과 지식을 쌓아가는 모델이니까요. 그 혜택이 널리 분산되고, 지속적 학습 루프를 가장 먼저 시작한 모델 회사에만 머물지 않을 것이라고 생각하는 이유는 무엇입니까?
A: 제가 생각하는 시나리오는 이렇습니다. 첫째, 과거의 AI들이 어떻게 진행되었는지 봅시다. 한 회사가 발전을 만들어내면 다른 회사가 허둥지둥하다가 얼마 뒤 비슷한 것들을 만들어내고, 시장에서 경쟁하기 시작하며 가격을 낮춥니다. 시장 관점에서는 거기서도 비슷한 일이 일어날 것이라고 생각합니다. 참고로 우리는 좋은 세상(good world)에 대해 이야기하고 있습니다.
좋은 세상이란 무엇입니까? 강력한 인간 같은 학습자들이 있는 곳이죠. 참고로 초지능 AI의 스펙에 대해 논의하지 않은 게 있는데 고려해 볼 가치가 있습니다. 좁게(narrow) 만들 수 있다는 겁니다. 유용하면서 동시에 좁을 수 있습니다. 좁은 초지능 AI를 많이 가질 수 있습니다.
하지만 그런 AI가 많고 어떤 회사가 그것으로 많은 이익을 내고 있다고 칩시다. 그러면 다른 회사가 들어와 경쟁을 시작합니다. 경쟁이 작동하는 방식은 전문화(specialization)를 통해서입니다. 경쟁은 전문화를 좋아합니다. 시장에서도 보고 진화에서도 봅니다.
우리는 많은 다른 틈새(niche)를 갖게 될 것이고, 다른 틈새를 점유하는 많은 다른 회사들을 갖게 될 것입니다. 이 세상에서 우리는 어떤 AI 회사는 정말 복잡한 경제 활동의 어떤 영역에서 꽤 더 낫고, 다른 회사는 다른 영역에서 더 낫다고 말할 수 있습니다. 세 번째 회사는 소송을 정말 잘한다든지요.
Q: 이건 인간 같은 학습이 암시하는 것과 모순되지 않나요? 배울 수 있다는 건...
A: 배울 수는 있지만, 축적된 학습이 있습니다. 큰 투자가 있죠. 어떤 분야에서 정말, 정말 뛰어나고 경이로울 정도로 잘하기 위해 많은 컴퓨팅을 썼습니다. 다른 누군가는 다른 분야에서 정말 잘하기 위해 엄청난 양의 컴퓨팅과 경험을 썼고요. 거기에 도달하기 위해 많은 인간 학습을 적용했지만, 이제 당신은 다른 누군가가 "봐, 네가 배운 걸 배우기 시작하고 싶지 않아"라고 말할 높은 지점에 있는 겁니다.
Q: 그러려면 여러 회사가 인간 같은 지속적 학습 에이전트를 동시에 시작해서 서로 다른 가지에서 트리 탐색(tree search)을 시작해야겠군요. 하지**만 한 회사가 그 에이전트나 학습자를 먼저 얻으면... 경제의 모든 직업을 생각해보면, 한 회사가 각 직업을 배우는 인스턴스를 갖는 게 처리 가능해 보이는데요.**
Q: SSI는 무엇을 다르게 할 계획인가요? 당연히 당신의 계획은 이 시기가 도래했을 때 프런티어 기업 중 하나가 되는 것이겠죠. "나는 다른 회사들은 모르는, 안전하게 하는 접근법을 알고 있어"라고 생각해서 SSI를 시작했을 텐데요. 그 차이점은 무엇입니까?
A: 제가 설명하는 방식은 이렇습니다. 유망하다고 생각하는 아이디어들이 있고, 그것이 정말 유망한지 아닌지 조사해 보고 싶습니다. 정말 그렇게 간단합니다. 시도(attempt)입니다. 만약 그 아이디어들이 옳다고 판명된다면—우리가 논의했던 일반화를 이해하는 것과 관련된 아이디어들 말이죠—우리는 가치 있는 무언가를 갖게 될 것입니다. 옳다고 판명될까요? 우리는 연구를 하고 있습니다. 우리는 확실히 "연구의 시대"에 있는 회사입니다. 우리는 진전을 이루고 있습니다. 사실 지난 1년 동안 꽤 좋은 진전을 이뤘지만, 더 많은 진전, 더 많은 연구를 계속해야 합니다. 저는 그렇게 봅니다. 하나의 목소리이자 참여자가 되려는 시도로 봅니다.
Q: 당신의 공동 창업자이자 전 CEO가 최근 메타(Meta)로 떠났는데, 사람들은 "많은 돌파구가 만들어지고 있었다면 일어나기 힘든 일 아니냐"고 묻습니다. 어떻게 답변하시겠습니까?
A: 이에 대해서는 잊혔을 수도 있는 몇 가지 사실을 상기시켜 드리는 것으로 대신하겠습니다. 상황을 설명해 주는 맥락이죠. 맥락은 우리가 320억 달러 가치로 자금을 조달하고 있었는데, 그때 메타가 들어와서 인수를 제안했고, 저는 거절했다는 겁니다.
하지만 제 전 공동 창업자는 어떤 면에서 '예스'라고 했습니다. 그 결과 그는 많은 단기 유동성을 누릴 수 있게 되었고, SSI에서 메타로 간 유일한 사람이 되었습니다.
Q: SSI의 계획은 초인적 지능이 등장하는 인류 역사의 매우 중요한 시기에 프런티어에 있는 회사가 되는 것 같군요. 당신은 초인적 지능이 잘 작동하게 하는 방법에 대한 아이디어를 가지고 있고요. 하지만 다른 회사들도 각자의 아이디어를 시도할 겁니다. 초지능을 잘 만드는 데 있어 SSI의 접근 방식은 무엇이 다릅니까?
A: SSI를 차별화하는 주된 것은 기술적 접근 방식입니다. 저는 가치 있다고 생각하는 다른 기술적 접근 방식을 가지고 있고 그것을 추구하고 있습니다.
저는 **결국 전략의 수렴(convergence)이 있을 것**이라고 주장합니다. 언젠가 AI가 더 강력해짐에 따라 전략이 무엇이어야 하는지 모두에게 어느 정도 명확해지는 수렴이 있을 것입니다. 서로 대화할 방법을 찾아야 하고, 첫 번째 실제 초지능 AI가 정렬되고 어떻게든 지각 있는 생명체를 아끼고, 사람을 아끼고, 민주적이고, 이런 것들의 조합이어야 한다는 조건 말입니다. 저는 이것이 모두가 노력해야 할 조건이라고 생각합니다.
그게 SSI가 노력하는 것입니다. 이번에는, 이미 그렇지 않다면, 다른 모든 회사들도 자신들이 같은 것을 향해 노력하고 있다는 것을 깨닫게 될 것입니다. 두고 보죠. AI가 더 강력해지면 세상이 진정으로 변할 것이라고 생각합니다. 상황은 정말 다를 것이고 사람들은 정말 다르게 행동할 것입니다.
Q: 예측에 대해 말하자면, 당신이 묘사한 시스템, 즉 인간만큼 잘 배우고 결과적으로 초인적이 되는 시스템에 대한 예측은 언제입니까?
A: 5년에서 20년 사이라고 생각합니다.
Q: 5년에서 20년이요? 세상이 어떻게 다가올지 펼쳐보고 싶습니다. 앞으로 몇 년간 다른 회사들은 현재의 접근 방식을 계속하고 그것이 정체(stall out)됩니다. 여기서 "정체"란 매출이 수천억 달러를 넘지 못한다는 뜻인가요? 정체된다는 게 어떤 의미라고 생각하십니까?
A: 정체는... 모든 회사에서 매우 비슷하게 보일 것 같습니다. 이럴 수도 있죠. 확신할 순 없습니다. 정체되더라도 이 회사들은 엄청난 매출을 올릴 수 있다고 생각하거든요. 이익은 아닐 수도 있습니다. 서로 차별화하기 위해 열심히 노력해야 할 테니까요. 하지만 매출은 확실히요.
Q: 하지만 당신 모델의 무언가는 올바른 해결책이 나타나면 모든 회사 간에 수렴이 있을 것이라고 암시합니다. 왜 그렇다고 생각하시나요?
A: 저는 정렬 전략에 대한 수렴을 더 이야기한 겁니다. 기술적 접근 방식에 대한 수렴도 결국 일어날 것이라고 생각하지만, 저는 정렬 전략에 대한 수렴을 암시했습니다. 정확히 무엇을 해야 할까요?
Q: 미래가 어떻게 펼쳐질지 더 잘 이해하고 싶습니다. 현재 여러 회사들이 있고, 당신은 그들의 접근 방식이 매출은 계속 내겠지만 인간 같은 학습자에는 도달하지 못할 것이라고 예상합니다. 이제 여러 갈래의 회사들이 있습니다. 당신도 있고, 씽킹 머신(Thinking Machines)도 있고, 다른 연구소들도 있죠. 아마 그중 하나가 올바른 접근법을 알아낼 겁니다. 하지만 그들의 제품 출시가 다른 사람들에게 이걸 어떻게 하는지 명확하게 해주지 않을까요?
A: 어떻게 하는지 명확하진 않겠지만, 다른 무언가가 가능하다는 것은 명확해질 것이고, 그것은 정보입니다. 사람들은 그게 어떻게 작동하는지 알아내려고 노력하겠죠.
하지만 여기서 다루지 않은, 논의되지 않은 것 중 하나는 AI의 능력이 증가할 때마다 일하는 방식에 어떤 변화가 있을 것이라는 점**입니다. **정확히 어떤 것인지는 모르겠지만요. 저는 그게 중요할 것이라고 생각하지만 정확히 무엇인지는 설명할 수 없습니다.
Q: 기본적으로 그 모델을 가진 회사가 모든 이득을 얻을 것이라고 예상하게 됩니다. 그 모델은 세상에서 기술과 지식을 쌓아가는 모델이니까요. 그 혜택이 널리 분산되고, 지속적 학습 루프를 가장 먼저 시작한 모델 회사에만 머물지 않을 것이라고 생각하는 이유는 무엇입니까?
A: 제가 생각하는 시나리오는 이렇습니다. 첫째, 과거의 AI들이 어떻게 진행되었는지 봅시다. 한 회사가 발전을 만들어내면 다른 회사가 허둥지둥하다가 얼마 뒤 비슷한 것들을 만들어내고, 시장에서 경쟁하기 시작하며 가격을 낮춥니다. 시장 관점에서는 거기서도 비슷한 일이 일어날 것이라고 생각합니다. 참고로 우리는 좋은 세상(good world)에 대해 이야기하고 있습니다.
좋은 세상이란 무엇입니까? 강력한 인간 같은 학습자들이 있는 곳이죠. 참고로 초지능 AI의 스펙에 대해 논의하지 않은 게 있는데 고려해 볼 가치가 있습니다. 좁게(narrow) 만들 수 있다는 겁니다. 유용하면서 동시에 좁을 수 있습니다. 좁은 초지능 AI를 많이 가질 수 있습니다.
하지만 그런 AI가 많고 어떤 회사가 그것으로 많은 이익을 내고 있다고 칩시다. 그러면 다른 회사가 들어와 경쟁을 시작합니다. 경쟁이 작동하는 방식은 전문화(specialization)를 통해서입니다. 경쟁은 전문화를 좋아합니다. 시장에서도 보고 진화에서도 봅니다.
우리는 많은 다른 틈새(niche)를 갖게 될 것이고, 다른 틈새를 점유하는 많은 다른 회사들을 갖게 될 것입니다. 이 세상에서 우리는 어떤 AI 회사는 정말 복잡한 경제 활동의 어떤 영역에서 꽤 더 낫고, 다른 회사는 다른 영역에서 더 낫다고 말할 수 있습니다. 세 번째 회사는 소송을 정말 잘한다든지요.
Q: 이건 인간 같은 학습이 암시하는 것과 모순되지 않나요? 배울 수 있다는 건...
A: 배울 수는 있지만, 축적된 학습이 있습니다. 큰 투자가 있죠. 어떤 분야에서 정말, 정말 뛰어나고 경이로울 정도로 잘하기 위해 많은 컴퓨팅을 썼습니다. 다른 누군가는 다른 분야에서 정말 잘하기 위해 엄청난 양의 컴퓨팅과 경험을 썼고요. 거기에 도달하기 위해 많은 인간 학습을 적용했지만, 이제 당신은 다른 누군가가 "봐, 네가 배운 걸 배우기 시작하고 싶지 않아"라고 말할 높은 지점에 있는 겁니다.
Q: 그러려면 여러 회사가 인간 같은 지속적 학습 에이전트를 동시에 시작해서 서로 다른 가지에서 트리 탐색(tree search)을 시작해야겠군요. 하지**만 한 회사가 그 에이전트나 학습자를 먼저 얻으면... 경제의 모든 직업을 생각해보면, 한 회사가 각 직업을 배우는 인스턴스를 갖는 게 처리 가능해 보이는데요.**
A: 타당한 주장입니다. 제 강한 직관은 그렇게 흘러가지 않을 거라는 겁니다. 논리는 그렇게 될 거라고 말하지만, 제 강한 직관은 그렇지 않을 거라고 합니다. 이론적으로는 이론과 실제 사이에 차이가 없습니다. 실제로는 차이가 있죠. 저는 이게 그런 경우 중 하나가 될 것이라고 생각합니다.
Q: 많은 사람들의 자기 개선(self-improvement) 모델은 문자 그대로 서버 안에 백만 명의 일리야(Ilya)가 있어서 서로 다른 아이디어를 내놓고, 이것이 매우 빠른 초지능의 출현으로 이어질 것이라고 명시적으로 말합니다. 당신이 하고 있는 일이 얼마나 병렬화 가능한지에 대한 직관이 있습니까? 일리야의 복제본을 만들어서 얻는 이득은 무엇입니까?
A: 모르겠습니다. 확실히 수확 체감(diminishing returns)이 있을 겁니다. 똑같은 사람보다는 다르게 생각하는 사람들을 원하니까요. 문자 그대로 저의 복제본들이 있다면, 얼마나 더 많은 증분 가치를 얻을 수 있을지 모르겠습니다. 다르게 생각하는 사람들, 그게 원하는 거죠.
셀프 플레이와 멀티 에이전트 (Self-play and multi-agent)
Q: 완전히 다른 회사가 출시하고 잠재적으로 겹치지 않는 데이터셋으로 훈련했는데도, 서로 다른 모델들이, LLM들이 서로 얼마나 비슷한지 보면 미친 것 같습니다. 데이터셋이 보이는 것만큼 안 겹치는 게 아닐 수도 있겠지만요. 하지만 개별 인간이 미래의 AI보다 덜 생산적일지라도, 인간 팀이 AI 팀보다 더 많은 다양성을 가지고 있다는 사실에는 뭔가 있는 것 같습니다. AI들 사이에서 의미 있는 다양성을 어떻게 끌어낼 수 있을까요? 그냥 온도(temperature)를 높이는 건 헛소리(gibberish)만 나오게 하잖아요. 다른 과학자들이 다른 편견이나 아이디어를 갖는 것 같은 걸 원합니다. AI 에이전트들 사이에서 그런 종류의 다양성을 어떻게 얻습니까?
A: 다양성이 없었던 이유는 **사전 학습 때문**이라고 봅니다. 모든 사전 학습 모델은 거의 똑같습니다. 같은 데이터로 사전 학습을 하니까요. 이제 RL과 사후 학습(post-training)에서 차별화가 나타나기 시작합니다. 사람들이 서로 다른 RL 훈련을 고안해 내니까요.
Q: 과거에 당신은 데이터를 얻거나, 학습을 시작하기 위해 에이전트를 동등한 지능의 다른 에이전트와 매칭하는 방법으로 셀프 플레이(self-play)를 힌트하신 적이 있습니다. LLM에서 이런 종류의 작업에 대한 공개적인 제안이 없는 이유를 어떻게 생각해야 할까요?
A: 두 가지를 말씀드리겠습니다. 제가 셀프 플레이가 흥미롭다고 생각했던 이유는 데이터 없이 컴퓨팅만 사용하여 모델을 만들 수 있는 방법을 제공했기 때문입니다. 데이터가 궁극적인 병목이라고 생각한다면, 컴퓨팅만 사용하는 건 매우 흥미롭죠. 그게 흥미로운 점입니다.
문제는 셀프 플레이가, 적어도 과거에 수행된 방식—에이전트들이 어떻게든 서로 경쟁하는 방식—으로는 특정 기술 세트를 개발하는 데만 좋다는 것입니다. 너무 좁습니다. 협상, 갈등, 특정 사회적 기술, 전략 수립 같은 것들에만 좋습니다. 그런 기술에 관심이 있다면 셀프 플레이가 유용할 것입니다.
사실 저는 셀프 플레이가 제 자리를 찾았다고 생각합니다. 단지 다른 형태로요. 토론(debate), 증명자-검증자(prover-verifier) 같은 것들, 당신 작업에서 실수를 찾도록 인센티브를 받는 LLM-as-a-Judge 같은 것들 말입니다. 이것이 정확히 셀프 플레이는 아니지만, 사람들이 하고 있는 관련된 적대적 설정(adversarial setup)이라고 봅니다.
사실 셀프 플레이는 에이전트 간의 더 일반적인 경쟁의 특수 사례입니다. 경쟁에 대한 자연스러운 반응은 달라지려고 노력하는 것입니다. 그러니 여러 에이전트를 모아놓고 "너희 모두 어떤 문제에 대해 작업해야 하고, 넌 에이전트고 다른 애들이 뭐 하는지 검사하고 있어"라고 하면, 그들은 "음, 쟤들이 이미 이 접근법을 쓰고 있다면 난 그걸 추구하면 안 되겠네. 난 차별화된 걸 추구해야지."라고 할 겁니다. 그래서 저는 **이런 것이 접근 방식의 다양성에 대한 인센티브를 창출**할 수 있다고 생각합니다.
Q: 많은 사람들의 자기 개선(self-improvement) 모델은 문자 그대로 서버 안에 백만 명의 일리야(Ilya)가 있어서 서로 다른 아이디어를 내놓고, 이것이 매우 빠른 초지능의 출현으로 이어질 것이라고 명시적으로 말합니다. 당신이 하고 있는 일이 얼마나 병렬화 가능한지에 대한 직관이 있습니까? 일리야의 복제본을 만들어서 얻는 이득은 무엇입니까?
A: 모르겠습니다. 확실히 수확 체감(diminishing returns)이 있을 겁니다. 똑같은 사람보다는 다르게 생각하는 사람들을 원하니까요. 문자 그대로 저의 복제본들이 있다면, 얼마나 더 많은 증분 가치를 얻을 수 있을지 모르겠습니다. 다르게 생각하는 사람들, 그게 원하는 거죠.
셀프 플레이와 멀티 에이전트 (Self-play and multi-agent)
Q: 완전히 다른 회사가 출시하고 잠재적으로 겹치지 않는 데이터셋으로 훈련했는데도, 서로 다른 모델들이, LLM들이 서로 얼마나 비슷한지 보면 미친 것 같습니다. 데이터셋이 보이는 것만큼 안 겹치는 게 아닐 수도 있겠지만요. 하지만 개별 인간이 미래의 AI보다 덜 생산적일지라도, 인간 팀이 AI 팀보다 더 많은 다양성을 가지고 있다는 사실에는 뭔가 있는 것 같습니다. AI들 사이에서 의미 있는 다양성을 어떻게 끌어낼 수 있을까요? 그냥 온도(temperature)를 높이는 건 헛소리(gibberish)만 나오게 하잖아요. 다른 과학자들이 다른 편견이나 아이디어를 갖는 것 같은 걸 원합니다. AI 에이전트들 사이에서 그런 종류의 다양성을 어떻게 얻습니까?
A: 다양성이 없었던 이유는 **사전 학습 때문**이라고 봅니다. 모든 사전 학습 모델은 거의 똑같습니다. 같은 데이터로 사전 학습을 하니까요. 이제 RL과 사후 학습(post-training)에서 차별화가 나타나기 시작합니다. 사람들이 서로 다른 RL 훈련을 고안해 내니까요.
Q: 과거에 당신은 데이터를 얻거나, 학습을 시작하기 위해 에이전트를 동등한 지능의 다른 에이전트와 매칭하는 방법으로 셀프 플레이(self-play)를 힌트하신 적이 있습니다. LLM에서 이런 종류의 작업에 대한 공개적인 제안이 없는 이유를 어떻게 생각해야 할까요?
A: 두 가지를 말씀드리겠습니다. 제가 셀프 플레이가 흥미롭다고 생각했던 이유는 데이터 없이 컴퓨팅만 사용하여 모델을 만들 수 있는 방법을 제공했기 때문입니다. 데이터가 궁극적인 병목이라고 생각한다면, 컴퓨팅만 사용하는 건 매우 흥미롭죠. 그게 흥미로운 점입니다.
문제는 셀프 플레이가, 적어도 과거에 수행된 방식—에이전트들이 어떻게든 서로 경쟁하는 방식—으로는 특정 기술 세트를 개발하는 데만 좋다는 것입니다. 너무 좁습니다. 협상, 갈등, 특정 사회적 기술, 전략 수립 같은 것들에만 좋습니다. 그런 기술에 관심이 있다면 셀프 플레이가 유용할 것입니다.
사실 저는 셀프 플레이가 제 자리를 찾았다고 생각합니다. 단지 다른 형태로요. 토론(debate), 증명자-검증자(prover-verifier) 같은 것들, 당신 작업에서 실수를 찾도록 인센티브를 받는 LLM-as-a-Judge 같은 것들 말입니다. 이것이 정확히 셀프 플레이는 아니지만, 사람들이 하고 있는 관련된 적대적 설정(adversarial setup)이라고 봅니다.
사실 셀프 플레이는 에이전트 간의 더 일반적인 경쟁의 특수 사례입니다. 경쟁에 대한 자연스러운 반응은 달라지려고 노력하는 것입니다. 그러니 여러 에이전트를 모아놓고 "너희 모두 어떤 문제에 대해 작업해야 하고, 넌 에이전트고 다른 애들이 뭐 하는지 검사하고 있어"라고 하면, 그들은 "음, 쟤들이 이미 이 접근법을 쓰고 있다면 난 그걸 추구하면 안 되겠네. 난 차별화된 걸 추구해야지."라고 할 겁니다. 그래서 저는 **이런 것이 접근 방식의 다양성에 대한 인센티브를 창출**할 수 있다고 생각합니다.