최근 나온 연구들을 보면서 든 생각 몇 가지.
1. AI Feedback의 사례가 누적되고 있다. 이번 달에만 해도 이 문제와 직접 관련된 것이 벌써 두 편이 등장했다. (https://arxiv.org/abs/2401.10020, https://arxiv.org/abs/2401.12086)
기본적으로는 Preference 데이터에 대한 부담을 경감시키기 위함이지만 이런 접근들이 베이스 모델의 성능 향상과 함께 향상될 가능성이 높다고 생각해보면 정말로 강력한 모델을 통해 사람보다 나은 피드백을 주는 것이 가능하지 않을까 하는 생각을 하게 한다. 즉 Superalignment 문제에 대한 답으로 볼 수 있지 않을까.
다만 (실제 테스트를 해봐야 알 수 있겠지만) 스타일적인 영향이 크지 않을까 싶긴 하다. 예를 들어 수학 증명 같은 능력의 상승이 나타날 수 있을까 하는 생각은 있다. (물론 스타일적인 측면에서의 사람보다 나은 피드백이라는 것도 어떤 형태일지 궁금하긴 하다.)
2. 능력의 상승 측면에서 관심이 가는 것은 언어 모델 외의 방식으로 피드백을 주는 방향이다. 그런데 이게 소위 합성 데이터와 연관을 지어 생각해볼 수 있겠다 싶다.
예를 들어 (피드백의 형태는 아니지만) AlphaGeometry에서 Solver를 사용해 데이터를 합성한 것, (https://www.nature.com/articles/s41586-023-06747-5) 논리적 규칙을 사용한 필터링, (https://arxiv.org/abs/2401.08574) 답을 사용해서 Chain of Thought를 생성하는 사례 등. (https://arxiv.org/abs/2312.02179) 답을 사용해서 피드백을 주는 사례도 일종의 데이터 생성이라고 볼 수 있는 측면이 있다. (https://arxiv.org/abs/2312.06585) 데이터를 생성한 다음 답을 통해 필터링을 하는 것이라고 볼 수도 있으니.
이 방향으로 생각해보면 데이터를 더 “쥐어 짜는” 방법으로서의 합성 데이터 사용을 생각해볼 수 있을 듯 하다. 예컨대 답을 사용해서 탐색하거나 기존 데이터를 수정하고 임의의 규칙을 사용해 결합하여 새로운 데이터를 만드는 것은 기존 데이터에 포함된 정보를 더 많이 활용하는 방법이라고 생각해볼 수도 있겠다. 그런 의미에서는 새로운 Objective를 사용해 데이터를 더 적극적으로 사용하는 방법이라고 볼 수도 있다. (https://arxiv.org/abs/2205.05131)
예를 들어 데이터를 사용해 문제를 만들고 그 문제에 대한 답을 하게 만들면서, 그 답에 대한 피드백을 데이터를 사용해 줄 수 있다면 그건 일종의 합성 데이터이면서 데이터를 사용해 좋은 특성과 정보를 습득하게 만드는 Objective가 되기도 할 것이다. Autoregressive Training 또한 데이터를 사용해 다음 단어를 예측하는 문제를 주고 그 답을 데이터를 사용해 제공하는 것이라고 할 수 있으니까.
우리가 연습 문제를 풀어 새로운 문제를 푸는 능력을 획득하듯 어떠한 형태로 문제와 답을 만들어 학습시키는 것으로 더 나은 능력을 부여하는 것이 가능하지 않을까 하는 생각을 한다. 써놓고 보니 Unsupervised Learning의 정의와 동치인 것 같긴 하다. 그래도 합성 데이터 같은 유행하는 단어를 붙여 다른 관점에서 보는 것도 나름 재미있지 않을까.
카카오 브레인 김성현님
1. AI Feedback의 사례가 누적되고 있다. 이번 달에만 해도 이 문제와 직접 관련된 것이 벌써 두 편이 등장했다. (https://arxiv.org/abs/2401.10020, https://arxiv.org/abs/2401.12086)
기본적으로는 Preference 데이터에 대한 부담을 경감시키기 위함이지만 이런 접근들이 베이스 모델의 성능 향상과 함께 향상될 가능성이 높다고 생각해보면 정말로 강력한 모델을 통해 사람보다 나은 피드백을 주는 것이 가능하지 않을까 하는 생각을 하게 한다. 즉 Superalignment 문제에 대한 답으로 볼 수 있지 않을까.
다만 (실제 테스트를 해봐야 알 수 있겠지만) 스타일적인 영향이 크지 않을까 싶긴 하다. 예를 들어 수학 증명 같은 능력의 상승이 나타날 수 있을까 하는 생각은 있다. (물론 스타일적인 측면에서의 사람보다 나은 피드백이라는 것도 어떤 형태일지 궁금하긴 하다.)
2. 능력의 상승 측면에서 관심이 가는 것은 언어 모델 외의 방식으로 피드백을 주는 방향이다. 그런데 이게 소위 합성 데이터와 연관을 지어 생각해볼 수 있겠다 싶다.
예를 들어 (피드백의 형태는 아니지만) AlphaGeometry에서 Solver를 사용해 데이터를 합성한 것, (https://www.nature.com/articles/s41586-023-06747-5) 논리적 규칙을 사용한 필터링, (https://arxiv.org/abs/2401.08574) 답을 사용해서 Chain of Thought를 생성하는 사례 등. (https://arxiv.org/abs/2312.02179) 답을 사용해서 피드백을 주는 사례도 일종의 데이터 생성이라고 볼 수 있는 측면이 있다. (https://arxiv.org/abs/2312.06585) 데이터를 생성한 다음 답을 통해 필터링을 하는 것이라고 볼 수도 있으니.
이 방향으로 생각해보면 데이터를 더 “쥐어 짜는” 방법으로서의 합성 데이터 사용을 생각해볼 수 있을 듯 하다. 예컨대 답을 사용해서 탐색하거나 기존 데이터를 수정하고 임의의 규칙을 사용해 결합하여 새로운 데이터를 만드는 것은 기존 데이터에 포함된 정보를 더 많이 활용하는 방법이라고 생각해볼 수도 있겠다. 그런 의미에서는 새로운 Objective를 사용해 데이터를 더 적극적으로 사용하는 방법이라고 볼 수도 있다. (https://arxiv.org/abs/2205.05131)
예를 들어 데이터를 사용해 문제를 만들고 그 문제에 대한 답을 하게 만들면서, 그 답에 대한 피드백을 데이터를 사용해 줄 수 있다면 그건 일종의 합성 데이터이면서 데이터를 사용해 좋은 특성과 정보를 습득하게 만드는 Objective가 되기도 할 것이다. Autoregressive Training 또한 데이터를 사용해 다음 단어를 예측하는 문제를 주고 그 답을 데이터를 사용해 제공하는 것이라고 할 수 있으니까.
우리가 연습 문제를 풀어 새로운 문제를 푸는 능력을 획득하듯 어떠한 형태로 문제와 답을 만들어 학습시키는 것으로 더 나은 능력을 부여하는 것이 가능하지 않을까 하는 생각을 한다. 써놓고 보니 Unsupervised Learning의 정의와 동치인 것 같긴 하다. 그래도 합성 데이터 같은 유행하는 단어를 붙여 다른 관점에서 보는 것도 나름 재미있지 않을까.
카카오 브레인 김성현님
arXiv.org
Self-Rewarding Language Models
We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human...
👍1
I think envy is one of the major problems of the human condition, and that’s why it figured so prominently in the laws of Moses. Remember, he said you couldn’t even covet your neighbor’s donkey.
The best way to avoid envy, recognized by Aristotle, is to plainly deserve the success we get.
The world is not driven by greed: it’s driven by envy.
“Feeling like a victim is a perfectly disastrous way to go through life. If you just take the attitude that however bad it is in any way, it’s always your fault and you fix it as best as you can — the so called ‘iron prenoscription’- I think that really works.
I don’t like any feelings of being victimized, I think that is a counterproductive way to think. And I am not a victim. I am a survivor.
Reliability is essential for progress in life. (…) If you become very reliable and stay that way, it will be very hard to fail in doing anything you want.
I think track records are very important. If you start early trying to have a perfect one in a some simple thing like honesty, you’re well on your way to success in the world.
Charlie Munger
The big question about how people behave is whether they’ve got an Inner Scorecard or an Outer Scorecard. It helps if you can be satisfied with an Inner Scorecard. (…) I always pose it this way. I say: ‘Would you rather be the world’s greatest lover, but have everyone think you’re the world’s worst lover? Or would you rather be the world’s worst lover but having everyone think you’re the world’s greatest lover?”
“There is no reason to look at the minuses in life. It would be crazy. We count our blessings.
Warren Buffet
“The French writer Nicolas Camfort said, ‘Men whose only concern is other people’s opinion of them are like actors who put on a poor performance to win the applause of people of poor taste; some of them would be capable of good acting in front of a good audience. A decent man plays his part to the best of his ability, regardless of the taste of the gallery.’ “- Peter Bevelin
“Don’t live based on the approval from others. Be authentic - be and act in accordance with who you are, what you like and are good at, or one day your mask may fall off.”- Peter Bevelin
The best way to avoid envy, recognized by Aristotle, is to plainly deserve the success we get.
The world is not driven by greed: it’s driven by envy.
“Feeling like a victim is a perfectly disastrous way to go through life. If you just take the attitude that however bad it is in any way, it’s always your fault and you fix it as best as you can — the so called ‘iron prenoscription’- I think that really works.
I don’t like any feelings of being victimized, I think that is a counterproductive way to think. And I am not a victim. I am a survivor.
Reliability is essential for progress in life. (…) If you become very reliable and stay that way, it will be very hard to fail in doing anything you want.
I think track records are very important. If you start early trying to have a perfect one in a some simple thing like honesty, you’re well on your way to success in the world.
Charlie Munger
The big question about how people behave is whether they’ve got an Inner Scorecard or an Outer Scorecard. It helps if you can be satisfied with an Inner Scorecard. (…) I always pose it this way. I say: ‘Would you rather be the world’s greatest lover, but have everyone think you’re the world’s worst lover? Or would you rather be the world’s worst lover but having everyone think you’re the world’s greatest lover?”
“There is no reason to look at the minuses in life. It would be crazy. We count our blessings.
Warren Buffet
“The French writer Nicolas Camfort said, ‘Men whose only concern is other people’s opinion of them are like actors who put on a poor performance to win the applause of people of poor taste; some of them would be capable of good acting in front of a good audience. A decent man plays his part to the best of his ability, regardless of the taste of the gallery.’ “- Peter Bevelin
“Don’t live based on the approval from others. Be authentic - be and act in accordance with who you are, what you like and are good at, or one day your mask may fall off.”- Peter Bevelin
👍1
Zero to one
큰 조직에서는 새로운 것을 개발하기가 어렵고, 혼자서 새로운 것을 개발하기는 더더욱 어렵다. 신생기업이 제대로 돌아가려면 사람들과 함께 일해야한다. 다만 그 규모는 실제로 뭔가를 할 수 있을 만큼 작게 유지되어야한다.
신생 기업이 가진 강점 중에서 가장 중요한 것은 새로운 생각이다. 새로운 생각은 민첩함보다도 더 중요하다. 그리고 규모가 작아야 생각할 공간이 생긴다.
당연시되는 생각에 의문을 제기하고, 백지 상태에서부터 다시 사업을 시작하라.
진정으로 남들과 다른 사람은 다수에게 반대하는 사람이 아니라, 스스로 생각하는 사람이다.
신생기업들은 자신이 속한 시장을 극도로 좁게 묘사함으로써 자동적으로 시장 지배자가 되고 싶은 치명적인 유혹을 느낀다.독점 기업이 아닌 회사들은 자신의 시장을 여러 작은 시장의 교집합으로 정의함으로써 더 특별한 시장이라고 과장한다.
앞으로 10년 후에도 이 회사가 존속할 것인가? 내가하는 사업의 질적 특성을 비판적으로 바라보고 있는가? 그 이유는 무엇인가?
작게 시작해서 독점하라곳곳에 흩여져 있던 수백만명의 주의를 끄려고 애쓰는 것보다 정말로 우리 제품이 필요한 천명에게 접근하는 게 훨씬 쉬웠다.
단계적으로 사업을 확장하려면 원칙이 필요하다. 가장 성공한 회사들은 핵심적인 이행계획을 설립하는 단계에서부터 미리 세운다.
회사 자체가 하나의 기업문화다. 신생기업이란 같은 목표를 가진 사람들이 하나의 팀으로 뭉친 것이다. 훌륭한 기업 문화란 그것이 회사 내에서 드러난 모습일 뿐이다.
장기적인 미래를 함께 그려가지 않는 사람들과 일하며 우리의 가장 소중한 자산인 시간을 써버리는 것은 이상한 일이다.
우리는 실제로 즐겁게 함께 일할 수 있는 사람들을 채용했다. 재능도 있어야하지만, 특히 ‘우리’라는 사람들과 함께 일하는 것을 신나게 생각해야 했다.
7가지 질문
1. 기술: 점진적 개선이 아닌 획기적 기술을 만들어낼 수 있는가? 제품이 경쟁사에 비해서 10배 좋은가?
2. 시기: 이 사업을 시작하기에 지금이 적기인가?
3. 독점: 작은시장에서 큰 점유율을 가지고 시작하는가? 이 시장을 독점했을 때 다른 시장으로 어떤 원칙을 가지고 확장할 수 있는가?
4. 사람: 제대로 된 팀을 갖고 있는가?
5. 유통: 제품을 단지 만들기만 하는 것이 아니라 전할 방법을 갖고 있는가?
6: 존속성: 시장에서의 현재 위치를 향후 10년, 20년간 방어할 수 있는가?
7: 숨겨진 비밀: 다른 사람들은 보지 못하는 독특한 기회를 포착했는가?
큰 조직에서는 새로운 것을 개발하기가 어렵고, 혼자서 새로운 것을 개발하기는 더더욱 어렵다. 신생기업이 제대로 돌아가려면 사람들과 함께 일해야한다. 다만 그 규모는 실제로 뭔가를 할 수 있을 만큼 작게 유지되어야한다.
신생 기업이 가진 강점 중에서 가장 중요한 것은 새로운 생각이다. 새로운 생각은 민첩함보다도 더 중요하다. 그리고 규모가 작아야 생각할 공간이 생긴다.
당연시되는 생각에 의문을 제기하고, 백지 상태에서부터 다시 사업을 시작하라.
진정으로 남들과 다른 사람은 다수에게 반대하는 사람이 아니라, 스스로 생각하는 사람이다.
신생기업들은 자신이 속한 시장을 극도로 좁게 묘사함으로써 자동적으로 시장 지배자가 되고 싶은 치명적인 유혹을 느낀다.독점 기업이 아닌 회사들은 자신의 시장을 여러 작은 시장의 교집합으로 정의함으로써 더 특별한 시장이라고 과장한다.
앞으로 10년 후에도 이 회사가 존속할 것인가? 내가하는 사업의 질적 특성을 비판적으로 바라보고 있는가? 그 이유는 무엇인가?
작게 시작해서 독점하라곳곳에 흩여져 있던 수백만명의 주의를 끄려고 애쓰는 것보다 정말로 우리 제품이 필요한 천명에게 접근하는 게 훨씬 쉬웠다.
단계적으로 사업을 확장하려면 원칙이 필요하다. 가장 성공한 회사들은 핵심적인 이행계획을 설립하는 단계에서부터 미리 세운다.
회사 자체가 하나의 기업문화다. 신생기업이란 같은 목표를 가진 사람들이 하나의 팀으로 뭉친 것이다. 훌륭한 기업 문화란 그것이 회사 내에서 드러난 모습일 뿐이다.
장기적인 미래를 함께 그려가지 않는 사람들과 일하며 우리의 가장 소중한 자산인 시간을 써버리는 것은 이상한 일이다.
우리는 실제로 즐겁게 함께 일할 수 있는 사람들을 채용했다. 재능도 있어야하지만, 특히 ‘우리’라는 사람들과 함께 일하는 것을 신나게 생각해야 했다.
7가지 질문
1. 기술: 점진적 개선이 아닌 획기적 기술을 만들어낼 수 있는가? 제품이 경쟁사에 비해서 10배 좋은가?
2. 시기: 이 사업을 시작하기에 지금이 적기인가?
3. 독점: 작은시장에서 큰 점유율을 가지고 시작하는가? 이 시장을 독점했을 때 다른 시장으로 어떤 원칙을 가지고 확장할 수 있는가?
4. 사람: 제대로 된 팀을 갖고 있는가?
5. 유통: 제품을 단지 만들기만 하는 것이 아니라 전할 방법을 갖고 있는가?
6: 존속성: 시장에서의 현재 위치를 향후 10년, 20년간 방어할 수 있는가?
7: 숨겨진 비밀: 다른 사람들은 보지 못하는 독특한 기회를 포착했는가?
https://armelee.substack.com/p/f8c?utm_source=substack&publication_id=826808&post_id=141026999&utm_medium=email&utm_content=share&utm_campaign=email-share&triggerShare=true&isFreemail=true&r=2t4u3
형, 사람이 논리로 설득될까?
설득은 논리보다 신뢰에서 온다.
진심이 전달되지 않을 때에는 어떻게 하세요?
늘 다시 찾아가서 이야기한다고 한다. 상대가 받아줄 때까지. 상호간의 대화가 될 때까지. 상대방이 마음을 열어줄 때까지. 자신의 고민과 속마음을 이야기해줄 때까지. 계속 노력했더니 상대방도 자신이 가진 고민과 어려움, 진솔한 생각을 이야기해줬다고 한다.
진정성은 ‘나’라는 범주 바깥에서 모든 기적을 만들어내는 시발점이된다.
형, 사람이 논리로 설득될까?
설득은 논리보다 신뢰에서 온다.
진심이 전달되지 않을 때에는 어떻게 하세요?
늘 다시 찾아가서 이야기한다고 한다. 상대가 받아줄 때까지. 상호간의 대화가 될 때까지. 상대방이 마음을 열어줄 때까지. 자신의 고민과 속마음을 이야기해줄 때까지. 계속 노력했더니 상대방도 자신이 가진 고민과 어려움, 진솔한 생각을 이야기해줬다고 한다.
진정성은 ‘나’라는 범주 바깥에서 모든 기적을 만들어내는 시발점이된다.
Horizon
어느 햄버거집 사장님과의 만남
진정성의 또다른 이름, 세상을 헤쳐나가는 단단함과 용기
Continuous Learning_Startup & Investment
유체역학의 역사 1/15 : https://youtu.be/ykZU0RNLwlo 유체역학의 역사 2/15 : https://youtu.be/yGim8RWkcUE 유체역학의 역사 3/15 : https://youtu.be/CZhJzKLQfTE (본영상) 유체역학의 역사 4/15 : https://youtu.be/_sbwxdqXwV0 유체역학의 역사 5/15 : https://youtu.be/fJ9jhTT8R5o 유체역학의 역사 6/15 : ht…
Engineer는 만들고 창조하는 사람이다. 크리에이터가 되기 위해서 자신의 분야를 넘어선 사례들을 봐야한다.