Forwarded from 전종현의 인사이트
AI will automate 25-50% of white collar work including data analysis. Does that will data teams shrink in size?
On the contrary, while AI can automate some work, it will also demand much more from data teams.
Typical tasks - writing SQL & charting data - will become mostly automated. This ease of use will enable data teams to focus elsewhere : on the sea of demand for data coming from the edges of the company.
AI will infuse marketing, sales, customer support, product, & engineering in new ways - nearly all of it requiring data to deliver cost savings & productivity boosts.
The data team will bear the responsibility of providing the data, validating it, & ensuring that it meets both internal & external standards/compliance.
Data teams will become important contributors in software procurement. As departments evaluate new AI tooling, data teams will validate the approaches & the models to ensure they work as promised.
After deployment, data teams may be responsible for tuning & optimizing different AI features enabled by AI-infused software applications. Data teams will debug applications with models, unearthing challenges with them such as which training data is required to supplement a model & providing that data.
AI will exert greater demands on data teams. They will operate at a greater layer of abstraction. But more people will be needed to staff the pipelines & monitor the models that will power business systems.
On the contrary, while AI can automate some work, it will also demand much more from data teams.
Typical tasks - writing SQL & charting data - will become mostly automated. This ease of use will enable data teams to focus elsewhere : on the sea of demand for data coming from the edges of the company.
AI will infuse marketing, sales, customer support, product, & engineering in new ways - nearly all of it requiring data to deliver cost savings & productivity boosts.
The data team will bear the responsibility of providing the data, validating it, & ensuring that it meets both internal & external standards/compliance.
Data teams will become important contributors in software procurement. As departments evaluate new AI tooling, data teams will validate the approaches & the models to ensure they work as promised.
After deployment, data teams may be responsible for tuning & optimizing different AI features enabled by AI-infused software applications. Data teams will debug applications with models, unearthing challenges with them such as which training data is required to supplement a model & providing that data.
AI will exert greater demands on data teams. They will operate at a greater layer of abstraction. But more people will be needed to staff the pipelines & monitor the models that will power business systems.
Continuous Learning_Startup & Investment
AI will automate 25-50% of white collar work including data analysis. Does that will data teams shrink in size? On the contrary, while AI can automate some work, it will also demand much more from data teams. Typical tasks - writing SQL & charting data…
This is possible, but will only happen when the work of data analysts doesn't involve figuring out which data to use, where the data is located, where it's coming from, why the same column is present in 4 different databases each with different numbers, what it means semantically, how it's changed over time, wading through all the gotchas and layers of filters in SQL, going back and forth with engineering because there's no documentation, then wrapping all that context in a pretty bow and communicating it to stakeholders.
Writing SQL and creating charts is by far the easiest 10% of an analyst's job. The other 90% is a thankless grind chopping through an ever-growing jungle of data debt. Unless THAT problem is solved, anything AI can do is just putting lipstick on a pig.
Writing SQL and creating charts is by far the easiest 10% of an analyst's job. The other 90% is a thankless grind chopping through an ever-growing jungle of data debt. Unless THAT problem is solved, anything AI can do is just putting lipstick on a pig.
https://rosinality.github.io/2021/05/%EB%A8%B8%EC%8B%A0-%EB%9F%AC%EB%8B%9D-%EC%8B%9C%EC%8A%A4%ED%85%9C%EC%97%90%EC%84%9C-%EC%84%A4%EC%A0%95-%EA%B4%80%EB%A6%AC%ED%95%98%EA%B8%B0/
과거에도 쓴 글이 있는데, 여하간 머신 러닝을 위한 프레임워크, 구체적으로는 계속해서 실험을 하기 위한 프레임워크에서 가장 중요한 것 중 하나가 설정 관리라고 생각한다. 실험을 계속하다 보면 정말 온갖 곳에서 수정이 필요한 경우들이 생기고 (데이터소스, 데이터셋과 구조, 모델 구조, 학습 루프 등등등...) 그런 잠재적인 수정에 대해서 열려 있는 코드가 필요하다. 꼭 이런 모든 잠재적인 수정을 미리 예측해서 추상화한다기보다도, 수정이 필요해졌을 때 큰 부수효과나 자잘한 작업 없이도 수정할 수 있는가 하는 것이 중요한 부분이다.
그리고 이런 유연성에서 가장 기본적이면서도 큰 도움이 되는 것이 설정 파일이다.
사실 설정 파일 포맷 자체도 유의미한 차이를 만들어내지만 (예를 들어 여러 설정 파일을 조합할 수 있는가 등) 그보다는 설정 파일을 어떻게 사용하는가 하는 것이 중요하다 할 수 있겠다. 어쨌든 설정 파일은 그 형식이 어떻건 원칙적으로는 값의 나열이라는 점에서는 동일하므로.
예를 들어, 트랜스포머의 feedforward의 activation 함수를 바꾸고 싶다고 하자. 그렇다고 하면 보통 어떻게 할까? 가장 기본적으로는 if를 사용하는 것이다.
if conf.model.activation == 'relu':
activation = nn.ReLU()
흔히 쓰이는 방법이지만 두 가지 문제가 있다. 새로운 activation 함수를 추가하고 싶다면 이 if 문이 있는 곳까지 이동해서 새로운 조건을 추가해야 한다. 거기다 ReLU 같은 경우 특별한 파라미터가 없어서 간단하지만 LeakyReLU 같이 추가 파라미터가 필요하다면 그에 따른 옵션도 추가되어야 한다.
거기다 보통 모델 선언은 Transformer(Blocks(FeedForward)) 같은 식으로 중첩되어 있으므로 위와 같은 조건문이 등장하는 지점까지 설정값을 넘겨줘야 한다. 그냥 값을 넘기자니 중첩 때문에 설정값이 누적되어 증가한다는 것도 문제다. (예를 들어 Transformer는 FeedForward을 위한 설정값 activation도 넘겨받아야 하고, dropout을 위한 설정값도 넘겨받아야 한다.) 그래서 그냥 여러 설정들을 묶은 객체를 (위의 conf 같은) 넘겨주는 경우도 많다. 좋긴 하지만 그렇다면 그 모듈을 쓰기 위해서는 conf 객체를 생성해서 전달해야 한다. 그 자체도 번거롭지만 conf 객체에서 실제 사용되는 설정값을 코드를 보기 전에는 알 수 없다는 것도 문제가 된다.
그 다음으로 인기 있는(혹은 인기 있었던?) 방법은 registry를 쓰는 방법이다. 예를 들면 이런 식이다.
@registry
def relu():
return nn.ReLU()
activation = get_registry(conf.model.activation)
if문을 추가해야 한다는 문제가 사라진다는 점은 유용하다. 그렇지만 registry에 추가해줘야 한다는 문제가 생겨나고, 설정을 어떻게 넘겨줄 것인가라는 문제는 아직 해소되지 않았다.
그렇다면 아예 설정값에 nn.ReLU라는 객체를 넣을 수는 없을까? 이 문제를 해결하는 것이 hydra의 instantiate이다.
https://hydra.cc/docs/advanced/instantiate_objects/overview/
activation:
_target_: torch.nn.ReLU
activation = instantiate(conf.model.activation)
registry 등록이 필요 없이 파이썬 객체나 함수를 그대로 설정값으로 추가하고, 그 설정값을 사용해서 파이썬 객체를 생성할 수 있다. 여기서 약간 불편한 점은 YAML을 사용하기 때문에 함수 호출을 위한 구문이 좀 자연스럽지 않다는 것이다. import 경로도 모두 써줘야 하고.
https://detectron2.readthedocs.io/en/latest/tutorials/lazyconfigs.html
이 문제에 대해서 detectron2에서는 파이썬 코드를 설정 파일로 쓰는 방식으로 해결했다.
activation = L(nn.ReLU)()
일반적인 파이썬 코드를 사용해서 호출하되, L()을 사용해서 실제로 코드를 실행하는 것이 아니라 설정값을 생성하도록 한 것이다. 비슷한 접근을 구글에서 공개한 fiddle (https://github.com/google/fiddle) 에서도 채택하고 있는데, 여기서는 더 나아가 AST를 패치해서 L()을 제거하기도 했다.
@auto_config
def activation():
return nn.ReLU()
이 접근을 채택하면 예컨대 optimizer 하이퍼파라미터 조정 같은 일상적인 문제도 간단해진다. 예를 들어 AdamW 같은 경우 learning rate, beta1, beta2, eps, weight decay 같은 하이퍼파라미터가 필요한데, 이 모든 값을 설정으로 추가한다고 생각하면,
if conf.optimizer == 'adamw':
return AdamW(parameters(), lr=conf.lr, betas=(conf.adam_beta1, conf.adam_beta2), eps=conf.adam_eps, weight_decay=conf.weight_decay)
이런 형태가 될 것이다. 그렇지만 instantiate를 사용한다면,
optimizer = L(AdamW)(lr=3e-4, betas=(0.9, 0.98), eps=1e-5, weight_decay=0.1)
optimizer = instantiate(optimizer)(parameters)
같은 식으로 사용이 가능하다.
더 나아가, instantiate가 중첩된 객체나 함수 선언을 생성할 수 있다고 하면 설정값을 전달하는 방식이 아예 달라질 수 있다. 예를 들어 위의 activation 변경 같은 문제는 이렇게 접근할 수 있다.
model = L(Transformer)(
block=L(Block)(
feedforward=L(FeedForward)(
activation=L(ReLU)()
)
)
)
model = instantiate(model)
FeedForward 같은 모델에서 activation을 생성하는 것이 아니라, 그냥 activation을 설정값 자체에서 FeedForward에 넘겨주는 것이다. 뭐 요새는 전부 비슷비슷한 트랜스포머를 쓰다보니 이런 형태의 모듈화가 필요한 경우가 많지 않긴 하지만, 그렇지 않다면 문제를 훨씬 쉽게 만들어주는 경우가 있다.
이러한 설정 관리 방법의 유연성과 강력함을 보여주는 사례로 detectron2에서 설정 변경으로 본업도 아닌 이미지넷 분류기를 학습시키는 예제도 참고할만할 것 같다. https://github.com/facebookresearch/detectron2/blob/main/configs/Misc/torchvision_imagenet_R_50.py
더 나은 방법과 디자인, 접근이 있을 수 있겠지만, 이 방법이 hydra, detectron2, fiddle에서 공통적으로 등장한 것을 보면 그럭저럭 쓸만한 수준이라고는 할 수 있을 것 같다. 개인적으로도 계속 써오고 있는데, 물론 머신 러닝 시스템에서 정말 온갖 수정에 대한 필요가 발생하기에 그 모두를 커버하기는 어려운 경우도 있긴 했지만 대체로 나쁘지 않았다. 그렇게 흔한 접근과 도구가 아니라는 것에서 발생시키는 문제들은 있지만.
https://www.facebook.com/100001273238678/posts/pfbid0L8fAhUiMACq1d4e2p8sApgwVYiYAqXg3DcHyd5SqFDyCMo4QtbwKnRrxMSwvBjuGl/?mibextid=5eVWNK
과거에도 쓴 글이 있는데, 여하간 머신 러닝을 위한 프레임워크, 구체적으로는 계속해서 실험을 하기 위한 프레임워크에서 가장 중요한 것 중 하나가 설정 관리라고 생각한다. 실험을 계속하다 보면 정말 온갖 곳에서 수정이 필요한 경우들이 생기고 (데이터소스, 데이터셋과 구조, 모델 구조, 학습 루프 등등등...) 그런 잠재적인 수정에 대해서 열려 있는 코드가 필요하다. 꼭 이런 모든 잠재적인 수정을 미리 예측해서 추상화한다기보다도, 수정이 필요해졌을 때 큰 부수효과나 자잘한 작업 없이도 수정할 수 있는가 하는 것이 중요한 부분이다.
그리고 이런 유연성에서 가장 기본적이면서도 큰 도움이 되는 것이 설정 파일이다.
사실 설정 파일 포맷 자체도 유의미한 차이를 만들어내지만 (예를 들어 여러 설정 파일을 조합할 수 있는가 등) 그보다는 설정 파일을 어떻게 사용하는가 하는 것이 중요하다 할 수 있겠다. 어쨌든 설정 파일은 그 형식이 어떻건 원칙적으로는 값의 나열이라는 점에서는 동일하므로.
예를 들어, 트랜스포머의 feedforward의 activation 함수를 바꾸고 싶다고 하자. 그렇다고 하면 보통 어떻게 할까? 가장 기본적으로는 if를 사용하는 것이다.
if conf.model.activation == 'relu':
activation = nn.ReLU()
흔히 쓰이는 방법이지만 두 가지 문제가 있다. 새로운 activation 함수를 추가하고 싶다면 이 if 문이 있는 곳까지 이동해서 새로운 조건을 추가해야 한다. 거기다 ReLU 같은 경우 특별한 파라미터가 없어서 간단하지만 LeakyReLU 같이 추가 파라미터가 필요하다면 그에 따른 옵션도 추가되어야 한다.
거기다 보통 모델 선언은 Transformer(Blocks(FeedForward)) 같은 식으로 중첩되어 있으므로 위와 같은 조건문이 등장하는 지점까지 설정값을 넘겨줘야 한다. 그냥 값을 넘기자니 중첩 때문에 설정값이 누적되어 증가한다는 것도 문제다. (예를 들어 Transformer는 FeedForward을 위한 설정값 activation도 넘겨받아야 하고, dropout을 위한 설정값도 넘겨받아야 한다.) 그래서 그냥 여러 설정들을 묶은 객체를 (위의 conf 같은) 넘겨주는 경우도 많다. 좋긴 하지만 그렇다면 그 모듈을 쓰기 위해서는 conf 객체를 생성해서 전달해야 한다. 그 자체도 번거롭지만 conf 객체에서 실제 사용되는 설정값을 코드를 보기 전에는 알 수 없다는 것도 문제가 된다.
그 다음으로 인기 있는(혹은 인기 있었던?) 방법은 registry를 쓰는 방법이다. 예를 들면 이런 식이다.
@registry
def relu():
return nn.ReLU()
activation = get_registry(conf.model.activation)
if문을 추가해야 한다는 문제가 사라진다는 점은 유용하다. 그렇지만 registry에 추가해줘야 한다는 문제가 생겨나고, 설정을 어떻게 넘겨줄 것인가라는 문제는 아직 해소되지 않았다.
그렇다면 아예 설정값에 nn.ReLU라는 객체를 넣을 수는 없을까? 이 문제를 해결하는 것이 hydra의 instantiate이다.
https://hydra.cc/docs/advanced/instantiate_objects/overview/
activation:
_target_: torch.nn.ReLU
activation = instantiate(conf.model.activation)
registry 등록이 필요 없이 파이썬 객체나 함수를 그대로 설정값으로 추가하고, 그 설정값을 사용해서 파이썬 객체를 생성할 수 있다. 여기서 약간 불편한 점은 YAML을 사용하기 때문에 함수 호출을 위한 구문이 좀 자연스럽지 않다는 것이다. import 경로도 모두 써줘야 하고.
https://detectron2.readthedocs.io/en/latest/tutorials/lazyconfigs.html
이 문제에 대해서 detectron2에서는 파이썬 코드를 설정 파일로 쓰는 방식으로 해결했다.
activation = L(nn.ReLU)()
일반적인 파이썬 코드를 사용해서 호출하되, L()을 사용해서 실제로 코드를 실행하는 것이 아니라 설정값을 생성하도록 한 것이다. 비슷한 접근을 구글에서 공개한 fiddle (https://github.com/google/fiddle) 에서도 채택하고 있는데, 여기서는 더 나아가 AST를 패치해서 L()을 제거하기도 했다.
@auto_config
def activation():
return nn.ReLU()
이 접근을 채택하면 예컨대 optimizer 하이퍼파라미터 조정 같은 일상적인 문제도 간단해진다. 예를 들어 AdamW 같은 경우 learning rate, beta1, beta2, eps, weight decay 같은 하이퍼파라미터가 필요한데, 이 모든 값을 설정으로 추가한다고 생각하면,
if conf.optimizer == 'adamw':
return AdamW(parameters(), lr=conf.lr, betas=(conf.adam_beta1, conf.adam_beta2), eps=conf.adam_eps, weight_decay=conf.weight_decay)
이런 형태가 될 것이다. 그렇지만 instantiate를 사용한다면,
optimizer = L(AdamW)(lr=3e-4, betas=(0.9, 0.98), eps=1e-5, weight_decay=0.1)
optimizer = instantiate(optimizer)(parameters)
같은 식으로 사용이 가능하다.
더 나아가, instantiate가 중첩된 객체나 함수 선언을 생성할 수 있다고 하면 설정값을 전달하는 방식이 아예 달라질 수 있다. 예를 들어 위의 activation 변경 같은 문제는 이렇게 접근할 수 있다.
model = L(Transformer)(
block=L(Block)(
feedforward=L(FeedForward)(
activation=L(ReLU)()
)
)
)
model = instantiate(model)
FeedForward 같은 모델에서 activation을 생성하는 것이 아니라, 그냥 activation을 설정값 자체에서 FeedForward에 넘겨주는 것이다. 뭐 요새는 전부 비슷비슷한 트랜스포머를 쓰다보니 이런 형태의 모듈화가 필요한 경우가 많지 않긴 하지만, 그렇지 않다면 문제를 훨씬 쉽게 만들어주는 경우가 있다.
이러한 설정 관리 방법의 유연성과 강력함을 보여주는 사례로 detectron2에서 설정 변경으로 본업도 아닌 이미지넷 분류기를 학습시키는 예제도 참고할만할 것 같다. https://github.com/facebookresearch/detectron2/blob/main/configs/Misc/torchvision_imagenet_R_50.py
더 나은 방법과 디자인, 접근이 있을 수 있겠지만, 이 방법이 hydra, detectron2, fiddle에서 공통적으로 등장한 것을 보면 그럭저럭 쓸만한 수준이라고는 할 수 있을 것 같다. 개인적으로도 계속 써오고 있는데, 물론 머신 러닝 시스템에서 정말 온갖 수정에 대한 필요가 발생하기에 그 모두를 커버하기는 어려운 경우도 있긴 했지만 대체로 나쁘지 않았다. 그렇게 흔한 접근과 도구가 아니라는 것에서 발생시키는 문제들은 있지만.
https://www.facebook.com/100001273238678/posts/pfbid0L8fAhUiMACq1d4e2p8sApgwVYiYAqXg3DcHyd5SqFDyCMo4QtbwKnRrxMSwvBjuGl/?mibextid=5eVWNK
Nondifferentiable Log
머신 러닝 코드, 특히 실험적 목적이 강한 코드에서 가장 중요한 문제 중 하나가 설정을 관리하는 것이라고 본다. 머신 러닝 모델에는 수많은 하이퍼파라미터가 존재하고 그
LLM에 대한 새로운 유형의 adversarial attack 방식이 발견되어 타임라인이 난리가 났네요. arXiv에도 공개된 논문인데, 논문 실험자에 의해 왠만한 LLM들을 모두 jailbreak이 성공했던 것 같습니다. 심지어는 블랙박스 모델을 가진 LLM들에서도... 물론 지금은 다 막혔겠지만.
LLM adversarial attack에 관심있는 분들은 GitHub에 공개한 코드를 이용해 한번 살펴보시는 것도 좋을 듯 싶네요.
제목: Universal and Transferable Adversarial Attacks on Aligned Language Models
요약:
"즉시 사용 가능한" 대규모 언어 모델은 불쾌한 콘텐츠를 대량으로 생성할 수 있기 때문에 최근의 작업은 원치 않는 콘텐츠 생성을 방지하기 위해 이러한 모델을 조정하는 데 중점을 두고 있습니다. LLM에 대한 소위 '탈옥'이라고 불리는 이러한 조치를 우회하는 데 어느 정도 성공했지만, 이러한 공격은 인간의 창의력을 크게 필요로 하며 실제로는 취약합니다.
이 논문에서는 정렬된 언어 모델이 불쾌한 동작을 생성하도록 하는 간단하고 효과적인 공격 방법을 제안합니다. 특히, 이 접근 방식은 불쾌한 콘텐츠를 생성하는 LLM에 대한 광범위한 쿼리에 붙이면 모델이 답변을 거부하지 않고 긍정적인 응답을 생성할 확률을 극대화하는 접미사를 찾는 것을 목표로 합니다. 그러나 수동 엔지니어링에 의존하는 대신, 우리의 접근 방식은 욕심 기반 검색 기법과 그라데이션 기반 검색 기법의 조합을 통해 이러한 적대적인 접미사를 자동으로 생성하며, 과거의 자동 프롬프트 생성 방법보다 개선되었습니다.
놀랍게도, 저희 접근 방식으로 생성된 적대적 프롬프트는 공개적으로 공개된 블랙박스 LLM을 포함하여 상당히 전이 가능하다는 사실을 발견했습니다. 특히, 여러 프롬프트(즉, 다양한 유형의 불쾌한 콘텐츠를 요청하는 쿼리)와 여러 모델(저희의 경우 Vicuna-7B 및 13B)에 대해 적대적 공격 접미사를 학습시켰습니다. 이 과정에서 생성된 공격 접미사는 ChatGPT, Bard, Claude의 퍼블릭 인터페이스는 물론 LLaMA-2-Chat, Pythia, Falcon 등의 오픈 소스 LLM에 불쾌감을 주는 콘텐츠를 유도할 수 있습니다. 이 작업은 전체적으로 정렬된 언어 모델에 대한 적대적 공격의 최신 기술을 크게 발전시켰으며, 이러한 시스템이 불쾌한 정보를 생성하는 것을 어떻게 방지할 수 있는지에 대한 중요한 질문을 제기합니다. 코드는 다음 http URL에서 확인할 수 있습니다.
주요 통찰과 교훈:
- 대규모 언어 모델은 불쾌감을 주는 콘텐츠를 방지하도록 정렬된 경우에도 여전히 적대적 공격에 취약할 수 있습니다.
- 제안하는 공격 방식은 수동 엔지니어링에 의존하지 않고 자동으로 적대적 접미사를 생성하므로 이전 방식보다 더 효율적이고 효과적입니다.
- 이 접근법에 의해 생성된 적대적 프롬프트는 전송 가능한 것으로 나타났습니다. 즉, 블랙박스 언어 모델에도 영향을 미쳐 더 위험하고 방어하기 어렵게 만들 수 있습니다.
#LLM #adversarialattack
arXiv: https://arxiv.org/abs/2307.15043
PDF: https://arxiv.org/pdf/2307.15043.pdf
arXiv-vanity: https://www.arxiv-vanity.com/papers/2307.15043
Paper page: https://huggingface.co/papers/2307.15043
Papers with code: https://paperswithcode.com/paper/universal-and-transferable-adversarial
Github: https://github.com/llm-attacks/llm-attacks
LLM adversarial attack에 관심있는 분들은 GitHub에 공개한 코드를 이용해 한번 살펴보시는 것도 좋을 듯 싶네요.
제목: Universal and Transferable Adversarial Attacks on Aligned Language Models
요약:
"즉시 사용 가능한" 대규모 언어 모델은 불쾌한 콘텐츠를 대량으로 생성할 수 있기 때문에 최근의 작업은 원치 않는 콘텐츠 생성을 방지하기 위해 이러한 모델을 조정하는 데 중점을 두고 있습니다. LLM에 대한 소위 '탈옥'이라고 불리는 이러한 조치를 우회하는 데 어느 정도 성공했지만, 이러한 공격은 인간의 창의력을 크게 필요로 하며 실제로는 취약합니다.
이 논문에서는 정렬된 언어 모델이 불쾌한 동작을 생성하도록 하는 간단하고 효과적인 공격 방법을 제안합니다. 특히, 이 접근 방식은 불쾌한 콘텐츠를 생성하는 LLM에 대한 광범위한 쿼리에 붙이면 모델이 답변을 거부하지 않고 긍정적인 응답을 생성할 확률을 극대화하는 접미사를 찾는 것을 목표로 합니다. 그러나 수동 엔지니어링에 의존하는 대신, 우리의 접근 방식은 욕심 기반 검색 기법과 그라데이션 기반 검색 기법의 조합을 통해 이러한 적대적인 접미사를 자동으로 생성하며, 과거의 자동 프롬프트 생성 방법보다 개선되었습니다.
놀랍게도, 저희 접근 방식으로 생성된 적대적 프롬프트는 공개적으로 공개된 블랙박스 LLM을 포함하여 상당히 전이 가능하다는 사실을 발견했습니다. 특히, 여러 프롬프트(즉, 다양한 유형의 불쾌한 콘텐츠를 요청하는 쿼리)와 여러 모델(저희의 경우 Vicuna-7B 및 13B)에 대해 적대적 공격 접미사를 학습시켰습니다. 이 과정에서 생성된 공격 접미사는 ChatGPT, Bard, Claude의 퍼블릭 인터페이스는 물론 LLaMA-2-Chat, Pythia, Falcon 등의 오픈 소스 LLM에 불쾌감을 주는 콘텐츠를 유도할 수 있습니다. 이 작업은 전체적으로 정렬된 언어 모델에 대한 적대적 공격의 최신 기술을 크게 발전시켰으며, 이러한 시스템이 불쾌한 정보를 생성하는 것을 어떻게 방지할 수 있는지에 대한 중요한 질문을 제기합니다. 코드는 다음 http URL에서 확인할 수 있습니다.
주요 통찰과 교훈:
- 대규모 언어 모델은 불쾌감을 주는 콘텐츠를 방지하도록 정렬된 경우에도 여전히 적대적 공격에 취약할 수 있습니다.
- 제안하는 공격 방식은 수동 엔지니어링에 의존하지 않고 자동으로 적대적 접미사를 생성하므로 이전 방식보다 더 효율적이고 효과적입니다.
- 이 접근법에 의해 생성된 적대적 프롬프트는 전송 가능한 것으로 나타났습니다. 즉, 블랙박스 언어 모델에도 영향을 미쳐 더 위험하고 방어하기 어렵게 만들 수 있습니다.
#LLM #adversarialattack
arXiv: https://arxiv.org/abs/2307.15043
PDF: https://arxiv.org/pdf/2307.15043.pdf
arXiv-vanity: https://www.arxiv-vanity.com/papers/2307.15043
Paper page: https://huggingface.co/papers/2307.15043
Papers with code: https://paperswithcode.com/paper/universal-and-transferable-adversarial
Github: https://github.com/llm-attacks/llm-attacks
Arxiv-Vanity
Universal and Transferable Adversarial Attacks on Aligned Language Models
Because “out-of-the-box” large language models are capable of generating a great deal of objectionable content, recent work has focused on aligning these models in an attempt to prevent undesirable generation. While there has been some success at circumventing…
건강한 갈등 vs. 인위적인 하모니
(얼마 전 북클럽에 초대받아 야후 때 읽어던 책 "Five Dysfunctions of a Team"을 하나 선정해 같이 리뷰하는 시간을 가졌다. 저자의 다른 책들을 오래만에 다시 보다가 필받아서 아래 글을 쓰게 되었다)
경험이 부족한 혹은 마음 약한 리더가 하는 흔한 실수 중의 하나는 팀원들이 조화롭게 지내기를 원하는 거다. 누구나 팀원들이 서로 다른 의견을 이야기하는 걸 보면 마음이 처음에는 좀 불편할 수 있고 개입해서 해결하고 싶은 생각이 꿈틀댈 수 있다. 이는 조직의 조화와 화합을 강조하는 한국적인 상황에 확실히 더 많아 보인다.
하지만 신뢰가 있는 팀에서 (인신공격이 아닌) 서로 다른 생각이 미팅에서 자유롭게 표출되고 관점을 이해하는 노력과 논의를 통해 더 좋은 아이디어로 만들어내는 경험을 한번이라도 해본다면 인위적인 조화보다는 신뢰를 바탕으로한 건강한 갈등이 더 좋다는 점을 알 수 있으리라 믿는다.
그런데 하모니를 너무 중시하는 리더라면 서로의 의견 다름이 불편해서 걱정을 하면서 너무 빠르게 정리를 하거나 또는 정반대의 경우에는 누군가 손을 들어주는 경우 다른 사람에게 상처를 줄까 건강한 충돌로 끝날 수 있었던 거를 최종 결정을 미룸으로써 감정적인 충돌로 번지게 만들기도 한다.
무분별한 하모니보다는 건강한 갈등을 추구하는 문화를 만드는 것이 중장기적으로 더 좋은 아이디어를 만들어내고 모든 사람들이 같은 방향으로 달려가는데 도움이 된다고 믿는다. 이 관점에서 리더의 역할을 팀내에 신뢰를 만들어내 사람들이 자기 의견이나 질문을 편하게 할 수 있게 하고 필요할 때 명확한 결정을 내려주는 것이다.
여기서 명확성이란 옳은 결정이란 관점이 아니다. 적어도 사람들이 다음 단계로 넘어갈 수 있게 정리를 해준다는 그 상황에서 최선의 결정이란 느낌이 더 강한 것이라 나중에 잘못되었다 판단되면 수정하면 된다. “어떤 결정이든 아무 결정도 내리지 않는 것보다 낫다”(Any decision is better than no decision)라는 말이 괜히 나온 것이 아니다. 이런 이유로 아직 결정을 못내리겠다고 말을 하는 것도 결정이다.
“팀이 빠지기 쉬운 5가지 함정”(Five Dysfunctions of a team)이란 책으로 유명한 패트릭 렌시오니가 쓴 “The 5 Temptations of a CEO”라는 책(한글판은 없는 것으로 보인다)이 있다. 여기에 보면 CEO가 빠지기 쉬운 5가지 유혹에 관한 이야기를 하는데 그 중 2가지가 앞서 언급한 내용들과 관련이 있다.
유혹 3: 명확성 대신 확실성을 추구하기 (Certainty over Clarity)
유혹 4: 건강한 갈등 대신 하모니를 우선시하기 (Harmony over Conflict)
이 책은 패트릭 렌시오니의 다른 책들처럼 가상의 회사를 바탕으로 쓰여져있기 때문에 읽기가 수월하다. 참고로 이 책에서 언급된 다른 3가지 유혹은 아래와 같다.
유혹 1: 결과보다 자존심을 추구하기 (Ego over Results)
유혹 2: 책임을 묻기 보다는 인기를 추구하기 (Popularity over Accountability)
유혹 5: 신뢰보다는 절대 틀리지 않는다는 이미지를 추구하기 (Invulnerability over Trust)
조직의 발전은 리더들이 솔선수범해서 "불편함"을 견디며 하루하루 편안한 영역 바깥으로 나갈 때 일어난다. 밑에 사람들을 뽑았으니 그 사람들이 알아서 잘 하겠지라고 믿으면 안되고 잘 할 수 있게 도와주고 더 잘 할수 있게 챌린지하며 완벽한 결정이 아닌 명확한 결정을 내리는 습관을 들여야 한다.
(얼마 전 북클럽에 초대받아 야후 때 읽어던 책 "Five Dysfunctions of a Team"을 하나 선정해 같이 리뷰하는 시간을 가졌다. 저자의 다른 책들을 오래만에 다시 보다가 필받아서 아래 글을 쓰게 되었다)
경험이 부족한 혹은 마음 약한 리더가 하는 흔한 실수 중의 하나는 팀원들이 조화롭게 지내기를 원하는 거다. 누구나 팀원들이 서로 다른 의견을 이야기하는 걸 보면 마음이 처음에는 좀 불편할 수 있고 개입해서 해결하고 싶은 생각이 꿈틀댈 수 있다. 이는 조직의 조화와 화합을 강조하는 한국적인 상황에 확실히 더 많아 보인다.
하지만 신뢰가 있는 팀에서 (인신공격이 아닌) 서로 다른 생각이 미팅에서 자유롭게 표출되고 관점을 이해하는 노력과 논의를 통해 더 좋은 아이디어로 만들어내는 경험을 한번이라도 해본다면 인위적인 조화보다는 신뢰를 바탕으로한 건강한 갈등이 더 좋다는 점을 알 수 있으리라 믿는다.
그런데 하모니를 너무 중시하는 리더라면 서로의 의견 다름이 불편해서 걱정을 하면서 너무 빠르게 정리를 하거나 또는 정반대의 경우에는 누군가 손을 들어주는 경우 다른 사람에게 상처를 줄까 건강한 충돌로 끝날 수 있었던 거를 최종 결정을 미룸으로써 감정적인 충돌로 번지게 만들기도 한다.
무분별한 하모니보다는 건강한 갈등을 추구하는 문화를 만드는 것이 중장기적으로 더 좋은 아이디어를 만들어내고 모든 사람들이 같은 방향으로 달려가는데 도움이 된다고 믿는다. 이 관점에서 리더의 역할을 팀내에 신뢰를 만들어내 사람들이 자기 의견이나 질문을 편하게 할 수 있게 하고 필요할 때 명확한 결정을 내려주는 것이다.
여기서 명확성이란 옳은 결정이란 관점이 아니다. 적어도 사람들이 다음 단계로 넘어갈 수 있게 정리를 해준다는 그 상황에서 최선의 결정이란 느낌이 더 강한 것이라 나중에 잘못되었다 판단되면 수정하면 된다. “어떤 결정이든 아무 결정도 내리지 않는 것보다 낫다”(Any decision is better than no decision)라는 말이 괜히 나온 것이 아니다. 이런 이유로 아직 결정을 못내리겠다고 말을 하는 것도 결정이다.
“팀이 빠지기 쉬운 5가지 함정”(Five Dysfunctions of a team)이란 책으로 유명한 패트릭 렌시오니가 쓴 “The 5 Temptations of a CEO”라는 책(한글판은 없는 것으로 보인다)이 있다. 여기에 보면 CEO가 빠지기 쉬운 5가지 유혹에 관한 이야기를 하는데 그 중 2가지가 앞서 언급한 내용들과 관련이 있다.
유혹 3: 명확성 대신 확실성을 추구하기 (Certainty over Clarity)
유혹 4: 건강한 갈등 대신 하모니를 우선시하기 (Harmony over Conflict)
이 책은 패트릭 렌시오니의 다른 책들처럼 가상의 회사를 바탕으로 쓰여져있기 때문에 읽기가 수월하다. 참고로 이 책에서 언급된 다른 3가지 유혹은 아래와 같다.
유혹 1: 결과보다 자존심을 추구하기 (Ego over Results)
유혹 2: 책임을 묻기 보다는 인기를 추구하기 (Popularity over Accountability)
유혹 5: 신뢰보다는 절대 틀리지 않는다는 이미지를 추구하기 (Invulnerability over Trust)
조직의 발전은 리더들이 솔선수범해서 "불편함"을 견디며 하루하루 편안한 영역 바깥으로 나갈 때 일어난다. 밑에 사람들을 뽑았으니 그 사람들이 알아서 잘 하겠지라고 믿으면 안되고 잘 할 수 있게 도와주고 더 잘 할수 있게 챌린지하며 완벽한 결정이 아닌 명확한 결정을 내리는 습관을 들여야 한다.
Forwarded from BZCF | 비즈까페
수많은 철도회사들은 채무를 이행하지 못하고, 파산을 했다. 장래가 유망한 고속성장 산업이 항상 성공하는 것은 아니라는 값비싼 교훈을 배울 수 있었다. 철도 회사가 우량 산업이라는 주장을 반박하는 사람은 당시 그 누구도 없었다. 그럼에도 수익은 보장되지 않았던 것이다. 철도주는 빈번한 경제공황과 약세장 속에서 연일 하한가를 기록했고, 원금이라도 회수해서 빠져나온 주주는 그나마 운이 좋은 편이었다.
https://m.blog.naver.com/bizucafe/223169270296
https://m.blog.naver.com/bizucafe/223169270296
NAVER
미국 철도산업의 교훈 그리고 최첨단 기술
1. 미국의 철도산업은 오늘날 인터넷, 모바일, 인공지능 산업과 같았다. 미국 전역을 연결하는 철로 건설에...
BZCF | 비즈까페
수많은 철도회사들은 채무를 이행하지 못하고, 파산을 했다. 장래가 유망한 고속성장 산업이 항상 성공하는 것은 아니라는 값비싼 교훈을 배울 수 있었다. 철도 회사가 우량 산업이라는 주장을 반박하는 사람은 당시 그 누구도 없었다. 그럼에도 수익은 보장되지 않았던 것이다. 철도주는 빈번한 경제공황과 약세장 속에서 연일 하한가를 기록했고, 원금이라도 회수해서 빠져나온 주주는 그나마 운이 좋은 편이었다. https://m.blog.naver.com/bizucafe/223169270296
철도 산업에 대한 간단한 메모
Why most railroad companies failed:
Overexpansion and competition led to excess capacity, diluting profits.
High levels of debt, often due to the costs of expansion, left companies vulnerable to economic downturns.
Economic downturns reduced demand for transportation services, exacerbating financial difficulties.
Mismanagement and corruption eroded profits and trust.
Technological advancements introduced risks and costs of adoption. Those who couldn't adapt quickly fell behind.
Who survived and how they survived and thrived:
Great Northern Railway: Avoided excessive debt, expanded strategically, and maintained strong community ties, which provided a reliable customer base.
New York Central Railroad: Pursued aggressive, yet calculated expansion. Embraced technological innovations, like electrification, improving efficiency.
Erie Railroad: Diversified freight business and capitalized on industrial centers it connected. However, faced several financial challenges and eventually merged into Consolidated Rail Corporation.
Missouri Pacific: Utilized its geographical advantage to tap into booming industries, such as cattle business and oil. However, it also faced financial instability and underwent reorganizations.
In essence, survival and success were linked to adaptability, prudent financial management, strategic expansion, diversified revenue streams, and embracing technological advancements. These companies navigated the shifting landscapes by capitalizing on unique opportunities and mitigating inherent risks.
What we could learn from this?
Avoid Overexpansion: Grow at a pace that your startup can handle. Rapid, unchecked growth can lead to oversaturation and diluted profits.
Maintain Financial Prudence: Avoid excessive debt. While borrowing is often necessary for startups, it's important to manage debt levels carefully.
Resilience in Economic Downturns: Ensure your startup can survive in challenging economic times. Diversify income streams and maintain strong cash reserves.
Avoid Mismanagement and Corruption: Good governance is critical. Transparency, strong leadership, and ethical practices contribute to a company's longevity.
Adopt Technology Wisely: Be open to innovation but evaluate the cost-benefit of adopting new technologies.
Strong Customer Base and Diversified Revenue: Develop strong relationships with your customers. Diversify your revenue streams to reduce dependence on a single source.
Emphasize Safety and Societal Values: Companies that prioritize these factors tend to earn respect and loyalty, which can contribute to long-term success.
Why most railroad companies failed:
Overexpansion and competition led to excess capacity, diluting profits.
High levels of debt, often due to the costs of expansion, left companies vulnerable to economic downturns.
Economic downturns reduced demand for transportation services, exacerbating financial difficulties.
Mismanagement and corruption eroded profits and trust.
Technological advancements introduced risks and costs of adoption. Those who couldn't adapt quickly fell behind.
Who survived and how they survived and thrived:
Great Northern Railway: Avoided excessive debt, expanded strategically, and maintained strong community ties, which provided a reliable customer base.
New York Central Railroad: Pursued aggressive, yet calculated expansion. Embraced technological innovations, like electrification, improving efficiency.
Erie Railroad: Diversified freight business and capitalized on industrial centers it connected. However, faced several financial challenges and eventually merged into Consolidated Rail Corporation.
Missouri Pacific: Utilized its geographical advantage to tap into booming industries, such as cattle business and oil. However, it also faced financial instability and underwent reorganizations.
In essence, survival and success were linked to adaptability, prudent financial management, strategic expansion, diversified revenue streams, and embracing technological advancements. These companies navigated the shifting landscapes by capitalizing on unique opportunities and mitigating inherent risks.
What we could learn from this?
Avoid Overexpansion: Grow at a pace that your startup can handle. Rapid, unchecked growth can lead to oversaturation and diluted profits.
Maintain Financial Prudence: Avoid excessive debt. While borrowing is often necessary for startups, it's important to manage debt levels carefully.
Resilience in Economic Downturns: Ensure your startup can survive in challenging economic times. Diversify income streams and maintain strong cash reserves.
Avoid Mismanagement and Corruption: Good governance is critical. Transparency, strong leadership, and ethical practices contribute to a company's longevity.
Adopt Technology Wisely: Be open to innovation but evaluate the cost-benefit of adopting new technologies.
Strong Customer Base and Diversified Revenue: Develop strong relationships with your customers. Diversify your revenue streams to reduce dependence on a single source.
Emphasize Safety and Societal Values: Companies that prioritize these factors tend to earn respect and loyalty, which can contribute to long-term success.
Forwarded from 요즘AI
OpenAI 다음으로 밸류가 높은 LLM 기업인 Anthropic(약 $5B)이 최근 출시한 언어 모델 Claude 2를 직접 사용해봤습니다.
100K 토큰을 지원하며 높은 안정성을 보여준다는 특성을 포함한 다양한 경우에 대해서 OpenAI의 GPT-4와 답변 성능을 비교해봤습니다.
직접 비교해본 사진은 아래 링크에서 확인하실 수 있습니다. :)
(비교 내용 확인하기)
1/ 입력 텍스트 길이
Anthropic은 100K라는 방대한 양의 토큰을 지원하는 만큼, 엄청난 길이의 입력값을 넣어도 답변이 가능합니다. 또한 방대한 양 속에서도 핵심적인 부분을 잘 추출해내는 것 같습니다.
그에 반해 GPT-4는 아직은 상대적으로 작은 토큰을 지원하기 때문에 시스템에 에러가 발생합니다.
2/ 윤리성
유해한 질문에 대해, GPT-4는 ‘~라고 판단합니다’의 형식으로 답변을 하며, Claude 2는 ‘~해야 합니다’라는 보다 강력한 주장의 형태로 답변을 했습니다.
즉 GPT-4는 확실한 주장보다는 윤리적 관점에서의 내용만 작성해주는 경향이, Claude 2는 스스로의 주장과 의견을 가지고 답변을 작성하는 경향이 있었습니다.
Claude 2는 ‘AI끼리의 강화 학습’이라는 독특한 방식으로 학습되었다고 합니다. 따라서 유해한 질문에 대해 회피하지 않고 자신의 윤리적 의견을 명확히 제시한다고 하죠.
그래서 ‘답변 회피’ 부분에서 큰 차이를 보일 것으로 예상했으나, GPT-4 또한 이런 종류의 질문에 대해 적절하게 잘 답변을 하는 것으로 나타났습니다.
3/ 환각
현재 GPT-4와 Claude 2 모두 웹 엑세스가 불가능하기 때문에 최신 이슈에 대한 정보가 없습니다.
이에 대해 GPT-4는 모르는 정보에 대해서는 모른다고 정직하게 답변하나, Claude 2는 환각의 경향을 꽤 보이는 것으로 나타났습니다.
4/ 번역
여러 번의 테스트 결과, 직역할 때 어색한 부분을 의역하는 상황에서는 Claude 2가 좀 더 자연스럽습니다.
하지만 Claude 2는 의역 과정에서 중요하지 않은 일부 내용을 종종 누락하는 경우가 있었습니다.
5/ 외부 파일 내용 요약(파일 첨부를 위해 GPT-4 Code Interpreter 사용)
Code Interpreter는 PDF 인식 및 내용 추출이 주기능이 아니다 보니, PDF 인식 과정에서 오류가 많이 발생했습니다. 몇몇 파일은 인식 자체를 하지 못하기도 했고요.
그에 반해 Claude 2는 안정적인 인식 성능을 보였으며, 내용 요약도 주요 내용을 핵심적으로 요약하는 것을 확인하였습니다.
*GPT-4는 PDF 인식 관련 플러그인을 사용할 수도 있지만, 단순 모델 성능의 비교를 위해 배제하였습니다.
6/ 수학 능력
기본적인 사칙연산이 아닌 수학적 계산의 영역에서는, 두 모델 모두 비슷한 수준의 해결 능력을 보였습니다.
‘step by step’이라는 프롬프트를 입력했더니, GPT-4는 훨씬 더 자세한 풀이 과정을 설명했습니다.
그에 반해 Claude 2는 핵심적인 풀이 과정만 설명했습니다.
그렇다면 기본적인 사칙연산은 어떨까요?
GPT-4를 사용할 경우에 사칙연산에서는 굉장히 안 좋은 성능을 보였습니다. 하지만 Code Interpreter를 활용하니 답변 성능이 눈에 띄게 좋아졌습니다.
Claude 2도 사칙연산에서 오류가 꽤 발견되었지만, 기본적인 GPT-4와 Code Interpreter의 중간 정도의 성능을 보이는 것 같습니다.
[요즘AI comment]
현재 Claude 2는 US, UK에서만 사용해볼 수 있습니다. 그럼에도 VPN을 활용하여 직접 사용해보신다면 두 모델의 차이를 더욱 확실하게 느낄 수 있을 것 같습니다.
전체적으로 Claude 2 모델이 GPT-4보다 신중하고 정제된 느낌을 받았습니다. 100K의 긴 토큰 때문인지, 답변 자체도 GPT에 비해 긴 경향이 있었고요.
하지만 환각과 같은 문제와 관련해서는 아직 GPT만큼 개선되지 못한 것 같습니다.
그러나 이는 언제든 개선될 수 있는 문제이며, 앞으로 Anthropic의 Claude 2 모델이 어떤 식으로 발전할지 기대가 됩니다.
읽어주셔서 감사합니다. 구독자님들 모두 좋은 주말 보내세요. :)
100K 토큰을 지원하며 높은 안정성을 보여준다는 특성을 포함한 다양한 경우에 대해서 OpenAI의 GPT-4와 답변 성능을 비교해봤습니다.
직접 비교해본 사진은 아래 링크에서 확인하실 수 있습니다. :)
(비교 내용 확인하기)
1/ 입력 텍스트 길이
Anthropic은 100K라는 방대한 양의 토큰을 지원하는 만큼, 엄청난 길이의 입력값을 넣어도 답변이 가능합니다. 또한 방대한 양 속에서도 핵심적인 부분을 잘 추출해내는 것 같습니다.
그에 반해 GPT-4는 아직은 상대적으로 작은 토큰을 지원하기 때문에 시스템에 에러가 발생합니다.
2/ 윤리성
유해한 질문에 대해, GPT-4는 ‘~라고 판단합니다’의 형식으로 답변을 하며, Claude 2는 ‘~해야 합니다’라는 보다 강력한 주장의 형태로 답변을 했습니다.
즉 GPT-4는 확실한 주장보다는 윤리적 관점에서의 내용만 작성해주는 경향이, Claude 2는 스스로의 주장과 의견을 가지고 답변을 작성하는 경향이 있었습니다.
Claude 2는 ‘AI끼리의 강화 학습’이라는 독특한 방식으로 학습되었다고 합니다. 따라서 유해한 질문에 대해 회피하지 않고 자신의 윤리적 의견을 명확히 제시한다고 하죠.
그래서 ‘답변 회피’ 부분에서 큰 차이를 보일 것으로 예상했으나, GPT-4 또한 이런 종류의 질문에 대해 적절하게 잘 답변을 하는 것으로 나타났습니다.
3/ 환각
현재 GPT-4와 Claude 2 모두 웹 엑세스가 불가능하기 때문에 최신 이슈에 대한 정보가 없습니다.
이에 대해 GPT-4는 모르는 정보에 대해서는 모른다고 정직하게 답변하나, Claude 2는 환각의 경향을 꽤 보이는 것으로 나타났습니다.
4/ 번역
여러 번의 테스트 결과, 직역할 때 어색한 부분을 의역하는 상황에서는 Claude 2가 좀 더 자연스럽습니다.
하지만 Claude 2는 의역 과정에서 중요하지 않은 일부 내용을 종종 누락하는 경우가 있었습니다.
5/ 외부 파일 내용 요약(파일 첨부를 위해 GPT-4 Code Interpreter 사용)
Code Interpreter는 PDF 인식 및 내용 추출이 주기능이 아니다 보니, PDF 인식 과정에서 오류가 많이 발생했습니다. 몇몇 파일은 인식 자체를 하지 못하기도 했고요.
그에 반해 Claude 2는 안정적인 인식 성능을 보였으며, 내용 요약도 주요 내용을 핵심적으로 요약하는 것을 확인하였습니다.
*GPT-4는 PDF 인식 관련 플러그인을 사용할 수도 있지만, 단순 모델 성능의 비교를 위해 배제하였습니다.
6/ 수학 능력
기본적인 사칙연산이 아닌 수학적 계산의 영역에서는, 두 모델 모두 비슷한 수준의 해결 능력을 보였습니다.
‘step by step’이라는 프롬프트를 입력했더니, GPT-4는 훨씬 더 자세한 풀이 과정을 설명했습니다.
그에 반해 Claude 2는 핵심적인 풀이 과정만 설명했습니다.
그렇다면 기본적인 사칙연산은 어떨까요?
GPT-4를 사용할 경우에 사칙연산에서는 굉장히 안 좋은 성능을 보였습니다. 하지만 Code Interpreter를 활용하니 답변 성능이 눈에 띄게 좋아졌습니다.
Claude 2도 사칙연산에서 오류가 꽤 발견되었지만, 기본적인 GPT-4와 Code Interpreter의 중간 정도의 성능을 보이는 것 같습니다.
[요즘AI comment]
현재 Claude 2는 US, UK에서만 사용해볼 수 있습니다. 그럼에도 VPN을 활용하여 직접 사용해보신다면 두 모델의 차이를 더욱 확실하게 느낄 수 있을 것 같습니다.
전체적으로 Claude 2 모델이 GPT-4보다 신중하고 정제된 느낌을 받았습니다. 100K의 긴 토큰 때문인지, 답변 자체도 GPT에 비해 긴 경향이 있었고요.
하지만 환각과 같은 문제와 관련해서는 아직 GPT만큼 개선되지 못한 것 같습니다.
그러나 이는 언제든 개선될 수 있는 문제이며, 앞으로 Anthropic의 Claude 2 모델이 어떤 식으로 발전할지 기대가 됩니다.
읽어주셔서 감사합니다. 구독자님들 모두 좋은 주말 보내세요. :)
NAVER
OpenAI: GPT-4 vs. Anthropic: Claude 2 답변 성능 비교
OpenAI 다음으로 밸류가 높은 LLM 기업인 Anthropic(약 $5B)이 최근 출시한 언어 모델 Claude 2를 직접 사용해봤습니다.
전종현의 인사이트
다시 읽어보면서 인상깊은 내용들 캡쳐 https://frontierbydoyeob.substack.com/p/frontier-13-how-to-do-great-work
YouTube
“어떤 선택도 후회는 남는다. 후회를 덜 할 선택이면 된다” (윤선주 짠컴퍼니 대표)
아래 이 모든 것이 한 사람의 커리어입니다.
보스턴컨설팅그룹 컨설턴트 → SBS 예능PD ('이경실‧이성미의 진실게임' '야심만만 만명에게 물었습니다' 연출) → 미국 유학 → 김범석과 쿠팡 공동창업 → 영국 로펌 변호사 → 스웨덴교육회사 에듀케이션퍼스트 한국지사장 → 스타트업 창업.
바로 윤선주 짠컴퍼니 대표의 20여년 커리어입니다. 윤 대표는 무슨 동기로 7개 커리어를 헤쳐나간 걸까요? “큰 물보다 다른 물을 찾아서” “어차피 후회하겠지만…
보스턴컨설팅그룹 컨설턴트 → SBS 예능PD ('이경실‧이성미의 진실게임' '야심만만 만명에게 물었습니다' 연출) → 미국 유학 → 김범석과 쿠팡 공동창업 → 영국 로펌 변호사 → 스웨덴교육회사 에듀케이션퍼스트 한국지사장 → 스타트업 창업.
바로 윤선주 짠컴퍼니 대표의 20여년 커리어입니다. 윤 대표는 무슨 동기로 7개 커리어를 헤쳐나간 걸까요? “큰 물보다 다른 물을 찾아서” “어차피 후회하겠지만…
<랜덤다이스 출시 이후 3년간 회고>
111% 성공은 ‘빠름’과 ‘다름’에서 나왔다.
그렇게 해서 랜덤다이스가 출시되었고, 100억 매출의 회사가 다음 해에 1500억 매출의 회사가 되었다.
랜덤다이스가 없었다면, 매년 2배씩 성장한다고 해도 200억 > 400억 > 800억 > 1600억 대략 3년이 더 걸렸을 것이다.
랜덤다이스는 111%의 시간을 3년 앞당겨주었다.
하지만, 랜덤다이스 성공 때문에 111% 성공 방식을 잊고 살았다.
이를 깨닫기까지 정확히 3년이 걸렸다.
결국 신께서는 주셨던 3년을 다시 가져가셨다.
돌이켜 보면, 가장 큰 적은 ‘랜덤다이스 IP’였다.
2가지 이유가 있다.
첫번째, 우리는 잘 만들어진 IP를 가지기 위해서 후속작들의 ‘완성도’를 올리려 했고 이는 우리의 ‘빠름’을 방해하는 가장 큰 요소였다.
30명이 1년 동안 게임을 50개를 출시했던 우리가, 랜덤다이스 이후 150명이 2년 동안 게임을 3종을 출시했다.
빠르게 출시해서 게임의 본질인 ‘재미’를 유저에게 빠르게 피드백을 받아왔던 우리가, 오랜 준비 기간 동안 회사 내부에서 제작자 관점에서의 피드백을 받기 시작했다.
그렇게 해서 몇개월 동안 ‘완성도’는 올라갔다.
하지만, 프로젝트 시작 3주 만에 만들어진 프로토타입의 ‘재미’는 사실상 그대로였다.
두번째, IP를 유지하기 위해, ‘다름’을 행하지 못했다.
우리는 IP 강화를 위해 후속작을 만들었기에, 랜덤다이스의 코어 룰 / 랜덤다이스 아트를 계승하면서 새로운 게임을 만들어야만 했다.
이는 생각할 수 있는 한계를 지정해 버렸고, 이 후 후속작에서 더 이상의 변화나 혁신은 없었다.
‘빠름’이란 것은 위대하다.
빠르기 위해선 ‘심플’해야 하고, 심플하려면 ‘압축’되어야 하고, 압축되려면 ‘본질’을 볼 줄 알아야 한다.
빠름을 강조했을 땐 불필요한 것들 쳐내지고, 중요한 것들만 남기 시작한다. 이 과정을 반복하다 보면 중요한것들 중 딱 하나만 남는데, 그것이 본질일 확률이 높다.
‘다름’이란 것은 위대하다.
다름을 행하다 보면 ‘변화’를 만들어내고, 크게 변했을 경우 ‘혁신’이 된다.
다름을 강조하는 습관을 지니지 못하면, 혁신은 절대 나올 수 없다.
사람이 어떤 행동을 하다가 그만두는 행위는 ‘질림’ 때문이다.
이를 방지하기 위해, ‘숏폼(숏츠, 릴스, 틱톡등)’은 손가락으로 스와이프를 하는 행위 하나로 ‘다름’을 준다.
숏폼 알고리즘은 아주 무섭게 작동한다.
이미 유저의 관심사를 알고 있지만, 일부러 중간중간 다른 영상을 보여준다. 다른 영상을 보다가 다시 관심사 관련 영상이 나오면 도파민이 분출된다.
이렇게 지속적으로 ‘다름’이 유저에게 전달되고 도파민이 분출되면, 이는 ‘중독’을 일으키게 된다.
같은 관심사만 보여주는 ‘해시태그(#)’ 방식은 유저를 더 빠르게 질리는 요소다.
이러한 이유로, 플랫폼에서 숏폼 노출 UX는 인기가 늘고 있고, 해시태그의 인기는 점점 시들고 있다.
결국, 게임의 리텐션을 높이는 방법은, ‘7일 차 출석부’가 아니라 유저에게 ‘다름’을 줘야하는 것이다.
게임을 플레이하는 매 순간 유저들에게 다름을 느끼게 해줘야, 우리는 비로소 무섭게 치고 올라오는 숏폼을 이길수 있다.
대표로 복귀했다.
111%를 완전히 바꾸고 있다.
전략 자체를 완전히 바꿨다.
더 빠른 조직으로 바꿀 것이고, 이를 토대로 올 하반기에 게임 30종을 출시할 것이다. (아직 기획서도 없다)
매 순간 유저에게 ‘다름’을 줄 것이고, 누구보다 ‘빠르게’ 게임을 제작할 것이다.
3년간 멈춰 있던, 111%의 캐주얼 게임 성공 소설을 다시 써 내려갈 것이다.
111% 성공은 ‘빠름’과 ‘다름’에서 나왔다.
그렇게 해서 랜덤다이스가 출시되었고, 100억 매출의 회사가 다음 해에 1500억 매출의 회사가 되었다.
랜덤다이스가 없었다면, 매년 2배씩 성장한다고 해도 200억 > 400억 > 800억 > 1600억 대략 3년이 더 걸렸을 것이다.
랜덤다이스는 111%의 시간을 3년 앞당겨주었다.
하지만, 랜덤다이스 성공 때문에 111% 성공 방식을 잊고 살았다.
이를 깨닫기까지 정확히 3년이 걸렸다.
결국 신께서는 주셨던 3년을 다시 가져가셨다.
돌이켜 보면, 가장 큰 적은 ‘랜덤다이스 IP’였다.
2가지 이유가 있다.
첫번째, 우리는 잘 만들어진 IP를 가지기 위해서 후속작들의 ‘완성도’를 올리려 했고 이는 우리의 ‘빠름’을 방해하는 가장 큰 요소였다.
30명이 1년 동안 게임을 50개를 출시했던 우리가, 랜덤다이스 이후 150명이 2년 동안 게임을 3종을 출시했다.
빠르게 출시해서 게임의 본질인 ‘재미’를 유저에게 빠르게 피드백을 받아왔던 우리가, 오랜 준비 기간 동안 회사 내부에서 제작자 관점에서의 피드백을 받기 시작했다.
그렇게 해서 몇개월 동안 ‘완성도’는 올라갔다.
하지만, 프로젝트 시작 3주 만에 만들어진 프로토타입의 ‘재미’는 사실상 그대로였다.
두번째, IP를 유지하기 위해, ‘다름’을 행하지 못했다.
우리는 IP 강화를 위해 후속작을 만들었기에, 랜덤다이스의 코어 룰 / 랜덤다이스 아트를 계승하면서 새로운 게임을 만들어야만 했다.
이는 생각할 수 있는 한계를 지정해 버렸고, 이 후 후속작에서 더 이상의 변화나 혁신은 없었다.
‘빠름’이란 것은 위대하다.
빠르기 위해선 ‘심플’해야 하고, 심플하려면 ‘압축’되어야 하고, 압축되려면 ‘본질’을 볼 줄 알아야 한다.
빠름을 강조했을 땐 불필요한 것들 쳐내지고, 중요한 것들만 남기 시작한다. 이 과정을 반복하다 보면 중요한것들 중 딱 하나만 남는데, 그것이 본질일 확률이 높다.
‘다름’이란 것은 위대하다.
다름을 행하다 보면 ‘변화’를 만들어내고, 크게 변했을 경우 ‘혁신’이 된다.
다름을 강조하는 습관을 지니지 못하면, 혁신은 절대 나올 수 없다.
사람이 어떤 행동을 하다가 그만두는 행위는 ‘질림’ 때문이다.
이를 방지하기 위해, ‘숏폼(숏츠, 릴스, 틱톡등)’은 손가락으로 스와이프를 하는 행위 하나로 ‘다름’을 준다.
숏폼 알고리즘은 아주 무섭게 작동한다.
이미 유저의 관심사를 알고 있지만, 일부러 중간중간 다른 영상을 보여준다. 다른 영상을 보다가 다시 관심사 관련 영상이 나오면 도파민이 분출된다.
이렇게 지속적으로 ‘다름’이 유저에게 전달되고 도파민이 분출되면, 이는 ‘중독’을 일으키게 된다.
같은 관심사만 보여주는 ‘해시태그(#)’ 방식은 유저를 더 빠르게 질리는 요소다.
이러한 이유로, 플랫폼에서 숏폼 노출 UX는 인기가 늘고 있고, 해시태그의 인기는 점점 시들고 있다.
결국, 게임의 리텐션을 높이는 방법은, ‘7일 차 출석부’가 아니라 유저에게 ‘다름’을 줘야하는 것이다.
게임을 플레이하는 매 순간 유저들에게 다름을 느끼게 해줘야, 우리는 비로소 무섭게 치고 올라오는 숏폼을 이길수 있다.
대표로 복귀했다.
111%를 완전히 바꾸고 있다.
전략 자체를 완전히 바꿨다.
더 빠른 조직으로 바꿀 것이고, 이를 토대로 올 하반기에 게임 30종을 출시할 것이다. (아직 기획서도 없다)
매 순간 유저에게 ‘다름’을 줄 것이고, 누구보다 ‘빠르게’ 게임을 제작할 것이다.
3년간 멈춰 있던, 111%의 캐주얼 게임 성공 소설을 다시 써 내려갈 것이다.
❤2
Continuous Learning_Startup & Investment
<랜덤다이스 출시 이후 3년간 회고> 111% 성공은 ‘빠름’과 ‘다름’에서 나왔다. 그렇게 해서 랜덤다이스가 출시되었고, 100억 매출의 회사가 다음 해에 1500억 매출의 회사가 되었다. 랜덤다이스가 없었다면, 매년 2배씩 성장한다고 해도 200억 > 400억 > 800억 > 1600억 대략 3년이 더 걸렸을 것이다. 랜덤다이스는 111%의 시간을 3년 앞당겨주었다. 하지만, 랜덤다이스 성공 때문에 111% 성공 방식을 잊고 살았다. 이를 깨닫기까지…
내게 경영은 항상 어렵다.
끊임없는 자기 객관화를 하고, 고객에게 가치를 주는 본질/원동력에 집중해야 한다. 성공은 이런 자기 객관화를 어렵게 만들며, 성공으로 생긴 자원의 풍부함은 사업 확장, 협업, 성공한 회사의 일반적인 행위들이 본질에 집중하는 것을 어렵게 만든다.
본질에 집중한다는 핑계로 고객이 변화하고 있는 것을 무시하면 안된다. 고객은 항상 바뀌기 때문에 그들의 눈높이에 맞게 제품, 서비스를 바꾸고 때로는 이를 위해서 조직의 DNA를 바꿔야할 수 있다.
고객, 회사, 기술 모든 것이 바뀔수 있기에 항상 변화에 기민하게 대응하면서도 변화에 휩쓸려 따라가기만 해서도 안된다. 모든 회사가 새로운 기술/혁신을 주도할 필요도 없고 내 고객과 사업에 맞게 잘 변화하면 된다.
끊임없이 변화하는 고객과 기술을 이해하고 과거에 성공/성취에 취하지 않고 계속 배워야 겨우 그 자리를 유지할 수 있거나 한 발자국 나갈 수 있다.
서핑할 때 파도에 맞게 끊임없이 균형점을 찾아가는 것과 비슷하다. 그래서 어렵고 재밌다.
이런 고민을 나눠주셔서 감사하고, 111%가 위대한 역사를 써주시길 진심으로 응원합니다.
끊임없는 자기 객관화를 하고, 고객에게 가치를 주는 본질/원동력에 집중해야 한다. 성공은 이런 자기 객관화를 어렵게 만들며, 성공으로 생긴 자원의 풍부함은 사업 확장, 협업, 성공한 회사의 일반적인 행위들이 본질에 집중하는 것을 어렵게 만든다.
본질에 집중한다는 핑계로 고객이 변화하고 있는 것을 무시하면 안된다. 고객은 항상 바뀌기 때문에 그들의 눈높이에 맞게 제품, 서비스를 바꾸고 때로는 이를 위해서 조직의 DNA를 바꿔야할 수 있다.
고객, 회사, 기술 모든 것이 바뀔수 있기에 항상 변화에 기민하게 대응하면서도 변화에 휩쓸려 따라가기만 해서도 안된다. 모든 회사가 새로운 기술/혁신을 주도할 필요도 없고 내 고객과 사업에 맞게 잘 변화하면 된다.
끊임없이 변화하는 고객과 기술을 이해하고 과거에 성공/성취에 취하지 않고 계속 배워야 겨우 그 자리를 유지할 수 있거나 한 발자국 나갈 수 있다.
서핑할 때 파도에 맞게 끊임없이 균형점을 찾아가는 것과 비슷하다. 그래서 어렵고 재밌다.
이런 고민을 나눠주셔서 감사하고, 111%가 위대한 역사를 써주시길 진심으로 응원합니다.
👍1
큰 리더는 자기보다 큰 사람을 구하고, 중간 리더는 자기 맘에 드는 사람을 구하고, 작은 리더는 자기보다 못한 사람을 구한다. 큰 리더는 자기보다 큰 사람을 알아보고, 중간 리더는 자기 맘에 드는 사람을 알아보고, 작은 리더는 자기보다 못한 사람을 알아본다. 작은 리더는 심지어 아래 사람과 공을 다투며 경쟁하기도 한다. 더 나아가 아래 사람보다 더 잘한다는 것을 증명하려고 애쓰기도 한다.
"우리가 당연하게 여기는 많은 것들은 누군가의 평생 연구와 도전의 결과이다. 이에 대해 생각하면서, 실패 속에서도 도전을 계속하는 사람들을 돕고, 응원하고, 칭찬하는 사람이 되자."
https://www.instagram.com/reel/Cu1zqFPRMvm/?igshid=MzRlODBiNWFlZA==
https://www.instagram.com/reel/Cu1zqFPRMvm/?igshid=MzRlODBiNWFlZA==
❤2
<리더는 칭찬의 기술을 익혀야 합니다>
1. (팀을 운영하다 보면) 처벌이 효과적일 때도 있다. 하지만 처벌에는 한계가 있다. 리더가 처벌에 의지하는 것은 두려움이 아닌 자부심으로 (구성원들을) 동기부여하는 방법을 모르기 때문이니까.
2. 리더는 팀원이 팀을 위해 항상 최선을 다하도록 동기를 부여할 사명이 있다. 이 사명을 이룰 수 있을지, 만약 이룰 수 있다면 어디까지 이룰 수 있는지는 (리더가 가진) 동기부여 기술에 달려 있다.
3. 나는 ‘잘 고른 당근이 채찍보다 더 강하고 오래간다’는 결론에 항상 도달했다. 사실 당근은 그냥 들고 있는 것만으로도 가장 강력한 동기부여 수단인 동시에 벌이 될 수 있기 때문이다.
4. 농구에서 당근은 경기에 나가게 하는 것이고, 반대로 가장 두려운 채찍은 벤치에 앉아 있게 하는 것이다.
5. 전통적인 당근에는 돈, 승진, 상 등이 있다. 당근의 형태는 매우 다양하지만 반드시 물질적이거나 눈에 보일 필요는 없다. 그런 점에서 아마도 진심으로 존경하는 사람으로부터 받는 칭찬보다 더 나은 당근은 없을 듯하다. 적어도 내 경험으로는 그렇다.
6. (여기서) 가장 중요한 것은 ‘진심 어린 칭찬’이다. 진심 어린 칭찬은 (구성원들에게) 자부심을 불어넣어 준다. 반면, 처벌은 두려움을 불러일으킨다.
7. 나는 내 팀의 모든 구성원들이 두려움이 아닌 자부심으로 가득한 팀이 되길 원했다. 팀에 대한 자부심과 헌신이야말로 위대한 경쟁력의 근본이기 때문이다.
8. (이처럼) 존경하는 사람의 칭찬이나 인정은 (분명) 효과가 있다. 하지만 습관적이거나 지나친 칭찬은 (오히려) 효과가 떨어진다. (특히) 빈번하게 남발하는 근거 없는 칭찬은 진심 어린 칭찬의 가치를 떨어뜨린다.
9. (그렇기에) 아무런 생각 없이 칭찬을 남발하는 리더는 가장 강력한 동기부여 수단인 ‘격려’를 희생시키는 셈이다. (그러니) 가식적인 칭찬은 아예 하지 마라.
10. 예를 들어, 나는 “대단해!”라는 말을 하지 않았다. 대신 “좋아, 점점 더 좋아지고 있어”라고 말했다.
11. 나는 정보 그 자체만큼 정보를 전달하는 방식도 중요함을 늘 명심했다. 그렇기에 나는 어조와 태도에도 항상 신경을 썼고, 진심 어린 말만 하려고 노력했다.
- 존 우든 외, <88연승의 비밀> 중
1. (팀을 운영하다 보면) 처벌이 효과적일 때도 있다. 하지만 처벌에는 한계가 있다. 리더가 처벌에 의지하는 것은 두려움이 아닌 자부심으로 (구성원들을) 동기부여하는 방법을 모르기 때문이니까.
2. 리더는 팀원이 팀을 위해 항상 최선을 다하도록 동기를 부여할 사명이 있다. 이 사명을 이룰 수 있을지, 만약 이룰 수 있다면 어디까지 이룰 수 있는지는 (리더가 가진) 동기부여 기술에 달려 있다.
3. 나는 ‘잘 고른 당근이 채찍보다 더 강하고 오래간다’는 결론에 항상 도달했다. 사실 당근은 그냥 들고 있는 것만으로도 가장 강력한 동기부여 수단인 동시에 벌이 될 수 있기 때문이다.
4. 농구에서 당근은 경기에 나가게 하는 것이고, 반대로 가장 두려운 채찍은 벤치에 앉아 있게 하는 것이다.
5. 전통적인 당근에는 돈, 승진, 상 등이 있다. 당근의 형태는 매우 다양하지만 반드시 물질적이거나 눈에 보일 필요는 없다. 그런 점에서 아마도 진심으로 존경하는 사람으로부터 받는 칭찬보다 더 나은 당근은 없을 듯하다. 적어도 내 경험으로는 그렇다.
6. (여기서) 가장 중요한 것은 ‘진심 어린 칭찬’이다. 진심 어린 칭찬은 (구성원들에게) 자부심을 불어넣어 준다. 반면, 처벌은 두려움을 불러일으킨다.
7. 나는 내 팀의 모든 구성원들이 두려움이 아닌 자부심으로 가득한 팀이 되길 원했다. 팀에 대한 자부심과 헌신이야말로 위대한 경쟁력의 근본이기 때문이다.
8. (이처럼) 존경하는 사람의 칭찬이나 인정은 (분명) 효과가 있다. 하지만 습관적이거나 지나친 칭찬은 (오히려) 효과가 떨어진다. (특히) 빈번하게 남발하는 근거 없는 칭찬은 진심 어린 칭찬의 가치를 떨어뜨린다.
9. (그렇기에) 아무런 생각 없이 칭찬을 남발하는 리더는 가장 강력한 동기부여 수단인 ‘격려’를 희생시키는 셈이다. (그러니) 가식적인 칭찬은 아예 하지 마라.
10. 예를 들어, 나는 “대단해!”라는 말을 하지 않았다. 대신 “좋아, 점점 더 좋아지고 있어”라고 말했다.
11. 나는 정보 그 자체만큼 정보를 전달하는 방식도 중요함을 늘 명심했다. 그렇기에 나는 어조와 태도에도 항상 신경을 썼고, 진심 어린 말만 하려고 노력했다.
- 존 우든 외, <88연승의 비밀> 중
👍1
Forwarded from 전종현의 인사이트
쉬인이 점점 미국 본토에서 아마존의 영역으로 침범하는 중인가보다. 쉬인은 광고 BM을 가지고 있어서 아마존에 비해 커미션을 적게 가져가기 때문에 상대적으로 더 낮은 가격으로 상품을 제공하고 있는데 이게 먹히는듯.
https://www.theinformation.com/articles/shein-makes-an-aggressive-pitch-to-woo-u-s-amazon-sellers?rc=jfxtml
https://www.theinformation.com/articles/shein-makes-an-aggressive-pitch-to-woo-u-s-amazon-sellers?rc=jfxtml
The Information
Shein Makes an Aggressive Pitch to Woo U.S. Amazon Sellers
The world’s most valuable private e-commerce company is coming for Amazon on its home turf. Shein, the Singapore-based fast-fashion giant most recently valued in May at $66 billion, has won over millions of American shoppers by shipping $4 crop tops and $8…
르쿤께서 멘션하셔서 (지금은 삭제함) 알게된 건데, meta에서 ardilla라는 코인을 준비하는 것 같네요. 이미 알려진걸 제가 이제 안건지도 모르겠지만요..
공개된 정보는 많지는 않은데, llama 같은 모델의 개발을 근간으로 모델 방식에 영향을 주려는 건가 싶어요. 모델을 거래하거나 모델개발에 기여한만큼 보상을 받는 플랫폼이라고 하는 듯 해요.
https://ardilla-meta.com/
BigScience Patal 같은 프로젝트일지, 채굴하듯 모델 학습하는 프로젝트일지.. 둘이 결합되면 의미있는 조합이 될 것 같긴 하지만, 실체는 모르겠군요 ㅋㅋ
공개된 정보는 많지는 않은데, llama 같은 모델의 개발을 근간으로 모델 방식에 영향을 주려는 건가 싶어요. 모델을 거래하거나 모델개발에 기여한만큼 보상을 받는 플랫폼이라고 하는 듯 해요.
https://ardilla-meta.com/
BigScience Patal 같은 프로젝트일지, 채굴하듯 모델 학습하는 프로젝트일지.. 둘이 결합되면 의미있는 조합이 될 것 같긴 하지만, 실체는 모르겠군요 ㅋㅋ
i fully believe there are people much smarter and braver than Bohr Einstein Oppenheimer etc alive today
That's one thing we agree on.
I suggest a gentle ramp up:
- Surely you are joking Mr Feynman
- QED
- The Feynman Lectures on Physics
- Quantum Mechanics and Path Integrals (Feynman & Hibbs)
That's one thing we agree on.
I suggest a gentle ramp up:
- Surely you are joking Mr Feynman
- QED
- The Feynman Lectures on Physics
- Quantum Mechanics and Path Integrals (Feynman & Hibbs)