Continuous Learning_Startup & Investment
https://www.linkedin.com/posts/hardmaru_rmachinelearning-on-reddit-lima-a-65b-param-activity-7066250558554198017-BMSD?utm_source=share&utm_medium=member_ios
지도 학습과 인간 피드백을 통한 강화 학습(RLHF)은 모두 머신 러닝 모델을 훈련하는 데 사용되는 방법이지만 서로 다른 원리로 작동합니다.
지도 학습은 모델이 레이블이 지정된 데이터 세트에서 학습하는 머신 러닝의 한 유형입니다. '감독자'는 정답이 있는 데이터 집합을 의미합니다. 모델은 입력 데이터를 기반으로 예측을 하도록 학습되며, 예측과 실제 답변을 비교하여 수정됩니다. 이 비교는 모델의 학습 및 조정의 기초가 됩니다.
반면에 인간 피드백을 통한 강화 학습(RLHF)은 조금 다릅니다. 지도 학습에서처럼 정답이 직접 주어지는 대신, 모델은 환경(사람의 상호작용을 포함할 수 있음)과 상호 작용하고 자신의 행동에 따라 피드백을 받음으로써 학습합니다. 강화 학습에서 모델의 목표는 누적 보상이라는 개념을 극대화하는 것입니다.
RLHF의 경우 모델은 인간으로부터 피드백을 받아 긍정적 또는 부정적 보상의 관점에서 자신의 행동의 결과를 이해하는 데 도움이 됩니다. 이를 통해 모델은 향후 의사 결정이나 대응을 개선할 수 있습니다. 이러한 종류의 학습은 AI가 인간과 대화할 때와 같이 정답이 항상 명확하지 않거나 유효한 응답이 많을 수 있는 상황에서 특히 유용합니다.
1,000개의 엄선된 예제 세트에 대한 지도 학습과 인간 피드백을 통한 강화 학습(RLHF)의 비용 효율성은 여러 요인에 따라 달라질 수 있습니다. 여기에는 작업의 특성, 모델의 복잡성, 데이터의 품질과 가용성, 필요한 컴퓨팅 리소스 등이 포함됩니다.
일반적으로 선별된 예제 세트를 사용하는 지도 학습은 데이터 수집 및 주석 측면에서 더 비용 효율적일 수 있습니다. 지도 학습에는 레이블이 지정된 데이터가 필요하며, 더 작은 데이터 세트를 큐레이팅하고 레이블을 지정하는 것이 더 큰 데이터 세트를 수집 및 처리하거나 사람의 피드백을 지속적으로 수집하는 것보다 비용이 적게 들 수 있습니다.
하지만 복잡한 작업이나 정답을 쉽게 정의할 수 없거나 정답이 많은 경우 RLHF가 더 효율적일 수 있습니다. RLHF를 사용하면 환경과 상호 작용의 피드백을 기반으로 시간이 지남에 따라 모델을 개선할 수 있으므로 더 나은 성능과 일반화로 이어질 수 있습니다.
지도 학습은 모델이 레이블이 지정된 데이터 세트에서 학습하는 머신 러닝의 한 유형입니다. '감독자'는 정답이 있는 데이터 집합을 의미합니다. 모델은 입력 데이터를 기반으로 예측을 하도록 학습되며, 예측과 실제 답변을 비교하여 수정됩니다. 이 비교는 모델의 학습 및 조정의 기초가 됩니다.
반면에 인간 피드백을 통한 강화 학습(RLHF)은 조금 다릅니다. 지도 학습에서처럼 정답이 직접 주어지는 대신, 모델은 환경(사람의 상호작용을 포함할 수 있음)과 상호 작용하고 자신의 행동에 따라 피드백을 받음으로써 학습합니다. 강화 학습에서 모델의 목표는 누적 보상이라는 개념을 극대화하는 것입니다.
RLHF의 경우 모델은 인간으로부터 피드백을 받아 긍정적 또는 부정적 보상의 관점에서 자신의 행동의 결과를 이해하는 데 도움이 됩니다. 이를 통해 모델은 향후 의사 결정이나 대응을 개선할 수 있습니다. 이러한 종류의 학습은 AI가 인간과 대화할 때와 같이 정답이 항상 명확하지 않거나 유효한 응답이 많을 수 있는 상황에서 특히 유용합니다.
1,000개의 엄선된 예제 세트에 대한 지도 학습과 인간 피드백을 통한 강화 학습(RLHF)의 비용 효율성은 여러 요인에 따라 달라질 수 있습니다. 여기에는 작업의 특성, 모델의 복잡성, 데이터의 품질과 가용성, 필요한 컴퓨팅 리소스 등이 포함됩니다.
일반적으로 선별된 예제 세트를 사용하는 지도 학습은 데이터 수집 및 주석 측면에서 더 비용 효율적일 수 있습니다. 지도 학습에는 레이블이 지정된 데이터가 필요하며, 더 작은 데이터 세트를 큐레이팅하고 레이블을 지정하는 것이 더 큰 데이터 세트를 수집 및 처리하거나 사람의 피드백을 지속적으로 수집하는 것보다 비용이 적게 들 수 있습니다.
하지만 복잡한 작업이나 정답을 쉽게 정의할 수 없거나 정답이 많은 경우 RLHF가 더 효율적일 수 있습니다. RLHF를 사용하면 환경과 상호 작용의 피드백을 기반으로 시간이 지남에 따라 모델을 개선할 수 있으므로 더 나은 성능과 일반화로 이어질 수 있습니다.
https://www.reddit.com/r/MachineLearning/comments/13jhduh/n_sam_altman_ceo_of_openai_calls_for_us_to/
"Mr Altman said a new agency should be formed to license AI companies.
He gave several suggestions for how a new agency in the US could regulate the industry - including giving out and taking away permits for AI companies.
He also said firms like OpenAI should be independently audited.
What was clear from the testimony is that there is bi-partisan support for a new body to regulate the industry."
—
"Make it hard for me to get competition please! I need to pay off the investment and have big heavy players coming at me."
AI should never be closed source, AI should be open sourced to be audited.
—-
What do you think?
"Mr Altman said a new agency should be formed to license AI companies.
He gave several suggestions for how a new agency in the US could regulate the industry - including giving out and taking away permits for AI companies.
He also said firms like OpenAI should be independently audited.
What was clear from the testimony is that there is bi-partisan support for a new body to regulate the industry."
—
"Make it hard for me to get competition please! I need to pay off the investment and have big heavy players coming at me."
AI should never be closed source, AI should be open sourced to be audited.
—-
What do you think?
Reddit
[N] Sam Altman: CEO of OpenAI calls for US to regulate artificial intelligence : r/MachineLearning
272 votes, 236 comments. 2.9M subscribers in the MachineLearning community. This subreddit is temporarily closed in protest of Reddit killing third…
Continuous Learning_Startup & Investment
지도 학습과 인간 피드백을 통한 강화 학습(RLHF)은 모두 머신 러닝 모델을 훈련하는 데 사용되는 방법이지만 서로 다른 원리로 작동합니다. 지도 학습은 모델이 레이블이 지정된 데이터 세트에서 학습하는 머신 러닝의 한 유형입니다. '감독자'는 정답이 있는 데이터 집합을 의미합니다. 모델은 입력 데이터를 기반으로 예측을 하도록 학습되며, 예측과 실제 답변을 비교하여 수정됩니다. 이 비교는 모델의 학습 및 조정의 기초가 됩니다. 반면에 인간 피드백을 통한…
X (formerly Twitter)
AK (@_akhaliq) on X
LIMA: Less Is More for Alignment
LIMA, a 65B parameter LLaMa language model fine-tuned with the standard supervised loss on only 1,000 carefully curated prompts and responses, without any reinforcement learning or human preference modeling. LIMA demonstrates…
LIMA, a 65B parameter LLaMa language model fine-tuned with the standard supervised loss on only 1,000 carefully curated prompts and responses, without any reinforcement learning or human preference modeling. LIMA demonstrates…
와 Perplexity 잘하네요. 스타트업이 OpenAI랑 경쟁하려면 이정도 해야겠구나 싶네요.
https://twitter.com/perplexity_ai/status/1659229846587711490
https://twitter.com/perplexity_ai/status/1659229846587711490
https://twitter.com/karpathy/status/1657949234535211009
Tokenization is the process of breaking down a sequence of text into smaller parts or "tokens", typically words or phrases. These tokens are the basic units the model uses to understand and generate text.
removing tokenization isn't straightforward, as it would lead to sequences that are too long if we were to simply use byte-level representation. This is because English text usually requires multiple bytes to represent a single character, and thus if we abandon tokenization, the sequences fed into the model would be considerably longer.
because of the need for tokenization, LLMs aren't truly end-to-end systems. The tokenization process represents an entirely separate stage that requires its own training, inference, and additional libraries. This, it argues, complicates the integration of additional modalities (i.e., types of data beyond text) into the model.
One issue that arises is related to trailing whitespace errors in Playground, which is likely an interface for interacting with the model. If a prompt ends with a space, it creates a large domain gap, which can be a source of bugs. The given link points to a blog post that presumably elaborates on this issue. Importantly, the token for a string like "text" is different from " text" because of the leading whitespace in the latter.
https://blog.scottlogic.com/2021/08/31/a-primer-on-the-openai-api-1.html
Another challenge is that tokenization makes GPT models perform poorly on simple spelling or character manipulation tasks. The provided Twitter link likely contains an example or further explanation of this problem.
https://twitter.com/npew/status/1525900849888866307
The final drawback mentioned is that tokenization can create vulnerabilities or "attack surfaces". The example given is SolidGoldMagikarp, a term that may be overrepresented during the training of the tokenizer compared to the training of the GPT model itself. This could result in unoptimized activations during testing, potentially leading to unexpected or inaccurate results. The provided link to a lesswrong.com post would go into more detail about this issue.
lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation
The post concludes by reemphasizing the hope that we can find a way to eliminate the need for tokenization in LLMs. Not only could this potentially resolve the aforementioned issues, but it might also lead to the discovery of strategies for multi-scale training, which would be a significant advancement in the field of AI.
Tokenization is the process of breaking down a sequence of text into smaller parts or "tokens", typically words or phrases. These tokens are the basic units the model uses to understand and generate text.
removing tokenization isn't straightforward, as it would lead to sequences that are too long if we were to simply use byte-level representation. This is because English text usually requires multiple bytes to represent a single character, and thus if we abandon tokenization, the sequences fed into the model would be considerably longer.
because of the need for tokenization, LLMs aren't truly end-to-end systems. The tokenization process represents an entirely separate stage that requires its own training, inference, and additional libraries. This, it argues, complicates the integration of additional modalities (i.e., types of data beyond text) into the model.
One issue that arises is related to trailing whitespace errors in Playground, which is likely an interface for interacting with the model. If a prompt ends with a space, it creates a large domain gap, which can be a source of bugs. The given link points to a blog post that presumably elaborates on this issue. Importantly, the token for a string like "text" is different from " text" because of the leading whitespace in the latter.
https://blog.scottlogic.com/2021/08/31/a-primer-on-the-openai-api-1.html
Another challenge is that tokenization makes GPT models perform poorly on simple spelling or character manipulation tasks. The provided Twitter link likely contains an example or further explanation of this problem.
https://twitter.com/npew/status/1525900849888866307
The final drawback mentioned is that tokenization can create vulnerabilities or "attack surfaces". The example given is SolidGoldMagikarp, a term that may be overrepresented during the training of the tokenizer compared to the training of the GPT model itself. This could result in unoptimized activations during testing, potentially leading to unexpected or inaccurate results. The provided link to a lesswrong.com post would go into more detail about this issue.
lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation
The post concludes by reemphasizing the hope that we can find a way to eliminate the need for tokenization in LLMs. Not only could this potentially resolve the aforementioned issues, but it might also lead to the discovery of strategies for multi-scale training, which would be a significant advancement in the field of AI.
X (formerly Twitter)
Andrej Karpathy (@karpathy) on X
Promising. Everyone should hope that we can throw away tokenization in LLMs. Doing so naively creates (byte-level) sequences that are too long, so the devil is in the details.
Tokenization means that LLMs are not actually fully end-to-end. There is a whole…
Tokenization means that LLMs are not actually fully end-to-end. There is a whole…
Continuous Learning_Startup & Investment
https://twitter.com/karpathy/status/1657949234535211009 Tokenization is the process of breaking down a sequence of text into smaller parts or "tokens", typically words or phrases. These tokens are the basic units the model uses to understand and generate…
LLM은 일반적으로 토큰화를 사용하여 입력 시퀀스를 모델이 처리할 수 있는 관리 가능한 조각으로 분해합니다. 그러나 이 프로세스에는 고유한 한계가 있습니다. 예를 들어, 토큰화는 계산 복잡성을 증가시키고, 자체적인 학습 및 추론 프로세스가 필요하며, 이전 글에서 언급한 것과 같은 문제(후행 공백 오류, 간단한 철자 또는 문자 조작 작업의 어려움, 공격 표면 생성 등)를 초래할 수 있습니다.
메가바이트는 100만 바이트 이상의 시퀀스를 엔드투엔드 차별화 모델링할 수 있는 멀티스케일 디코더 아키텍처를 제안하여 이러한 문제를 해결합니다. 이는 모델이 이러한 긴 시퀀스를 더 작은 토큰으로 분해할 필요 없이 전체적으로 처리할 수 있음을 시사합니다. 이렇게 하면 별도의 토큰화 단계가 필요하지 않아 모델을 진정한 엔드투엔드로 만들 수 있습니다.
이는 여러 가지 이유로 유망합니다:
긴 시퀀스 처리: 메가바이트는 현재의 LLM보다 훨씬 긴 데이터 시퀀스를 처리할 수 있습니다. 이는 긴 형식의 텍스트, 고해상도 이미지, 오디오 데이터 등을 포함하는 작업에 새로운 가능성을 열어줄 수 있습니다.
엔드투엔드 트레이닝: 메가바이트는 별도의 토큰화 단계를 생략함으로써 LLM의 학습 및 추론 프로세스를 간소화할 수 있습니다. 이는 효율성 향상으로 이어질 수 있으며 모델을 더 쉽게 작업하고 이해할 수 있게 해줍니다.
토큰화 관련 문제를 해결할 수 있는 잠재력: 메가바이트가 토큰화의 필요성을 성공적으로 우회할 수 있다면, 이전 글에서 언급한 후행 공백 오류, 철자 또는 문자 조작 작업의 어려움 등 토큰화와 관련된 일부 문제를 완화하거나 해결하는 데 도움이 될 수 있습니다.
https://arxiv.org/abs/2305.07185
메가바이트는 100만 바이트 이상의 시퀀스를 엔드투엔드 차별화 모델링할 수 있는 멀티스케일 디코더 아키텍처를 제안하여 이러한 문제를 해결합니다. 이는 모델이 이러한 긴 시퀀스를 더 작은 토큰으로 분해할 필요 없이 전체적으로 처리할 수 있음을 시사합니다. 이렇게 하면 별도의 토큰화 단계가 필요하지 않아 모델을 진정한 엔드투엔드로 만들 수 있습니다.
이는 여러 가지 이유로 유망합니다:
긴 시퀀스 처리: 메가바이트는 현재의 LLM보다 훨씬 긴 데이터 시퀀스를 처리할 수 있습니다. 이는 긴 형식의 텍스트, 고해상도 이미지, 오디오 데이터 등을 포함하는 작업에 새로운 가능성을 열어줄 수 있습니다.
엔드투엔드 트레이닝: 메가바이트는 별도의 토큰화 단계를 생략함으로써 LLM의 학습 및 추론 프로세스를 간소화할 수 있습니다. 이는 효율성 향상으로 이어질 수 있으며 모델을 더 쉽게 작업하고 이해할 수 있게 해줍니다.
토큰화 관련 문제를 해결할 수 있는 잠재력: 메가바이트가 토큰화의 필요성을 성공적으로 우회할 수 있다면, 이전 글에서 언급한 후행 공백 오류, 철자 또는 문자 조작 작업의 어려움 등 토큰화와 관련된 일부 문제를 완화하거나 해결하는 데 도움이 될 수 있습니다.
https://arxiv.org/abs/2305.07185
Continuous Learning_Startup & Investment
LLM은 일반적으로 토큰화를 사용하여 입력 시퀀스를 모델이 처리할 수 있는 관리 가능한 조각으로 분해합니다. 그러나 이 프로세스에는 고유한 한계가 있습니다. 예를 들어, 토큰화는 계산 복잡성을 증가시키고, 자체적인 학습 및 추론 프로세스가 필요하며, 이전 글에서 언급한 것과 같은 문제(후행 공백 오류, 간단한 철자 또는 문자 조작 작업의 어려움, 공격 표면 생성 등)를 초래할 수 있습니다. 메가바이트는 100만 바이트 이상의 시퀀스를 엔드투엔드 차별화…
토크나이제이션이 필요없으면, 더 긴형식의 텍스트/이미지/오디오에 LLM을 적용해볼 수 있겠네요.
-> Megabyte가 새로운 트랜스포머 모델처럼 Chat이 아닌 이미지/오디오에서 새로운 기회를 만들어낼 수 있으려나요?
-> 토크나이징 단계가 없어져서 학습/추론 프로세스가 비교적 간소화되고 저렴해진다. -> AI 모델이 더 범용적으로 쓰일 수 있다.
-> Megabyte가 새로운 트랜스포머 모델처럼 Chat이 아닌 이미지/오디오에서 새로운 기회를 만들어낼 수 있으려나요?
-> 토크나이징 단계가 없어져서 학습/추론 프로세스가 비교적 간소화되고 저렴해진다. -> AI 모델이 더 범용적으로 쓰일 수 있다.
Continuous Learning_Startup & Investment
https://twitter.com/ttunguz/status/1660713833202167810
When interest rates fall, high-growth software surges.
Two peculiar elements characterize this market surge:
1. Most of these companies have reported weak earnings & projected weak outlooks for the next quarter.
Google, Microsoft, & Cloudflare have lamented longer sales cycles, greater customer focus on costs, & a lack of any change in that sentiment for the next quarter.
image
2. Only the top 5 or so stocks by growth rate have won expanded multiples from the market.
Two peculiar elements characterize this market surge:
1. Most of these companies have reported weak earnings & projected weak outlooks for the next quarter.
Google, Microsoft, & Cloudflare have lamented longer sales cycles, greater customer focus on costs, & a lack of any change in that sentiment for the next quarter.
image
2. Only the top 5 or so stocks by growth rate have won expanded multiples from the market.
More AI companies with sudden virality + paying customers should just bootstrap
0. Running co for cash may be best success
1. If it does scale, being profitable or near to it creates lot of options
2. it may not scale, or only work for a few months
3. Why get on the fundraising train?
4. Preserve optionality
https://twitter.com/eladgil/status/1660797951785209857?s=20
0. Running co for cash may be best success
1. If it does scale, being profitable or near to it creates lot of options
2. it may not scale, or only work for a few months
3. Why get on the fundraising train?
4. Preserve optionality
https://twitter.com/eladgil/status/1660797951785209857?s=20
Twitter
More AI companies with sudden virality + paying customers should just bootstrap
0. Running co for cash may be best success
1. If it does scale, being profitable or near to it creates lot of options
2. it may not scale, or only work for a few months
3.…
0. Running co for cash may be best success
1. If it does scale, being profitable or near to it creates lot of options
2. it may not scale, or only work for a few months
3.…
Amazing to see large language models like RedPajama-INCITE 3B run locally on mobile phones, with hardware acceleration, using WebAssembly and WebGPU. No need to write custom code for custom hardware. Heading into the era of truly private, personalized AI assistants. Amazing work. https://lnkd.in/ggz8YCbJ
❤1
Forwarded from Timesight
AI 시대로의 전환, 메모리 반도체의 역할과 미래 수요 예상
https://blog.naver.com/timesight/223107464784
AI시대에서 반도체 시장의 역학구도, 그 안에서 우리나라 산업의 근간인 Memory반도체의 역할에 대해 고찰한 글입니다. 긴 글이지만, 향후 수년간 가장 중요할 수 있는 AI와 반도체의 관계에 대해서 알 수 있는 글이니 향후 투자 의사 결정에 매우 도움이 될 것입니다.
https://blog.naver.com/timesight/223107464784
AI시대에서 반도체 시장의 역학구도, 그 안에서 우리나라 산업의 근간인 Memory반도체의 역할에 대해 고찰한 글입니다. 긴 글이지만, 향후 수년간 가장 중요할 수 있는 AI와 반도체의 관계에 대해서 알 수 있는 글이니 향후 투자 의사 결정에 매우 도움이 될 것입니다.
NAVER
AI 시대로의 전환, 메모리 반도체의 역할과 미래 수요 예상
https://www.reddit.com/r/MachineLearning/ - (레딧)
https://www.reddit.com/r/LocalLLaMA/ - (레딧)
https://oo.pe/https://boards.4channel.org/g/catalog#s=lmg - (4chan)
https://discord.gg/4UzuzCaZAP - 알파카 로라 (디코)
https://discord.gg/zjuvVJyu6Q - 비공식 라마 토론 (디코)
https://discord.gg/3EhJq7QSqR - 라마 제한되지 않고 정렬되지 않은 서버 (디코)
https://www.youtube.com/@samwitteveenai - ai 관련 정보 렉카 (유투브)
https://www.youtube.com/@YannicKilcher - openassistant 프로젝트 리더. 직접 채널 운영하면서 홍보와 정보 공유를 함 (유투브)
https://twitter.com/omarsar0 - 언어모델, ai 관련 정보와 연구 소개하는 트위터 채널 (유투브)
https://github.com/search?o=desc&p=1&q=llama&s=forks&type=Repositories - llama_most fork (깃허브)
---
https://huggingface.co/models?search=alpaca - 다운 가능한 모델 업데이트 확인용
https://www.reddit.com/r/LocalLLaMA/ - (레딧)
https://oo.pe/https://boards.4channel.org/g/catalog#s=lmg - (4chan)
https://discord.gg/4UzuzCaZAP - 알파카 로라 (디코)
https://discord.gg/zjuvVJyu6Q - 비공식 라마 토론 (디코)
https://discord.gg/3EhJq7QSqR - 라마 제한되지 않고 정렬되지 않은 서버 (디코)
https://www.youtube.com/@samwitteveenai - ai 관련 정보 렉카 (유투브)
https://www.youtube.com/@YannicKilcher - openassistant 프로젝트 리더. 직접 채널 운영하면서 홍보와 정보 공유를 함 (유투브)
https://twitter.com/omarsar0 - 언어모델, ai 관련 정보와 연구 소개하는 트위터 채널 (유투브)
https://github.com/search?o=desc&p=1&q=llama&s=forks&type=Repositories - llama_most fork (깃허브)
---
https://huggingface.co/models?search=alpaca - 다운 가능한 모델 업데이트 확인용
GAN 모델 돌아보기
현재 적어도 이미지 생성 모델에선 Diffusion 모델이 확고한 대세이지만 한 때 최고의 인기를 누리던 GAN 모델을 한번 돌아보게 된다.
Diffusion 모델과 GAN 모델의 장점을 가진 새로운 모델은 없을까 하는 맘에서 이다.
GAN 모델은 한창 전성기였을 때 엄청나게 다양한 변종들이 등장했지만 이 이미지에 있는 몇가지 모델들로 단촐하게 정리해 볼 수도 있겠다 싶다.
이미지 출처 https://www.mdpi.com/2227-7080/7/4/82
현재 적어도 이미지 생성 모델에선 Diffusion 모델이 확고한 대세이지만 한 때 최고의 인기를 누리던 GAN 모델을 한번 돌아보게 된다.
Diffusion 모델과 GAN 모델의 장점을 가진 새로운 모델은 없을까 하는 맘에서 이다.
GAN 모델은 한창 전성기였을 때 엄청나게 다양한 변종들이 등장했지만 이 이미지에 있는 몇가지 모델들로 단촐하게 정리해 볼 수도 있겠다 싶다.
이미지 출처 https://www.mdpi.com/2227-7080/7/4/82
MDPI
3D Model Generation on Architectural Plan and Section Training through Machine Learning
Machine learning, especially the GAN (Generative Adversarial Network) model, has been developed tremendously in recent years. Since the NVIDIA Machine Learning group presented the StyleGAN in December 2018, it has become a new way for designers to make machines…