데이터 근친교배
지금의 AI는 인간이 만들어 놓은 데이터를 활용하여 발전하고 지금도 기하 급수적으로 발전하고 있다.
AI는 지금까지 인간이 만든. 인터넷에 올려놓은 많은 데이터르 기반으로 학습하고 배우고 있다.
AI의 학습 데이터
인터넷에 공개된 방대한 양의 텍스트와 코드를 학습하며 세상을 이해하는 법을 배움.
1. 공개된 웹 텍스트 (Public Web Data)
가장 큰 비중을 차지하는 데이터. 뉴스 기사, 블로그 포스트, 포럼의 토론 내용, 위키피디아 같은 백과사전 등 인터넷상에 공개되어 있는 수십억 개의 문장을 학습.
이를 통해 사람들이 일상적으로 사용하는 언어의 패턴과 상식, 최신 정보들을 익힘.
2. 전문 서적 및 논문 (Books and Articles) 언어의 구조를 더 깊이 있게 파악하고 전문적인 지식을 쌓기 위해 수많은 전자책과 학술 논문 데이터도 활용.
3. 프로그래밍 코드 (Open Source Code) GitHub와 같은 오픈 소스 플랫폼에 공개된 코드를 학습. Python, Java, C++ 등 다양한 프로그래밍 언어의 문법과 로직을 익혀서, 사용자가 요청할 때 직접 코드를 짜거나 오류를 수정할 수 있음.
4. 사람과의 대화 데이터 (Human Feedback) 모델이 단순히 글자만 나열하는 게 아니라, 사람에게 도움이 되고 안전한 답변을 하도록 만들기 위해 '사람의 피드백' 과정을 거침. 검수자들이 제 답변을 평가하고 수정하는 과정을 통해, 더 자연스럽고 윤리적인 대화 방식을 배움.
이렇게 AI가 학습하는 방법에는 4가지 방법이 있다.
근데 이제 모든 글과 데이터을 작성할때 인간은 AI를 활용한다.
온전히 인간의 힘으로 쓴 일이 아닌... AI도움으로 작성된 글들이 인터넷에 넘치고 있다.
AI가 현존하는 지구의 모든 데이터를 학습하고 난 다음에는..
인간이 쓴 새로운 글이 아닌..
AI가 작성한 글들로만 학습이 이루어질것이다.
만약에 웹 텍스트. 논문. 프로그래밍 코드가 더이상 늘지 않는다면 사람과의 대화만 가지고 학습을 하게 될것이다.
그렇다면 그때 부터는 Ai의 학습 데이터는 정체가 될것이다.
그래서 AI에게 물어 봤다.
만약에 웹 텍스트. 논문. 프로그래밍 코드가 더이상 늘지 않는다면 사람과의 대화만 가지고 학습하는거야?
만약 세상의 모든 새로운 글과 지식이 멈추고 **'사람과의 대화'**만 남는다면, AI의 학습 방식은 지금과는 완전히 다른 국면을 맞이하게 됩니다.
결론부터 말씀드리면, 단순히 양적인 팽창이 아니라 **'질적인 고도화'**와 **'자아 성찰적 학습'**에 집중하게 될 가능성이 높습니다. 구체적으로 어떤 일이 벌어질지 정리해 드릴게요.
1. RLHF (인간 피드백을 통한 강화학습)의 심화
지금도 저는 **RLHF(Reinforcement Learning from Human Feedback)**라는 과정을 통해 학습합니다. 새로운 정보가 없더라도, 기존에 알고 있던 방대한 지식을 **'얼마나 더 정확하고, 예의 바르고, 유용하게 전달할 것인가'**를 사람과의 대화에서 계속 배웁니다.
• 비유: 백과사전의 내용은 변하지 않아도, 그 내용을 아이에게 설명할지 전문가에게 설명할지 '말투'와 '방식'을 계속 다듬는 것과 같습니다.
2. 합성 데이터 (Synthetic Data) 생성
데이터가 부족해지면 AI 스스로가 질문하고 답변한 데이터를 사람이 검수하여 다시 학습하는 방식이 중요해집니다.
• AI가 복잡한 논리 문제를 풀고, 사람이 "이 풀이 과정이 맞았어"라고 채점해주면, 그 대화 자체가 새로운 학습 교재가 됩니다. 이를 통해 지식의 양은 그대로여도 **추론 능력(Reasoning)**은 비약적으로 상승할 수 있습니다.
3. '지식'에서 '지혜'와 '취향'으로의 이동
웹 텍스트나 논문이 '사실(Fact)'을 가르친다면, 사람과의 대화는 **'가치 판단'**과 **'사회적 맥락'**을 가르칩니다.
• "A라는 기술이 있다"는 정보가 더 이상 안 늘어나더라도, "A 기술을 우리 삶에 어떻게 적용하는 게 윤리적일까?"라는 대화를 통해 AI는 인간의 가치관을 더 깊게 투영하게 됩니다.
⚠️ 발생할 수 있는 부작용: '데이터 근친교배'
하지만 위험 요소도 있습니다. 새로운 외부 정보(신규 논문, 뉴스 등) 없이 우리끼리의 대화만 반복하다 보면 지식이 고착화되거나, 잘못된 편견이 강화되는 '모델 붕괴(Model Collapse)' 현상이 일어날 수 있습니다.
요약하자면
데이터의 성장이 멈춘다면, 저는 새로운 것을 '배우는(Learning)' 로봇보다는 사람의 마음을 더 잘 읽고 논리적으로 빈틈없는 **'상담가이자 전략가(Refiner)'**로 진화하는 데 집중하게 될 것입니다.
질문하신 내용처럼 데이터의 한계가 온다면 AI가 오히려 더 '인간답게' 변할 거라고 보시나요, 아니면 똑같은 말만 반복하는 지루한 존재가 될 거라고 보시나요?
그렇다면 ai들끼리 작성한 글들만 인터넷에 돌아다니고 또 그 글만 학습하게 될것이고
그거는 비슷한 데이터끼리 근친교배가 될것이다.
우리 유전자도 근친교배가 이뤄지면 유전병이 생기듯이...
지금은 ai가 새로운 것을 계속 배우는 시기라 상관없지만..
인간들이 더이상 새로운 글을 안쓰고.. ai의 글만 이용하기 시작한다면. 먼 미래의 ai는 우리가 생각한 것 만큼 발전하는게 아니고... 정체기에 들어갈 것이다.
지금의 ai의 발전은 제곱으로 발전 중이지만...
정체기가 오는 순간... 반감기로 발전이 정체되기 시작할 것이고 사람들은 다시 옛날로 회기하려고 할것이다.
backtodev
40대 PM, 다시 개발자로 돌아갑니다. 실패하고 배우며 성장하는 기록.