자가회기 방식의 비효율성의 한계를 탈피하기 위한 확산기반 잠재 추론 모델 제안
본문
필자는 기존 llm의 한계인 Autoregressive의 비효율성을 탈피하기 위해 아래의 모델을 제안하고자 한다. 현재 LLM은 앞선 단어들을 바탕으로 다음 단어를 하나씩 예측하는 자기회귀방식을 사용한다. 이 방식은 고전적인 수치 추론과 같아서, 결과값이 정교해지려면 연산량이 비례해서 늘어나는 '복잡성 = 정확도'의 굴레에 갇혀 있다. 또한, 생각을 다 끝내고 결과물을 '덩어리'로 내뱉기 때문에 유연성이 떨어진다. 따라서 필자는 Diffusion-based Iterative Reasoning, 즉 확산 기반 반복 추론 모델을 제안한다.
우리가 생각할 때 자가 회기 방식처럼 천천히 생각하는가? 몸을 움직일 때(ex. 피아노를 연주할 때) 생각 후에 행동하는가? 즉석에서 붕어빵 틀로 찍어내듯, 찰흙 덩어리를 테이블에 탁 내려놓고 세부적으로 다듬 듯, 한 번에 대략적인 작업 목표를 세우고 실행 이후 추론하면서 전체적인 틀에서 세부적인 사고로 보완해나가며 작업을 이어나간다. 이처럼 사람의 사고와 작업 진행의 유기적인 조화에 초점을 맞춰, 전체적인 답변의 골격을 먼저 생성한 후 다듬어가는 방식을 제안한다.
1. 잠재 공간 계획: 텍스트를 한 자 한 자 생성하기 전에, 저차원의 잠재 공간에서 답변의 전체적인 구조를 디퓨전 모델을 통해 생성한다.
2. 반복적 정제:
노이즈 상태의 '거친 생각'에서 시작해, 반복적으로 노이즈를 제거하며 작업을 시작, 이 후 작업 중간 중간마다 해당 소규모 작업에서 디퓨전 모델을 통해 만든 저차원적인 답을 자가 회기 방식을 통해 고차원적인 답변으로 구체화한다. 이를 통해 연산량은 줄이면서 정확도를 확보한다.
3. 기대 효과 및 차별점
비결정적 유연성: 한 단계씩 고정된 답을 내는 게 아니라, 전체적인 분포에서 최적의 길을 찾으므로 훨씬 인간의 사고와 유사한 유연성을 가진다.
연산 효율화: 생각의 뼈대를 잡을 때는 가벼운 디퓨전 모델을 쓰고, 마지막 디테일만 LLM이 다듬게 하여 전체적인 컴퓨팅 자원(KV 캐시 점유 등)을 획기적으로 낮출 수 있다.
실시간 수정 가능: 생성 과정 중간에 사용자의 피드백이나 추가 정보를 주입하기가 기존 방식보다 훨씬 용이하다.
후담으로 필자는 인간의 사고가 시각과도 매우 밀접하다고 주장하고싶다. 이는 논리적인 작업이 아니라, 신체를 움직여 활동하는 작업, 더 나아가 우리가 이 세계를 이해하는 데에 있어서 보통의 인간이라면 '중력'이라는 단어를 떠올릴 때 텍스트적인 개념의 이해('질량을 가진 물체에 대해 더 큰 질량을 가진 물체가 있을 경우 질량이 상대적으로 적은 물체는 자신보다 질량이 더 큰 물체로 다가간다.')가 아닌, 사과가 땅으로 떨어지는 이미지적인 사고로 스스로의 움직임과 섭리를 이해할 것이다. 또한 인간은 추상적인 개념을 다루는 것보다 시각적으로 직관적인 개념을 더 잘 받아들인다. 따라서 시각과 언어모델을 동시 학습한 vlm 또는 경제적인 llm 위에 vision 기능을 추가한 복합 모델보다, vision적인 학습을 먼저한 후 텍스트학습과 vision 학습을 병행하는 것이 종국에는 가장 고차원적이며 고지능적인, 동시에 컴퓨팅 자원을 덜 소모하는 완성형 인공지능에 다가가는 핵심 키가 될 것이다.
등록된 댓글이 없습니다.






