자가회기 방식의 비효율성의 한계를 탈피하기 위한 확산기반 잠재 추론 모델 제안

페이지 정보

작성자

(192.♡.0.1) 작성일 26-03-31 16:20 조회 232 댓글 0

본문

필자는 기존 llm의 한계인 Autoregressive의 비효율성을 탈피하기 위해 아래의 모델을 제안하고자 한다. 현재 LLM은 앞선 단어들을 바탕으로 다음 단어를 하나씩 예측하는 자기회귀방식을 사용한다. 이 방식은 고전적인 수치 추론과 같아서, 결과값이 정교해지려면 연산량이 비례해서 늘어나는 '복잡성 = 정확도'의 굴레에 갇혀 있다. 또한, 생각을 다 끝내고 결과물을 '덩어리'로 내뱉기 때문에 유연성이 떨어진다. 따라서 필자는 Diffusion-based Iterative Reasoning, 즉 확산 기반 반복 추론 모델을 제안한다.

우리가 생각할 때 자가 회기 방식처럼 천천히 생각하는가? 몸을 움직일 때(ex. 피아노를 연주할 때) 생각 후에 행동하는가? 즉석에서 붕어빵 틀로 찍어내듯, 찰흙 덩어리를 테이블에 탁 내려놓고 세부적으로 다듬 듯, 한 번에 대략적인 작업 목표를 세우고 실행 이후 추론하면서 전체적인 틀에서 세부적인 사고로 보완해나가며 작업을 이어나간다. 이처럼 사람의 사고와 작업 진행의 유기적인 조화에 초점을 맞춰, 전체적인 답변의 골격을 먼저 생성한 후 다듬어가는 방식을 제안한다.

1. 잠재 공간 계획: 텍스트를 한 자 한 자 생성하기 전에, 저차원의 잠재 공간에서 답변의 전체적인 구조를 디퓨전 모델을 통해 생성한다.

2. 반복적 정제:

노이즈 상태의 '거친 생각'에서 시작해, 반복적으로 노이즈를 제거하며 작업을 시작, 이 후 작업 중간 중간마다 해당 소규모 작업에서 디퓨전 모델을 통해 만든 저차원적인 답을 자가 회기 방식을 통해 고차원적인 답변으로 구체화한다. 이를 통해 연산량은 줄이면서 정확도를 확보한다.

3. 기대 효과 및 차별점

비결정적 유연성: 한 단계씩 고정된 답을 내는 게 아니라, 전체적인 분포에서 최적의 길을 찾으므로 훨씬 인간의 사고와 유사한 유연성을 가진다.

연산 효율화: 생각의 뼈대를 잡을 때는 가벼운 디퓨전 모델을 쓰고, 마지막 디테일만 LLM이 다듬게 하여 전체적인 컴퓨팅 자원(KV 캐시 점유 등)을 획기적으로 낮출 수 있다.

실시간 수정 가능: 생성 과정 중간에 사용자의 피드백이나 추가 정보를 주입하기가 기존 방식보다 훨씬 용이하다.

후담으로 필자는 인간의 사고가 시각과도 매우 밀접하다고 주장하고싶다. 이는 논리적인 작업이 아니라, 신체를 움직여 활동하는 작업, 더 나아가 우리가 이 세계를 이해하는 데에 있어서 보통의 인간이라면 '중력'이라는 단어를 떠올릴 때 텍스트적인 개념의 이해('질량을 가진 물체에 대해 더 큰 질량을 가진 물체가 있을 경우 질량이 상대적으로 적은 물체는 자신보다 질량이 더 큰 물체로 다가간다.')가 아닌, 사과가 땅으로 떨어지는 이미지적인 사고로 스스로의 움직임과 섭리를 이해할 것이다. 또한 인간은 추상적인 개념을 다루는 것보다 시각적으로 직관적인 개념을 더 잘 받아들인다. 따라서 시각과 언어모델을 동시 학습한 vlm 또는 경제적인 llm 위에 vision 기능을 추가한 복합 모델보다, vision적인 학습을 먼저한 후 텍스트학습과 vision 학습을 병행하는 것이 종국에는 가장 고차원적이며 고지능적인, 동시에 컴퓨팅 자원을 덜 소모하는 완성형 인공지능에 다가가는 핵심 키가 될 것이다.

좋아요19 이 글을 좋아요하셨습니다

등록된 댓글이 없습니다.

댓글쓰기

업로드한 이미지

이름 필수 비밀번호 필수

쉬운 문제 · 서버 검증 · 1회용 토큰

문제를 준비하는 중입니다...

비밀글

여기로 이미지를 드래그 앤 드롭하거나 클릭하여 업로드하세요.

자가회기 방식의 비효율성의 한계를 탈피하기 위한 확산기반 잠재 추론 모델 제안 > 블로그

자가회기 방식의 비효율성의 한계를 탈피하기 위한 확산기반 잠재 추론 모델 제안

페이지 정보

본문

갤러리

접속자집계

본문

갤러리

소셜계정으로 로그인

접속자집계