2026년 6월 10일, Google이 DiffusionGemma를 공개했습니다. 글을 만드는 방식이 보통의 AI와 다른, 실험적인 "오픈 모델"입니다. 보통의 챗봇은 단어 조각(토큰)을 하나씩 왼쪽에서 오른쪽으로 이어 쓰지만, 이 모델은 256칸짜리 빈 "캔버스"를 펼쳐 놓고 그 위를 한꺼번에 다듬어 글을 완성합니다. 글을 마치 그림 그리듯 생성하는 방식이라고 합니다(Google 설명).

주목할 점은 단순히 "Gemma가 빨라졌다"가 아닙니다. 속도를 얻는 대신 품질을 내준 실험이고, 그 속도조차 아무 데서나 나오지는 않습니다 — 내 컴퓨터(로컬)에서, 그것도 한꺼번에 들어오는 요청이 적을 때라야 빨라집니다. Google 스스로 분명히 해 둔 조건입니다.

무슨 모델인가

DiffusionGemma는 Google DeepMind가 만든 "오픈웨이트" 모델입니다. 모델의 두뇌에 해당하는 파일(가중치)을 통째로 공개해, 누구나 내려받아 자기 컴퓨터에서 돌릴 수 있다는 뜻입니다. 라이선스도 제약이 느슨한 Apache 2.0이라 상업적 사용까지 자유롭습니다.

바탕은 Google의 Gemma 4 계열입니다. 전체 크기는 약 260억 개(26B)의 수치로 이뤄졌지만, 한 번 계산할 때는 그중 3.8B만 켜서 씁니다. 이렇게 그때그때 필요한 일부만 켜는 구조를 MoE(전문가 혼합)라고 부르는데, 덩치는 크면서도 비교적 가볍게 돌아가게 해 줍니다. 여기에 글을 "디퓨전" 방식으로 뽑아내는 부품을 새로 얹은 모델입니다.

한 가지 분명히 할 점 — 이건 ChatGPT·Gemini 앱처럼 일반 사용자용 제품이 새로 나온 게 아닙니다. 모델 파일과, 개발자가 직접 돌릴 수 있는 통로만 공개됐습니다(허깅페이스·Kaggle에서 내려받아 vLLM·Transformers 같은 "모델 실행 프로그램"으로 띄우는 식). 아직 대신 호스팅해 주는 곳은 없지만, 공개 며칠 만에 이 모델을 손본 파생 버전이 수십 개 올라왔습니다(6월 29일 기준 파인튜닝 11개·경량화 29개·체험용 앱 17개).

입력은 글과 이미지를 받아 글로 답합니다. 다만 Google 자료 안에서도 표기가 엇갈립니다 — 설명 글엔 동영상 입력도 된다고 적혀 있는데, 같은 페이지의 사양 표엔 글·이미지만 적혀 있습니다.

아직 Ollama로 받아 바로 돌리진 못합니다 — 새 디퓨전 구조라 전용 빌드가 따로 필요합니다(6월 29일 기준).

한 단어씩 대신, 블록을 한꺼번에

보통의 챗봇 AI는 글을 타자기처럼 씁니다. 단어 조각(토큰)을 하나 쓰고, 그걸 본 다음 그다음 조각을 쓰고… 왼쪽에서 오른쪽으로 한 칸씩 이어 갑니다. 이렇게 앞 글자를 보고 다음 글자를 정하는 방식을 자기회귀(autoregressive)라고 부릅니다. 큰 서비스(클라우드)에서는 수천 명의 요청을 한꺼번에 몰아 처리하니 효율적이지만, 내 컴퓨터에서 혼자 쓰면 GPU(그래픽카드)가 "다음 글자"를 기다리며 대부분 노는 셈이 됩니다.

DiffusionGemma는 이걸 인쇄기로 바꿉니다. 한 글자씩 치는 대신, 한 묶음(여기선 256칸)을 통째로 찍어냅니다. 순서는 이렇습니다. 먼저 사용자가 넣은 글을 한 번 읽어 기억해 두고(이 기억을 KV 캐시라고 합니다), 256칸짜리 빈 캔버스를 무작위 "잡음"으로 채웁니다. 그다음 칸 전체를 여러 번 훑으며 확신이 서는 칸부터 글자를 확정하고, 나머지는 다시 흐리게 지웠다 다음 회차에 고쳐 채웁니다. 이미지 생성 AI가 흐릿한 잡음에서 점점 또렷한 그림을 떠오르게 하는 것과 같은 원리를 글에 적용한 겁니다.

핵심은 이 캔버스의 모든 칸이 앞뒤 양쪽을 동시에 본다는 점입니다(양방향). 보통 모델은 이미 쓴 왼쪽만 보지만, 이쪽은 글 전체를 보며 쓰기 때문에 도중에 스스로 틀린 곳을 고칠 수 있습니다. 한 방향으로만 쓰는 모델은 앞에서 한 번 실수하면 끝까지 끌려가지만, 이쪽은 글 전체가 점점 완성본으로 수렴한다는 게 Google의 설명입니다.

단, 과장은 걷어내야 합니다. "한 번에 256칸"이라지만 단번에 완성되는 건 아닙니다. 모델 카드 기준 한 번 훑을 때 15~20칸을 확정하고, 한 묶음을 끝내는 데 최대 48번(denoising 단계)을 반복합니다. 한 묶음이 끝나면 확정해 두고 다음 묶음으로 넘어갑니다. 즉 묶음끼리는 순서대로, 한 묶음 안에서는 한꺼번에 처리하는 방식입니다.

"빠르다"의 조건

먼저 속도 수치입니다. Google은 전용 GPU에서 최대 4배 빠르다고 발표했습니다. 구체적으로 NVIDIA H100 한 장에서 초당 1,000토큰 이상, 게이밍용 GeForce RTX 5090에서 초당 700토큰 이상입니다("초당 몇 토큰"은 글을 뽑아내는 속도 단위이고, 모델 카드엔 조건에 따라 1,100토큰 이상이라고도 적혀 있습니다). 다만 모두 Google이 내놓은 값이며, 제3자가 따로 검증한 수치는 아닙니다.

흥미로운 점은 조건입니다. 이 속도는 내 컴퓨터에서, 동시 요청이 적을 때를 위한 것입니다. 반대로 한 서버에 요청이 한꺼번에 쏟아지는 대형 서비스(고QPS, 초당 요청이 아주 많은 상황)에서는 사정이 다릅니다. 그런 환경에선 기존 방식(자기회귀) 모델이 GPU를 빈틈없이 굴릴 수 있어서, DiffusionGemma의 "한꺼번에 만들기"는 오히려 이점이 줄고 운영 비용이 더 들 수 있다고 Google은 말합니다. 그래서 이점은 GPU 한 장이 한 번에 처리하는 요청이 적거나 중간일 때 가장 큽니다. 또, 메모리와 칩이 한 몸인 Apple Silicon 맥 같은 구조에서는 같은 속도 이득을 못 볼 수 있다는 단서도 달렸습니다.

대신 하드웨어 문턱은 낮은 편입니다. 전체는 26B 크기지만 실제 계산엔 3.8B만 쓰는 구조라, 모델을 가볍게 줄이면(양자화) VRAM 18GB짜리 고급 그래픽카드에도 들어간다고 합니다(VRAM은 그래픽카드의 전용 메모리입니다).

속도의 값 — 품질

Google은 이 절충을 숨기지 않습니다. "전체 출력 품질이 표준 Gemma 4보다 낮다"고 직접 밝혔고, 최고 품질이 필요한 곳엔 표준 Gemma 4를 쓰라고 권합니다.

근거도 같은 자료에 있습니다. 여러 시험 점수(벤치마크)에서 DiffusionGemma는 같은 크기의 일반 Gemma 4 26B보다 거의 다 낮습니다(역시 Google이 낸 값이며, 독립 검증된 건 아닙니다).

벤치마크DiffusionGemma 26B A4BGemma 4 26B A4B
MMLU Pro77.6%82.6%
AIME 2026 (no tools)69.1%88.3%
LiveCodeBench v669.1%77.1%
GPQA Diamond73.2%82.3%

대신 강점은 따로 있습니다. 모든 칸이 서로를 보며 한 묶음을 함께 다듬는 구조라, 순서대로 풀 수 없는 작업에 유리합니다. 예를 들어 함수 중간의 빈 곳을 채우는 코드 작성, 이미 써 둔 글의 일부만 콕 집어 고치는 편집, 서로 얽힌 조건을 동시에 맞춰야 하는 일 같은 것들입니다(Google이 든 예엔 단백질 서열·수식 그래프도 있습니다). 실제로 Google은 한 곳(Unsloth)이 이 모델을 스도쿠 풀이용으로 따로 학습시킨 사례를 들었습니다. 스도쿠는 뒤 칸이 앞 칸을 좌우해서, 한 방향으로만 써 내려가는 보통 모델이 약한 문제입니다.

그래서 무엇이 달라졌나

"Gemma가 빨라졌다"로 줄이면 핵심을 놓칩니다. 이 모델이 건드린 건 속도의 병목이 어디에 있느냐입니다. 지금까지가 "모델이 더 크고 똑똑하면 된다"는 쪽이었다면, DiffusionGemma는 글을 만드는 방식과 GPU를 얼마나 알차게 쓰느냐로 무게를 옮겨 봅니다. 그 대가로 품질을 일부 내줬고, 이 트레이드 오프가 잘 맞는 곳(내 컴퓨터에서 빠른 반응이 필요한 작업)과 안 맞는 곳(대형 클라우드 서비스, 최고 품질이 필요한 일)이 또렷이 갈립니다.

참고한 자료