베비투스랩 로고
전체 글 목록
ai-automation4분 읽기

Karpathy의 '5의 9' 관점에서 본 사내 AX 도입의 진짜 함정

Karpathy가 자율주행에서 가져온 '5의 9' 비유는 사내 AX 도입에 그대로 적용됩니다. 데모 90%와 production 99.999% 의 비용 곡선이 완전히 다릅니다. 사내 시스템에 AI 붙일 때 어디까지 가야 하는지, 단계별로 정리한 노트입니다.

어제 Andrej Karpathy 의 2025 년 Dwarkesh Patel 팟캐스트를 다시 봤습니다. 그가 자율주행에서 가져온 "5의 9" 비유와 "decade of agents" 표현이 사내 AX 도입 의사결정에 정확히 들어맞습니다.

요약하면 이렇습니다. AI 에이전트가 데모를 넘어 production 으로 정착하는 데는 1 년이 아니라 10 년이 걸립니다. 그 사이 단계가 90% → 99% → 99.9% → 99.99% → 99.999% 이고 9 한 자릿수를 더할 때마다 비용이 지수적으로 늘어납니다.

대표님들이 가장 자주 빠지는 함정이 정확히 여기 있습니다. "AI 정확도 90% 면 자동화 돌려도 되는 거 아닌가요?" 라는 질문이 그 자체로 잘못된 프레임입니다.

Karpathy 의 "5의 9" 가 무엇인가

자율주행 신뢰도를 9 의 개수로 표시한 표현입니다. Tesla Autopilot 시절 Karpathy 가 정리한 단계입니다.

  • 1 개 9 (90%): 데모 작동. 시연 영상에서 멋있는 수준
  • 2 개 9 (99%): 한정 조건 베타. 일부 시나리오에서 안정
  • 3 개 9 (99.9%): 안정 운영. 보조 도구로 활용 가능
  • 4 개 9 (99.99%): 상용 운영. 자동 결재까지 가능
  • 5 개 9 (99.999%): 진짜 production. 사람 개입 거의 없음

핵심은 비용 곡선입니다. 90% 에서 99% 가는 비용을 1 이라 치면, 99% 에서 99.9% 가는 비용은 10 입니다. 99.9% 에서 99.99% 는 100 입니다. 같은 9 한 자릿수를 더하는 데 노력이 지수적으로 늘어납니다.

자율주행이 10 년째 5 개 9 에 못 가는 이유도 같습니다. 데모 영상은 2015 년에도 있었습니다. 그러나 진짜 사람 손 떼고 운전 시키는 production 은 아직도 한정된 도시에서만 가능합니다.

Karpathy 가 2025 년에 "year of agents 가 아니라 decade of agents 다" 라고 했을 때 가리킨 게 정확히 이 패턴입니다.

사내 AX 에 그대로 적용됩니다

대표님들 입장에서 90% 정확도면 충분해 보입니다. 그러나 사내 시스템 운영에서 90% 는 데모 단계입니다. 1,000 건 처리하면 100 건이 틀립니다. 그 100 건이 매출 손실·고객 이탈·규제 위반으로 돌아옵니다.

단계 사내 AX 의미 사람 개입
1 개 9 (90%) POC 작동 모든 결과 사람 검토
2 개 9 (99%) 베타 운영 샘플 검토
3 개 9 (99.9%) 안정 운영 예외만 검토
4 개 9 (99.99%) 자동 결재 가능 알람만
5 개 9 (99.999%) 완전 자동 거의 없음

베비투스랩이 사내 시스템 AI 도입 5 가지 패턴에서 강조한 "3 개월은 정확도 측정 기간" 이 정확히 이 단계 진행을 의미합니다. 한 9 자릿수를 안전하게 올리는 데 최소 3 개월 운영 데이터가 필요합니다.

비용 곡선이 지수적인 이유

Karpathy 가 자율주행에서 본 패턴이 사내 AX 에도 같은 모양으로 나타납니다.

90% → 99% 는 모델 fine-tuning, 컨텍스트 보강, 프롬프트 최적화로 도달합니다. 작업 1 주에서 1 개월. GPT-5 나 Claude 상위 모델을 그대로 가져다 쓰면 많은 도메인에서 이 단계까지는 쉽게 갑니다.

99% → 99.9% 는 edge case 데이터 누적, 사람 검토 루프, 자동 학습 파이프라인이 필요합니다. 3 개월에서 6 개월. 운영 중 발견된 실수 케이스를 데이터로 누적하고 다음 학습에 반영하는 구조가 필요합니다.

99.9% → 99.99% 는 도메인 전문가 직접 검수, 거버넌스 시스템 구축, 모니터링 인프라까지. 1 년 이상. 이 단계부터 베비투스랩 같은 시니어 PE 가 architecture 까지 같이 봐야 합니다.

99.99% → 99.999% 는 자율주행이 아직도 못 가는 영역입니다. 사내 AX 에서는 인간 검토 0 의 완전 자율 의사결정. 솔직히 베비투스랩도 클라이언트 시스템에서 이 단계 도달 사례를 아직 못 봤습니다.

사장님이 결정해야 할 9 의 개수

이게 사내 AX 도입의 진짜 의사결정 지점입니다. "AI 자동화 하자" 가 아니라 "우리 시스템에 필요한 9 의 개수는 몇 개인가" 입니다.

서비스마다 필요한 9 의 개수가 다릅니다.

  • 견적 자동 산정 (실수가 매출 손실): 3 개 9 필요
  • CS 1 차 답변 (오답이면 사과면 됨): 2 개 9 가능
  • 이상 거래 탐지 (사고 비용 큼): 4 개 9 필요
  • 매출 데이터 분석 보고 (사람 검토 전제): 2 개 9 가능
  • 발주 자동 결재 (재고 비용 큼): 4 개 9 필요

같은 GPT-5 나 Claude 모델이라도 컨텍스트·검증·인프라 투입에 따라 도달 가능한 9 의 단계가 갈립니다. 도구가 같아도 9 의 개수는 다릅니다.

Karpathy 의 인용을 한 줄로

Karpathy 가 2025 년 인터뷰에서 한 표현이 사내 AX 의사결정자에게 가장 정확한 조언입니다. "Just because the demo works does not mean production works." 데모는 데모일 뿐, production 은 다른 영역이라는 뜻입니다.

대표님들이 ChatGPT 데모를 보고 "이거 우리 회사에 붙이자" 하시는 흐름이 정확히 데모와 production 을 같은 것으로 본 결과입니다. 이 둘 사이는 1 개 9 차이가 아니라 3 ~ 4 개 9 차이입니다. 비용 곡선이 지수적으로 다릅니다.

베비투스랩의 결론

Karpathy 의 "5의 9" 비유는 사내 AX 도입의 의사결정 프레임을 정확히 줍니다. 우리 시스템의 어디가 몇 개 9 가 필요한지 먼저 정해야 합니다. 그 다음 도구가 따라옵니다.

베비투스랩이 사내 시스템 AI 도입 5 가지 패턴의 공통 원칙으로 "사람이 항상 마지막 결재" 와 "3 개월 정확도 측정" 을 두는 이유도 같습니다. 9 의 개수를 하나씩 올리는 단계적 진행이 가장 안전합니다. 데모만 보고 99.99% 가정해 자동화를 돌리면, 1% 실수가 6 개월 운영 비용으로 돌아옵니다.

솔직히 말씀드리면 사내 AX 도입의 가장 흔한 실패가 9 의 개수를 과대 평가하는 것입니다. 90% 작동을 99.9% 와 같다고 보고 자동화를 돌리면, 데모는 멋있지만 운영 단계에서 무너집니다. 베비투스랩이 4 가지 약속 중 Foundation 을 첫 약속으로 두는 이유도, 9 의 개수를 솔직히 측정하고 거기 맞춰 도입 범위를 정해야 한다고 믿기 때문입니다.

도구 (GPT-5, Claude, DeepSeek 등) 는 갈아끼울 수 있습니다. 그러나 9 의 개수를 솔직히 측정하는 운영 architecture 는 5 년을 갑니다. 이게 시니어 PE 의 진짜 가치입니다.


우리 시스템의 어느 부분이 몇 개 9 가 필요한지 함께 정리하고 싶으면 3 분 AX 진단 으로 회사 단계부터 확인하시거나, 30 분 무료 상담 에서 우리 시스템에 맞춰 함께 정리합니다.

공유

X에 공유

More Notes

카카오톡 상담