스탠다드 인텔리전스, 4.2억 달러 가치로 7,500만 달러 시리즈 A 유치 - 세쿼이아와 안드레이 카파시가 선택한 차세대 파운데이션 모델
2026-05-02T09:03:28.976Z
![]()
인공지능의 새로운 개척지: '컴퓨터 사용(Computer-Use)' 모델의 부상
최근 몇 년간 인공지능은 텍스트를 이해하고, 사진처럼 사실적인 이미지를 생성하며, 프로덕션 수준의 코드를 작성하는 등 경이로운 발전을 이루었습니다. 하지만 이러한 기념비적인 도약에도 불구하고, AI가 소프트웨어와 상호작용하는 방식은 여전히 원시적인 수준에 머물러 있습니다. 지금까지의 AI 모델들은 인간 작업자처럼 컴퓨터 화면을 '보고' 운영 체제를 자율적으로 탐색하는 데 큰 어려움을 겪어왔습니다. 언어 이해의 영역을 넘어 자율적인 디지털 행동의 영역으로 나아가기 위해 등장한 새로운 패러다임이 바로 '컴퓨터 사용 모델(Computer-use models)'입니다.
2026년 5월, 샌프란시스코에 본사를 둔 AI 연구 스타트업 스탠다드 인텔리전스(Standard Intelligence)가 이 난제를 근본적으로 해결하겠다는 야심 찬 목표와 함께 7,500만 달러(약 1,000억 원) 규모의 시리즈 A 투자를 성공적으로 유치하며 실리콘밸리의 전면에 등장했습니다. 이번 투자는 단순한 자본 조달을 넘어, 현재의 데이터 병목 현상을 타개하고 진정한 범용 인공지능(AGI)으로 나아가는 기술적 변곡점을 의미합니다. 본 보고서에서는 스탠다드 인텔리전스가 어떻게 기존 에이전트 AI의 한계를 극복하고 있는지, 그리고 최고 수준의 투자자들이 왜 이 작은 신생 기업에 열광하는지 심층적으로 분석합니다.
기업 개요: 디지털 세계의 자율주행을 설계하는 천재들
스탠다드 인텔리전스는 일반적인 B2B SaaS 기업이 아닙니다. 이 회사는 21세의 갤런 미드(Galen Mead)와 20세의 데반시 판데이(Devansh Pandey)라는 예외적으로 젊고 비전 있는 두 창업자가 이끄는 야심 찬 AI 연구소입니다. 이 둘은 2022년, AGI의 안전한 개발과 정렬(Alignment)에 깊은 관심을 가진 뛰어난 고등학생들을 위한 선발 프로그램인 '아틀라스 펠로우십(Atlas Fellowship)'에서 처음 만났습니다. 이들은 범용 인공지능의 도래가 기존 학계나 제도가 예측하는 것보다 훨씬 빠르게 다가오고 있다는 절박함을 느꼈고, 결국 학부 과정을 중퇴한 뒤 샌프란시스코로 이주하여 창업의 길을 선택했습니다.
현재 이 스타트업은 단 6명의 직원으로 구성된 초소형 팀으로 운영되고 있습니다. 그럼에도 불구하고 이들이 이룬 기술적 성취는 수백 명의 연구원을 보유한 대형 AI 연구소들의 성과와 맞먹습니다. 이들의 핵심 프로덕트는 컴퓨터 사용에 특화된 파운데이션 모델인 'FDM-1'입니다. 기존 대형 언어 모델(LLM)이 API를 호출하거나 코드 조각을 출력하는 데 그쳤다면, FDM-1은 인간처럼 그래픽 사용자 인터페이스(GUI)를 직접 조작하도록 설계되었습니다.
이 팀의 실행력과 성과를 보여주는 사례는 놀랍습니다. FDM-1 모델은 블렌더(Blender)와 같은 복잡한 3D 소프트웨어를 조작하여 CAD 기어를 모델링할 수 있으며, 스스로 호기심을 가지고 소프트웨어의 상태 공간을 탐색해 보안 취약점(버그)을 찾아낼 수도 있습니다. 가장 충격적인 시연은 이 모델이 가상의 화면을 넘어 현실 세계의 물리적 조작까지 해냈다는 점입니다. 스탠다드 인텔리전스 팀은 단 1시간 동안 수집한 데이터로 모델을 미세조정(Fine-tuning)한 후, 웹 기반 인터페이스(방향키 조작)를 통해 실제 자동차를 샌프란시스코 시내에서 자율 주행하도록 만드는 데 성공했습니다.
또한, 이 팀은 극강의 자본 효율성과 '헝그리 정신'을 자랑합니다. 대형 클라우드 서비스 제공업체(Hyperscaler)에 막대한 스토리지 비용을 지불하는 대신, 샌프란시스코 시내에 30 페타바이트(PB) 규모의 거대한 데이터 스토리지 클러스터인 일명 '더 힙(The Heap)'을 단 50만 달러 미만의 비용으로 직접 구축했습니다. 이는 상용 클라우드 솔루션을 사용할 때보다 무려 20배나 저렴한 비용입니다.
투자 유치 세부 사항: 초소형 팀에 부여된 천문학적 가치
이번 시리즈 A 라운드에서 스탠다드 인텔리전스는 4억 2,500만 달러의 프리머니 기업가치(Pre-money valuation)를 인정받으며 7,500만 달러를 조달했습니다. 투자 유치 후 기업가치(Post-money valuation)는 5억 달러(약 6,600억 원)에 달합니다. 이는 2024년 말 진행된 시드 라운드 당시의 기업가치 대비 무려 16배나 수직 상승한 수치입니다. 단 6명의 팀원이라는 점을 고려하면, 직원 1인당 기업가치가 약 8,300만 달러(약 1,100억 원)에 달하는 셈입니다. 이는 현재 실리콘밸리 벤처 자본이 프론티어 AI 기술력과 천재적인 소수 정예 팀에 얼마나 막대한 프리미엄을 부여하고 있는지를 명확히 보여줍니다.
이번 투자는 세계 최고의 벤처캐피탈인 세쿼이아 캐피탈(Sequoia Capital)의 소냐 황(Sonya Huang) 파트너와 스파크 캐피탈(Spark Capital)의 미코와이 애쉬윌(Mikowai Ashwill), 야스민 라자비(Yasmin Razavi)가 공동으로 주도했습니다. 하지만 시장의 이목을 더욱 집중시킨 것은 이 라운드에 참여한 엔젤 투자자들의 면면입니다.
오픈AI(OpenAI)의 창립 멤버이자 테슬라(Tesla)의 오토파일럿 및 AI 부문 총괄을 역임했던 세계적인 AI 연구자 안드레이 카파시(Andrej Karpathy)가 개인 자격으로 투자에 참여했습니다. 안드레이 카파시는 방대한 비디오 데이터를 통해 인공지능을 학습시키는 '엔드투엔드(End-to-End)' 방식의 열렬한 지지자입니다. 스탠다드 인텔리전스가 컴퓨터 화면을 비디오로 학습하는 접근법이 테슬라의 FSD(Full Self-Driving) 철학과 완벽히 궤를 같이한다는 점에서 그의 투자는 강력한 기술적 검증으로 해석됩니다.
또한, 1992년 조지 소로스와 함께 영란은행을 무너뜨리며 파운드화 공매도로 전설이 된 거시경제 투자의 거물, 스탠리 드러켄밀러(Stanley Druckenmiller)가 투자자 명단에 이름을 올린 점도 주목할 만합니다. 드러켄밀러는 최근 수년간 AI 인프라가 글로벌 경제를 재편할 핵심 동력이라고 판단하여 막대한 자본을 배치해 왔습니다. 그의 합류는 이 스타트업의 기술이 전 세계 지식 노동 시장의 경제적 구조를 근본적으로 뒤바꿀 수 있다는 거시적 판단이 작용했음을 시사합니다. 이에 더해 저명한 AI 기술자인 밀란 코박(Milan Kovac)도 함께 투자하여 자본과 기술적 통찰이 결합된 완벽한 캡 테이블(Cap Table)을 완성했습니다.
시장 분석: '쓰라린 교훈'과 에이전트 AI 패러다임의 전환
스탠다드 인텔리전스의 파괴력을 이해하기 위해서는 2026년 현재 AI 시장의 기술적 한계를 먼저 짚어보아야 합니다. 현재 업계의 가장 뜨거운 화두는 '에이전트 AI(Agentic AI)'입니다. 앤스로픽(Anthropic)은 클로드(Claude)에 컴퓨터 사용 기능을 도입했고, 오픈AI는 오퍼레이터(Operator)라는 제품을 선보였으며, 어뎁트(Adept)나 마누스(Manus)와 같은 스타트업들도 디지털 워크플로우를 자동화하기 위해 각축전을 벌이고 있습니다.
그러나 기존의 접근 방식에는 치명적인 결함이 존재합니다. 대부분의 컴퓨터 사용 모델은 인간이 소프트웨어를 조작하는 화면을 캡처한 '스크린샷'에 의존합니다. 그리고 수많은 인간 작업자들이 "사용자가 결제 버튼을 클릭했다"와 같은 설명 텍스트를 스크린샷마다 일일이 수동으로 라벨링해야만 합니다. 이 방식은 속도가 매우 느릴 뿐만 아니라 천문학적인 비용을 수반하며, 근본적으로 확장성(Scalability)이 떨어집니다. 이로 인해 AI 모델은 언제나 정제된 데이터의 양에 성능이 제약받는 '데이터 제약(Data-constrained) 체제'에 갇혀 있었습니다.
스탠다드 인텔리전스는 이러한 텍스트 라벨링과 스크린샷 의존성을 완전히 벗어던졌습니다. 세쿼이아 캐피탈은 이들의 접근법을 가리켜 "쓰라린 교훈(The Bitter Lesson)을 뼈저리게 체화한 방식"이라고 평가했습니다. 리치 서튼(Rich Sutton)의 유명한 에세이 '쓰라린 교훈'은 AI 역사상 가장 위대한 도약은 인간이 정교하게 조작한 규칙이 아니라, 무한한 컴퓨팅 파워와 가공되지 않은 대규모 데이터를 쏟아부었을 때 발생했다는 철학을 담고 있습니다. 스탠다드 인텔리전스는 인간의 개입을 배제하고 FDM-1 모델을 날것의 '비디오 영상'으로 직접 학습시킵니다.
이들은 무려 1,100만 시간에 달하는 방대한 컴퓨터 사용 화면 녹화 비디오 데이터셋을 구축했습니다. 이는 오픈소스 기반의 경쟁 데이터셋보다 수십 배 이상 거대한 규모입니다. 인간의 라벨링 노동을 대체하기 위해 이 팀은 자체적으로 '역동역학 모델(Inverse Dynamics Model, IDM)'이라는 신경망을 훈련시켰습니다. IDM은 화면의 픽셀 변화를 보고 "지금 마우스가 어디로 이동해 무엇을 클릭했는지"를 모델 스스로 추론하고 라벨링을 자동 생성합니다. 결과적으로 비용을 극적으로 낮추면서도 무한히 확장 가능한 데이터 파이프라인을 완성한 것입니다.
비디오 데이터를 처리하는 데 따르는 막대한 연산 비용과 메모리 문제도 천재적인 엔지니어링으로 해결했습니다. 스탠다드 인텔리전스는 중요하지 않은 화면 영역을 지능적으로 압축하는 마스크 압축 방식의 독자적인 '비디오 인코더'를 개발했습니다. 이 인코더는 오픈AI 등 경쟁사의 방식보다 50~100배 더 높은 토큰 효율성을 자랑하며, 100만 토큰의 컨텍스트 창(Context window) 안에 30FPS 해상도의 비디오 2시간 분량을 압축해 넣을 수 있습니다. 이러한 혁신은 컴퓨터 에이전트 개발을 마침내 '컴퓨팅 제약(Compute-constrained) 체제'로 전환시켰습니다. 즉, 테슬라의 FSD 자율주행 접근법을 컴퓨터 화면 위 지식 노동에 완벽히 이식해 낸 것입니다.
전략적 시사점: 컴퓨팅의 극대화와 일반 학습자를 위한 안전성 연구
이번에 확보한 7,500만 달러의 자금은 스탠다드 인텔리전스가 기술적 해자를 넓히는 데 핵심적인 역할을 할 것입니다. 가장 주요한 자금 사용처는 단연 막대한 컴퓨팅 인프라의 확충입니다. 더 이상 인간의 라벨링 데이터에 구애받지 않게 된 만큼, 1,100만 시간의 비디오 데이터에 더 많은 컴퓨팅 파워(GPU 연산량)를 투입할수록 FDM 모델의 성능은 기하급수적으로 향상될 것입니다. 회사는 현재의 언어 모델(LLM)이 코딩 영역에서 인간을 초월한 성능을 보여주듯, FDM 모델 시리즈가 광범위한 일반 컴퓨터 작업에서 인간을 초월하는(Superhuman) 성능을 달성할 것으로 기대하고 있습니다.
단순한 성능 극대화뿐만 아니라, 인공지능의 안전성과 통제력을 확보하는 'AI 정렬(AI Alignment)' 문제도 회사의 핵심 목표 중 하나입니다. 아틀라스 펠로우십 출신인 두 창업자는 통제 불가능한 AGI의 위험성을 누구보다 진지하게 받아들이고 있습니다. FDM-1처럼 새로운 환경을 스스로 탐색하며 능동적으로 학습하는 범용 모델(General Learners)은 기존의 인간 피드백 기반 강화학습(RLHF)만으로는 안전을 보장하기 어렵습니다. 스탠다드 인텔리전스는 이번 투자금의 상당 부분을 이러한 자율적인 탐색 모델이 인간의 의도와 일치하도록 제어하는 '일반 학습자를 위한 정렬 과학(Science of alignment for general learners)'을 기초부터 연구하는 데 투입할 계획입니다.
투자자의 시각: 비디오의 공포를 이겨낸 극도의 실행력
초기 단계의 투자자 관점에서 스탠다드 인텔리전스는 극단적인 위험(High-risk)과 천문학적인 보상(High-reward)이 공존하는 프로젝트입니다. 세쿼이아와 스파크 캐피탈은 이들이 당장의 연간 반복 매출(ARR)을 창출할 기업 소프트웨어를 만들 것이라고 기대하고 투자한 것이 아닙니다. 이들은 이 소규모 팀이 가진 특유의 "취향, 끈기, 기술적 용기, 그리고 야망"이라는 패러다임 전환의 핵심 요소에 배팅했습니다.
과거 많은 AI 연구소들이 비디오 데이터를 활용해 범용 에이전트를 만들려 시도했지만, 막대한 컴퓨팅 비용과 다루기 힘든 비디오 데이터의 특성 때문에 대부분 실패하고 좌절했습니다. 세쿼이아가 주목한 점은 스탠다드 인텔리전스 팀원들이 기존 컴퓨터 비전 학계의 낡은 선입견에 물들지 않은, 스스로를 "비디오 전문가가 아니다(not video people)"라고 부르는 이들이었다는 것입니다. 이들은 비디오 처리의 난제를 제1원리(First-principles) 입각해 창의적이고 헝그리한 방식으로 극복해 냈습니다.
또한, 안드레이 카파시의 시각에서는 이 투자가 너무나도 당연한 수순이었습니다. 카파시는 테슬라에서 하드코딩된 규칙 기반의 자율주행 시스템을 비디오 데이터로 학습된 순수 엔드투엔드(End-to-End) 신경망으로 교체하기 위해 수년을 바쳤습니다. 신경망이 비디오를 시청하는 것만으로 복잡하고 무질서한 현실의 도로 주행을 배울 수 있다면, 컴퓨터 운영 체제와 웹 브라우저라는 통제되고 결정론적인 가상의 환경을 지배하는 것은 당연히 가능한 일입니다.
결론: 궁극의 디지털 워커를 향한 질주의 시작
스탠다드 인텔리전스의 7,500만 달러 시리즈 A 유치는 AI 생태계가 범용 인공지능(AGI)을 향해 나아가는 과정에서 맞이한 중요한 분수령입니다. 인간의 고비용 수동 라벨링에 의존하던 기존의 에이전트 AI 개발 방식을 타파하고, 무한히 확장 가능한 비디오 프리트레이닝 방식을 입증해 낸 갤런 미드와 데반시 판데이의 성과는 지식 노동의 미래를 근본적으로 뒤바꿀 잠재력을 지니고 있습니다. 확보한 막대한 자본과 극도로 효율적인 연산 아키텍처를 바탕으로 FDM 모델이 본격적인 스케일업에 돌입함에 따라, 업계 전체가 이 6명의 천재들이 만들어갈 혁신을 숨죽여 지켜보아야 할 것입니다. 인간처럼 화면을 보고 스스로 탐색하며 소프트웨어를 능숙하게 다루는 '진정한 디지털 동료'의 시대가 마침내 막을 올렸습니다.
Start advertising on Bitbake
Contact Us