결석에세이_신정연

✍️ 에세이/결석에세이

결석에세이_신정연

정연(Jung Yun) 2025. 11. 28. 02:09

Scale AI 회사 리뷰: AI 시대를 뒷받침하는 데이터 인프라

1. Scale AI란 무엇인가

Scale AI는 미국 샌프란시스코에 위치한 데이터 어노테이션, 데이터 라벨링 기업이다. 즉, AI 모델이 학습할 수 있도록, raw data에 정답(label)을 달아주는 일을 전문으로 하고 있다. 또한, 단순한 라벨링 외에도 데이터 정제, 훈련된 모델 평가 등도 제공하고 있다. 자율주행 자동차 개발사와 생성형 인공지능 개발사가 주요 고객사이다.

현대 AI 시스템이 작동하는 방식을 이해하려면, AI는 데이터로부터 배운다는 기본 원리를 알아야 한다. 자율주행 차량이 도로의 보행자를 인식하든, ChatGPT와 같은 언어 모델이 인간의 질문에 답하든, 이 모든 것은 수백만, 수천만 건의 라벨링된 데이터를 통한 학습 과정에서 비롯된다. Scale AI는 바로 이 '라벨링된 데이터’를 대규모로 생산하고 관리하는 기업이며, AI 생태계의 핵심 인프라로 자리잡고 있다.

2. Scale AI의 역사와 성장

알렉산더 왕(Alexandr Wang)이 Quora에서 함께 일했던 루시 구오(Lucy Guo)와 설립했다. 초기에는 챗봇을 만들었으나 고품질 데이터의 부재로 인해 성능 향상에 어려움을 겪자, API를 통해 직접 학습용 데이터 라벨링 사업을 제공하는 것으로 방향을 바꾸게 된다.

설립 초기부터 Scale AI는 자율주행 차량 개발사들을 타깃으로 삼았다. 자율주행은 도로 상황, 차량, 보행자, 교통 신호 등을 실시간으로 인식해야 하는 복잡한 컴퓨터 비전 기술이 필요했고, 이를 위해서는 방대한 양의 정밀하게 라벨링된 이미지 데이터가 필수적이었다. Scale AI는 이 수요를 정확히 포착했다.

자사 아웃소싱 전용 에이전시인 리모테스크(Remotasks)를 설립하여, 평균 임금이 낮은 아프리카, 동남아시아, 라틴아메리카 등지에서 수십만 명의 데이터 라벨러들을 모집한 뒤 수작업을 진행하게 되었다. 이러한 글로벌 인력 네트워크와 자동화 도구의 결합은 Scale AI가 경쟁에서 우위를 점할 수 있게 해주었다.

2019년 투자를 통해 1억 달러 자금을 조달하면서 유니콘 기업에 등극했다. 그 이후 Scale AI는 급성장을 거듭했다. 2024년 5월에는 10억 달러의 신규 투자를 유치하며 기업 가치가 140억 달러로 평가받았다. 2024년 매출은 약 8억 7천만 달러에 달했다. 2025년에는 메타 플랫폼즈(Meta Platforms)가 143억 달러를 투자해 지분 49%를 인수했다. 이는 Scale AI가 단순한 스타트업을 넘어 AI 생태계의 필수 인프라로 자리잡았음을 보여주는 상징적인 사건이었다.

3. Scale AI의 핵심 경쟁력

3.1 고품질 데이터 생산 능력을 보장하는 기술‑인력 결합 플랫폼

Scale AI는 자동화된 annotation 도구와 글로벌 인력을 결합한 플랫폼을 운영하며, 사람과 소프트웨어(tool)를 결합한 방식(human-in-the-loop)으로 데이터를 가공한다. 이를 통해 이미지, 텍스트, 오디오, 영상, 3D 등 다양한 형태의 데이터를 대규모로 처리할 수 있다.

이를 통해 기업들은 자체적으로 라벨링 팀을 구축하지 않아도 안정적이고 고품질의 학습 데이터를 확보할 수 있다. Scale AI의 강점은 단순히 데이터 생산량에 있는 것이 아니라, 복잡하고 다양한 multi-modal 데이터를 정밀하게 가공하고, annotation 후 검증(evaluation)까지 수행할 수 있는 전문성에 있다.

Human-in-the-loop 방식은 완전한 자동화나 완전한 수작업 모두의 한계를 극복한다. AI 도구가 초벌 라벨링을 수행하면, 사람이 이를 검증하고 수정한다. 이 과정에서 인간의 판단력과 기계의 효율성이 결합되어, 높은 정확도와 빠른 처리 속도를 동시에 달성할 수 있다.

3.2 복잡한 AI 데이터 처리 및 모델 평가 전문성

최근 Scale AI는 단순한 데이터 가공을 넘어, AI 모델 자체의 안전성과 성능을 평가하고 인간의 의도에 맞게 정렬(alignment)하는 서비스로 사업 영역을 확장했다.

예를 들어 Scale Evaluation 플랫폼을 통해 대형 언어 모델(LLM)을 벤치마크하고 약점을 파악하여 개선 방향을 제시함으로써, AI가 사회에 실제 배치되기 전에 모델의 안전성과 윤리적 문제를 관리할 수 있다. 이러한 기능은 생성형 AI 개발사들이 RLHF(Reinforcement Learning from Human Feedback) 데이터를 확보하고 모델을 파인튜닝할 때 중요한 역할을 한다.

RLHF는 현대 생성형 AI의 핵심 기술이다. ChatGPT와 같은 모델이 단순히 텍스트를 생성하는 것을 넘어 인간의 선호와 의도에 맞는 답변을 제공할 수 있는 이유는 바로 RLHF 덕분이다. Scale AI는 인간 평가자들로부터 대규모 피드백 데이터를 수집하고, 이를 통해 AI 모델이 "더 좋은 답변"과 "덜 좋은 답변"을 구별하도록 학습시킨다.

Scale AI의 RLHF 서비스는 주요 LLM 개발사들과 파트너십을 맺고 있으며 이들 모델의 성능 향상에 직접 기여했다. 단순한 데이터 라벨링을 넘어 AI의 “정렬(alignment)” 문제를 다룬다는 점에서, Scale AI는 AI 윤리와 안전성 분야에서도 중요한 역할을 수행하고 있다.

3.3 초기 시장 선점과 전략적 파트너십을 통한 인프라 지위 확보

Scale AI는 설립 초기부터 전략적 파트너십을 통해 시장을 선점하며 AI 데이터 인프라로 자리 잡았다. 미국 국방부(DoD)와의 계약을 포함해 주요 기업과 협력함으로써, 산업 전반에서 필수적인 데이터 공급망 역할을 수행하고 있다.

미국 국방부와의 관계는 특히 주목할 만하다. 2022년 1월, Scale AI는 국방부로부터 2억 5천만 달러 규모의 계약을 수주했다. 2025년 8월에는 육군 연구개발(Army R&D) 분야에서 9,900만 달러 규모의 추가 계약을 체결했다. 2025년 9월에는 국방부 최고 디지털 및 AI 책임자(CDAO) 사무소와 5년간 최대 1억 달러 규모의 기업 계약을 맺었다. 이 계약을 통해 Scale AI는 최고 기밀(Top Secret) 네트워크에 AI 기능을 배치할 수 있게 되었다.

이러한 정부 계약은 단순히 매출 확보를 넘어 Scale AI의 기술적 신뢰성과 보안 역량을 입증하는 중요한 지표가 된다. 국방 분야는 데이터 보안과 정확성이 가장 엄격하게 요구되는 영역이며, Scale AI가 이 분야에서 선택받았다는 것은 기업의 기술력을 증명하는 강력한 레퍼런스가 된다.

민간 부문에서도 Scale AI는 자율주행 차량 개발사들, 주요 AI 연구소, 그리고 TIME지와 같은 미디어 기업과도 파트너십을 맺고 있다. TIME과의 협력에서는 생성형 AI를 활용한 다국어 콘텐츠 번역 서비스를 제공하며, 전통 미디어의 AI 전환을 지원하고 있다.

이처럼 고품질 데이터 생산 능력, 전문적 데이터 처리 및 평가 역량, 전략적 시장 지위 확보라는 세 가지 요소가 결합되어 Scale AI의 핵심 경쟁력을 구성한다.

4. 데이터 어노테이션의 이해

데이터 어노테이션(Data annotation)은 기계가 데이터를 정확하게 해석할 수 있도록 데이터세트에 태그를 다는 과정이다. 데이터는 AI 개발의 근간이 되는 요소로, 특히 자연어 처리 분야의 모델을 훈련시키려면 대량의 어노테이션된 데이터가 필요하다. 데이터를 정확하게 레이블링할수록 머신러닝 모델은 복잡한 작업을 더 높은 정밀도로 수행할 수 있다.

4.1 이미지 데이터 어노테이션 유형

이미지 분류(Image Classification)는 이미지 전체를 보고 하나의 label을 붙이는 작업이다. 예를 들어 강아지 사진을 보고 "강아지"라는 라벨을 붙이는 것이다. 가장 기본적인 형태의 어노테이션으로, 이미지 전체의 주제나 카테고리를 파악하는 데 사용된다.

의미론적 분할(Semantic Segmentation)은 이미지의 모든 픽셀을 빠짐없이 분류하는 작업이다. 이미지 분류보다 더 세부적인 방식으로 한 이미지 안에서 나무 픽셀, 사람 픽셀, 차 픽셀 등 세밀하게 인식시키는 작업이다. 자율주행과 같이 정밀한 인식이 필요할 때 많이 사용된다. 예를 들어, 자율주행 차량이 도로를 인식할 때 어디까지가 도로이고, 어디부터가 인도인지, 어디에 차선이 있는지를 픽셀 단위로 정확히 구분해야 안전한 주행이 가능하다.

바운딩 박스(Bounding Box)는 이미지 속에 있는 객체 주변에 네모 박스를 그려주는 작업이다. 객체 위치를 빠르게 알려주는 방식으로, 가장 많이 사용된다. 예를 들어 사진 속의 자동차, 사람, 자전거 등 각각의 객체를 직사각형으로 감싸서 "이 영역에 자동차가 있다"고 표시하는 것이다. 속도가 빠르고 간단해서 객체 탐지(object detection) 모델 학습에 광범위하게 사용된다.

3D 큐보이드(3D Cuboid)는 바운딩 박스의 발전된 방식이다. 가로, 세로, 높이까지 포함한 3D 상자를 씌워서 객체를 입체적으로 인식하는 작업이다. 자율주행 차량이 다른 차량과의 거리, 물체의 실제 크기와 위치를 3차원으로 파악해야 할 때 필수적이다.

다각형 어노테이션(Polygon Annotation)은 네모 박스로 정확하게 잡기 어려운 불규칙한 형태를 레이블링할 때 사용한다. 예를 들어 사람의 윤곽, 구불구불한 도로, 불규칙한 형태의 건물 등을 정밀하게 따라 선을 그어서 표시한다. 바운딩 박스보다 정확하지만 작업 시간이 더 오래 걸린다.

키포인트 어노테이션(Keypoint Annotation)은 객체의 특정 지점을 찍는 방식이다. 예를 들어 사람의 얼굴에서 눈, 코, 입 위치를 찾거나, 인간의 동작을 분석할 때 팔꿈치, 무릎, 발목 등 위치를 찍는 방식이다. 얼굴 인식, 동작 분석 등에 활용된다.

4.2 텍스트 및 멀티모달 어노테이션

이미지 외에도 텍스트, 오디오, 비디오 데이터의 어노테이션도 중요하다.

텍스트 어노테이션은 자연어 처리(NLP) 모델 학습에 필수적이다. 개체명 인식(Named Entity Recognition)은 텍스트에서 사람 이름, 장소, 조직, 날짜 등을 식별하는 작업이다. 감정 분석(Sentiment Analysis)을 위해서는 텍스트가 긍정적인지, 부정적인지, 중립적인지를 표시한다. 의도 분류(Intent Classification)는 사용자의 질문이나 명령의 의도를 파악하여 라벨링한다.

오디오 어노테이션은 음성 인식, 화자 분리, 감정 인식 등에 사용된다. 오디오 파일에서 음성을 텍스트로 변환하고(transcription), 여러 화자를 구분하며, 배경 소음과 음성을 분리하는 작업 등이 포함된다.

비디오 어노테이션은 프레임별 객체 추적, 행동 인식, 이벤트 탐지 등을 포함한다. 비디오는 시간의 흐름에 따라 변화하는 데이터이므로, 단순히 한 프레임만 라벨링하는 것이 아니라 연속된 프레임에서 객체의 움직임과 변화를 추적해야 한다.

5. Scale AI의 주요 산업 응용 분야

5.1 자율주행 차량

자율주행은 Scale AI가 초기부터 집중한 분야다. 자율주행 차량은 도로 환경을 실시간으로 인식하고 안전하게 주행 판단을 내려야 하므로, 방대한 양의 정밀한 라벨링 데이터가 필요하다.

자율주행 차량의 카메라와 센서는 매 순간 수많은 이미지와 센서 데이터를 수집한다. 이 데이터에서 차량, 보행자, 자전거, 교통 신호, 차선, 도로 표지판 등을 정확히 인식하려면, 수백만 장의 이미지에 바운딩 박스, 의미론적 분할, 3D 큐보이드 등의 정밀한 어노테이션이 필요하다.

Scale AI는 자율주행 업계의 주요 기업들과 협력하고 있다. Waymo, GM Cruise 등 자율주행 개발사들은 Scale AI의 데이터 라벨링 서비스를 활용하여 자율주행 알고리즘을 개선하고 있다.

5.2 생성형 AI 및 대형 언어 모델(LLM)

생성형 AI의 등장은 Scale AI에 새로운 성장 동력을 제공했다. ChatGPT, Claude, Gemini 등 대형 언어 모델은 방대한 텍스트 데이터로 사전 학습된 후, 인간의 피드백을 통해 정렬(alignment) 과정을 거친다. 이 정렬 과정에서 Scale AI의 RLHF 서비스가 핵심 역할을 한다.

Scale AI는 OpenAI(메타 투자 전), Anthropic, Cohere, Meta 등 주요 AI 연구소와 협력하여 LLM의 성능 향상을 지원해왔다. 인간 평가자들이 AI 모델의 다양한 응답을 비교 평가하고, 어떤 응답이 더 유용하고 안전한지 판단하는 데이터를 생성한다. 이 데이터를 통해 AI 모델은 인간의 선호에 더 부합하는 방향으로 학습된다.

5.3 헬스케어 및 의료 영상

의료 분야에서도 AI의 활용이 급증하고 있으며, Scale AI는 의료 영상 분석을 위한 데이터 라벨링 서비스를 제공한다. X-ray, CT, MRI 등 의료 영상에서 종양, 병변, 이상 조직을 식별하고 표시하는 작업은 고도의 전문성이 요구된다.

하버드 의과대학(Harvard Medical School)과의 협력 사례에서 볼 수 있듯이, Scale AI는 의료 전문가들과 협력하여 정밀한 의료 영상 어노테이션을 제공한다. 이를 통해 AI 모델이 질병을 조기에 발견하고, 진단의 정확성을 높이며, 의료진의 업무 부담을 줄일 수 있다.

5.4 국방 및 보안

앞서 언급했듯이, Scale AI는 미국 국방부, 육군, 정보기관과 다수의 계약을 체결했다. 국방 분야에서 AI는 정찰, 감시, 위협 탐지, 전술 계획 등 다양한 용도로 활용된다.

Scale AI는 최고 기밀(Top Secret) 네트워크에 AI 기능을 배치할 수 있는 역량을 갖추고 있으며, 군사 작전 계획과 의사결정을 지원하는 AI 에이전트 개발에도 참여하고 있다. 이는 AI 기술이 국가 안보에도 중요한 역할을 하고 있음을 보여준다.

5.5 소매, 로보틱스, AR/VR 등

자율주행과 생성형 AI 외에도, Scale AI는 다양한 산업 분야에서 활용되고 있다. 소매 업계에서는 상품 인식, 재고 관리, 고객 행동 분석을 위한 컴퓨터 비전 AI에 데이터를 제공한다. 로보틱스 분야에서는 로봇이 환경을 인식하고 물체를 조작할 수 있도록 학습 데이터를 제공한다. AR/VR 분야에서는 3D 공간 인식과 객체 인식을 위한 데이터 라벨링이 필요하다.

6. 윤리적·사회적 쟁점

Scale AI의 성공 이면에는 중요한 윤리적, 사회적 쟁점들이 존재한다.

6.1 저임금 노동과 노동 착취 논란

Scale AI의 비즈니스 모델은 아프리카, 동남아시아, 라틴아메리카 등 저임금 국가의 노동력에 크게 의존한다. Remotasks를 통해 고용된 수십만 명의 라벨러들은 시간당 평균 2달러 정도의 낮은 임금을 받는 것으로 알려졌다.

이들은 종종 하루 18-20시간의 장시간 노동에 시달리며, 불안정한 고용 상태(긱 워크)에 놓여 있다. 노동 보호 규정이 약한 국가들에서 일하기 때문에 법적 보호도 제한적이다. 특히 콘텐츠 모더레이션 작업(폭력적, 성적, 혐오적 콘텐츠를 식별하고 분류하는 작업)을 하는 라벨러들은 정신적 트라우마를 겪기도 한다.

비평가들은 이를 “디지털 착취” 또는 "AI 콜로니얼리즘"이라고 비판한다. 선진국의 AI 기업들이 개발도상국의 저렴한 노동력을 활용하여 막대한 이익을 창출하지만, 실제 데이터 생산을 담당하는 노동자들은 정당한 보상을 받지 못하고 열악한 조건에서 일한다는 것이다.

6.2 데이터 편향과 AI 윤리

데이터 라벨링의 품질은 AI 모델의 편향성에 직접적인 영향을 미친다. 라벨러들의 문화적 배경, 개인적 편견, 불충분한 교육 등은 라벨링 데이터에 편향을 유입시킬 수 있다.

예를 들어, 특정 인종이나 성별에 대한 고정관념이 데이터에 반영되면, AI 모델도 그러한 편향을 학습하게 된다. 얼굴 인식 AI가 특정 인종의 얼굴을 잘 인식하지 못하거나, 채용 AI가 성별에 따라 차별적인 판단을 내리는 문제 등이 데이터 편향에서 비롯되는 경우가 많다.

Scale AI는 이러한 문제를 인식하고 편향 완화를 위한 노력을 기울이고 있다고 밝히지만, 구조적인 문제 해결에는 여전히 과제가 남아 있다.

6.3 개인정보 보호와 데이터 보안

데이터 라벨링 과정에서 민감한 개인정보가 노출될 위험이 있다. 의료 영상, 감시 카메라 영상, 개인의 음성 및 텍스트 데이터 등은 개인을 식별할 수 있는 정보를 포함하는 경우가 많다.

Scale AI는 데이터 보안과 개인정보 보호를 위한 엄격한 프로토콜을 운영한다고 밝히지만, 글로벌 분산 네트워크를 통해 작업이 이루어지는 특성상 완벽한 통제는 어렵다. 데이터 유출이나 오용의 위험은 항상 존재한다.

6.4 일자리 변화와 자동화의 역설

AI 산업은 새로운 일자리를 창출하지만, 동시에 기존 일자리를 위협한다. 아이러니하게도, AI를 학습시키는 데이터 라벨링 작업 자체도 점차 자동화되고 있다.

Scale AI를 포함한 데이터 라벨링 기업들은 AI 기술을 활용하여 라벨링 과정을 자동화하고 있으며, 이는 장기적으로 인간 라벨러의 일자리를 감소시킬 수 있다. 현재는 human-in-the-loop 방식이 주류지만, 기술이 발전하면서 인간의 개입이 점차 줄어들 가능성이 크다.

7. 결론: AI 시대의 필수 인프라, 그러나 과제는 남아있다

Scale AI는 현대 AI 혁명의 숨은 주역이다. 화려한 AI 모델과 서비스 뒤에는 수백만, 수천만 건의 정밀하게 라벨링된 데이터가 있으며, Scale AI는 바로 그 데이터를 생산하는 핵심 인프라다. 자율주행 차량이 안전하게 도로를 주행하고, ChatGPT가 인간다운 대화를 나누며, 의료 AI가 질병을 조기 발견하는 모든 기술적 성취 뒤에는 Scale AI와 같은 데이터 인프라 기업의 역할이 있다. 이 기업의 성공은 AI 시대에 데이터가 얼마나 중요한 자산인지를 명확히 보여준다.

그러나 동시에 Scale AI는 AI 산업의 구조적 문제들을 상징하기도 한다. 저임금 국가 노동자들의 착취, 데이터 편향, 개인정보 침해 위험, 자동화로 인한 일자리 위협 등의 문제는 Scale AI만의 문제가 아니라 AI 산업 전체가 직면한 윤리적 과제다.

Scale AI가 지속 가능한 성장을 이어가고 AI 인프라의 리더로 남기 위해서는, 기술적 우수성만큼이나 윤리적 책임을 다하는 것이 중요하다. 라벨러들의 노동 환경 개선, 공정한 보상 체계 구축, 데이터 편향 완화, 투명성 제고 등은 선택이 아닌 필수다.

AI는 인류의 미래를 바꿀 강력한 기술이다. 그러나 그 기술이 진정으로 인류에게 이익이 되려면, 기술을 만드는 과정 자체가 공정하고 윤리적이어야 한다. Scale AI와 같은 기업들이 이러한 책임을 얼마나 진지하게 받아들이느냐가, AI 시대의 성공을 결정할 것이다.

출처

https://www.washingtonpost.com/world/2023/08/28/scale-ai-remotasks-philippines-artificial-intelligence/

https://fedscoop.com/scale-ai-awarded-250m-ai-contract-by-department-of-defense

Scale AI awarded $250M contract by Department of Defense

The startup in May hired former White House CTO and DOD undersecretary for research and engineering Michael Kratsios as managing director.

fedscoop.com

https://zdnet.co.kr/view/?no=20250307092122

美노동부, 스케일AI 노동 관행 조사…저임금·초과근무 논란 검토

미국 정부가 인공지능(AI) 데이터 라벨링 스타트업 스케일AI(Scale AI) 조사에 착수했다. 정부차원에서 본격적으로 AI산업의 노동 관행을 검토하기 위한 것으로 보인다.7일 테크크런치 등 외신에 따

zdnet.co.kr

https://scale.com

Accelerate the Development of AI Applications | Scale AI

Trusted by world class companies, Scale delivers high quality training data for AI applications such as self-driving cars, mapping, AR/VR, robotics, and more.

scale.com

'✍️ 에세이 > 결석에세이' 카테고리의 다른 글

결석에세이_김현서 (0)	2026.05.15
결석에세이_ 유혜인 (0)	2026.04.13
결석에세이_한태희 (0)	2025.07.10
[결석에세이_배나현] 딥러닝을 통한 비트코인 가격 예측 (2)	2025.06.04
결석에세이_주영서 (0)	2025.04.04

현재글결석에세이_신정연

✨ Data Shows the wOrld Better ✨ DSOB은 데이터를 통해 세상의 숨겨진 인사이트를 발견하고, 이를 이해하며, 문제를 해결하고자 하는 열정을 가진 사람들과 함께합니다.

randomforest, classification, 3차시, 당근 테크블로그, 4차시, 데이터사이언스 #분류 #분류모델 #dacon, 1차시과제, 김수경, 데이터분석, dacon, dsob, Python, DSOB #Python #자료형, 함수, DSOB #파이썬 #입출력, 3팀, 코딩천재, 반복문, DSOB #python #조건문, 김경은,

DSOB