Flitto, 말뭉치 없는 자동번역은 위험해

Flitto의 말뭉치 없는 자동번역은 위험해

점점 자동번역이 보편화되고 있지만, 그럴수록 높은 품질로, 오류 없이 작성된 언어간 번역의 쌍, 말뭉치의 중요성은 오히려 높아지고 있다.

더 높은 정확도로 빠른 시간 안에 번역 서비스를 제공하기 위해 필요한 것이 정확하게 정의된 표준에 따라 작성된 말뭉치이다.

기계와 알고리즘에만 의존하게 되면 위와 같이 맥락에 맞지 않는 결과물을 얻게 된다.
우리야 웃어넘길 수 있지만 더 정확한 의미 전달이 필요할수록, 그리고 신뢰하고 사용할 필요성이 클수록 ‘사람이 맥락을 정확히 정의해놓은 데이터’의 중요성이 더욱 커진다.

Flitto는 그런 정확한 데이터를 파는 기업이다.
이 BM이 정확히 어떤 가치를 발생시키며, 다른 기업이 진입하기 힘든 이유를 파악하는 것이 투자의 전제가 된다는 점에서 지금 작성하는 Flitto에 대한 최초 분석 글의 많은 부분은 정확한 BM을 이해하는데 할애하려고 한다.

Table of Contents

Flitto의 매출

세부 매출 비중

플리토의 매출은 크게
1) AI 학습용 언어 데이터 판매,
2) 플랫폼 서비스,
3) AI 통·번역 솔루션
세 부문으로 나뉜다.

매출의 약 3/4을 차지하는 데이터 판매 사업은 Flitto가 집단지성을 활용해 수집·가공한 다국어 병렬 말뭉치(언어쌍 데이터)를 글로벌 기업 등에 판매하는 사업 모델이다.

플랫폼 서비스플리토의 번역 앱/웹 플랫폼에서 발생하는 매출로,
개인 사용자들의 번역 의뢰나 콘텐츠 이용 등에 따른 수익이며 약 15~25% 비중을 차지한다.

AI 솔루션 부문은 플리토가 자체 개발한 실시간 통·번역 엔진을 이벤트 행사나 기업 고객에 제공하여 올리는 매출로, 최근 수년간 새롭게 성장한 분야이며 약 5~8% 수준이다.

매출 단위

“기업 고객들이 더 큰 규모의 데이터를 발주했다”는 말은 고객사들이 AI 학습용 언어 데이터의 주문량을 늘렸다는 의미다.
처음에는 소규모 데이터 샘플을 제공받은 고객이 결과에 만족하여 점차 더 많은 양의 말뭉치(언어 데이터 세트)를 요구하게 되었다는 것이다.

한 글로벌 IT 기업(A사)은 초기에 Flitto로부터 소규모 번역 말뭉치를 받아본 뒤 만족하여 이후 계약 규모를 54억 원, 67억 원, 42억 원으로 계속 확대하며 추가 발주를 했다.
여기서 발주 혹은 판매의 “단위”는 특정 프로젝트별 데이터 양으로 보면 된다.
즉 몇 문장이나 단어 등 말뭉치의 분량을 단위로 계약하는 것이 일반적이며,
이를 금액으로 환산하여 계약 규모를 결정한다.

기업 입장에서는 필요한 언어쌍의 문장쌍 데이터를 수십만~수백만 문장 등 분량으로 발주하며, 플리토 같은 업체는 그에 맞춰 데이터를 수집·가공해 납품한다.
계약된 데이터는 그 프로젝트 범위 내에서 일회성으로 제공되지만,
만족한 고객은 이후 더 큰 용량이나 추가 언어의 데이터를 추가 발주하게 되어 계약 규모가 커진 것이다.

그리고 시점이 경과하게 되면 사용하는 언어, 문체가 변하기 때문에 동일한 카테고리에 해당되는 언어쌍도 업데이트가 필요하게 되며, 그러한 수요에 기반하여 반복 매출이 발생하게 된다.

언어쌍 데이터의 품질

AI 학습용 언어 말뭉치에도 품질의 차이가 존재한다.
데이터의 출처와 정제 수준, 그리고 추가 가공 여부에 따라 저품질과 고품질로 나눌 수 있다.

초기에는 단순 수집 및 정제만 거친 비교적 기본적인 병렬 말뭉치를 제공했다면,
최근에는 레이블링(Labeling) 등 추가 정보가 붙은 고품질 언어 데이터를 요구하는 추세다.

플리토 경영진은 “초기에는 단순 데이터 수집·정제에 그쳤으나 최근에는 레이블링 등이 적용된 고품질 언어 데이터를 요구하고 있다”고 밝혔다.

여기서 고품질이란 문장이 문법적으로 정확하고 오탈자나 번역 오류가 없으며,
필요하다면 문장별 메타정보나 도메인 태그(레이블)가 붙은 데이터
를 말한다.
기업들은 AI 모델 성능 향상을 위해 이런 정교하게 가공된 말뭉치를 선호하며,
품질에 따라 데이터도 등급화된다.

고품질 병렬 코퍼스(말뭉치)는 기계번역 성능 향상에 매우 중요하다는 연구 결과도 있다.
플리토도 수요 변화에 맞춰 특정 분야(도메인)별 전문 용어가 포함된 데이터셋을 전문 인력 검수를 거쳐 구축하는 등 데이터 품질을 높이는 방향으로 가공하여 서비스를 고도화하고 있다.

최근 5년 매출 추이

’18년 매출 35억원에 불과하던 플리토는 사업모델 특례상장 이후 일시적인 부진(’19년 매출 20억원)을 겪었으나, 이후 매출이 가파르게 증가했다.

특히 ’20년부터 AI 학습용 데이터 수요가 폭발하면서 ’22년 178억원, ’23년에는 203억원으로 창사 이래 최고 매출을 기록했고, ‘25.3Q 누적 매출만 258억원으로 전년 대비 75% 급증하여 폭발적 성장세를 이어가고 있다.
매출 급성장과 함께 ’24년 첫 연간 흑자를 달성했고, ’25년에도 분기 연속 흑자를 이어가고 있다.

데이터 판매 부문은 최근 5년 성장을 주도했다.
’19년 매출의 76%였던 데이터 판매 비중은 지속적으로 75% 안팎을 유지하며 성장을 견인했다.
23년 매출 203억 중 약 150억 원 이상이 데이터 판매에서 발생했고,
’25년 상반기에도 매출 139억 중 75%가 데이터 판매였다.

플랫폼 서비스 매출도 사용자층 확대로 절대액은 증가했으나 데이터 사업 급성장에 비해 완만한 성장률을 보여 비중이 감소했다.(’18년 24% → ’25.상반기 17.7%) 수준으로 낮아졌다.

AI 통·번역 솔루션은 ’21년 시작되어 ’23년 약 6%(10억원 수준)으로 성장했고,
최근 출시한 챗 트랜스레이션(Chat Translation) 등의 기여로 빠른 성장세를 보여,
’25년에는 대형 국제행사 공급 등으로 분기 매출 20억 원대까지 증가했다.

매출 증가 요인 : 고객 수 vs ARPU

데이터 판매 부문의 고성장은 기존 거래처의 주문 확대(고객당 매출 증가)와 신규 고객 확보가 모두 기여했다.

플리토는 애플, 메타 등 해외 빅테크로부터 처음에는 소규모 샘플 공급을 시작했으나 만족한 고객이 갈수록 더 큰 규모의 데이터를 발주하여 단일 고객 매출이 누적 164억원에 달할 만큼 거래 규모가 커졌다.

이처럼 주요 고객당 매출(ARPU)이 크게 상승한 것도 데이터 사업 성장의 원인이지만,
동시에 ’23~’25년 사이 신규 글로벌 IT기업들과도 잇따라 계약을 체결(예: ‘23.3월 67억원, 10월 42억원 수주)하며 고객 풀 자체도 확대되었다.

플랫폼 서비스의 경우 불특정 다수 소비자를 대상으로 하는 만큼 이용자 수와 사용량 증가가 매출 증대의 핵심이었다.
플리토는 전세계 1,400만 가입자 기반을 확보하고 있으며, 그중 적극적인 참여자 증가와 콘텐츠 이용 확대로 플랫폼 매출이 늘었다.
개인 이용자 플랫폼에서는 ARPU 개념이 크지 않고 소액 결제나 광고 등 수익모델이기 때문에, 전체 이용자 규모 확대가 매출 증대로 직결되었다.

솔루션 사업은 초기에는 국내외 몇몇 행사를 대상으로 시작했으나 ’23년 부산 BIFF 포럼, APEC 등 공급처가 다양화되었다([i-point]플리토, 3분기 어닝 서프라이즈… 매출·이익 ‘껑충’)
솔루션 고객 수가 늘어난 것이 매출 성장 요인이 되었다.
하지만 동시에 행사 당 계약금액(ARPU)도 대형 행사일수록 커져 평균 단가도 상승했다.

플리토 경영진도 고품질 데이터 수요 증가로 평균 판매단가(ASP)가 높아지고 있다고 밝혔는데, 이는 같은 고객이라도 예전보다 더 고가의 정제 데이터셋을 요구하게 되고 있음을 의미한다.

Flitto의 사업모델

Flitto는 ’12년 설립되어 AI 언어 데이터 및 번역 서비스를 제공하는데,
다수의 사용자 참여를 통해 다국어 데이터를 수집·가공하는 플랫폼을 운영한다.
처음에는 크라우드소싱 번역 앱으로 출발하여, 이용자들이 올린 번역 요청을 다른 이용자들이 포인트를 받고 번역해주는 커뮤니티형 서비스로 성장했다.

Flitto는 현재 “AI 시대의 원유”로 불리는 언어 데이터를 수집부터 검수·정제까지 자체 플랫폼 기반 파이프라인으로 처리하여 낮은 비용에 고품질 데이터를 공급하고 있다.
1,400만 명의 글로벌 이용자가 참여하는 생태계를 통해 텍스트·음성·이미지 데이터를 연계 수집하며, 이러한 구조는 외부 하청에 의존하는 경쟁사 대비 진입장벽으로 작용하고 있다.

Flitto의 번역 데이터는 다수 사용자의 검수(좋음/나쁨 투표)를 거쳐 99.8%의 정확도를 달성하여, 경쟁사들의 정확도 90~98%를 상회한다.
또한, 한국어, 몽골어, 아프리카계 언어 등 저자원 언어 분야의 방대한 데이터를 확보하고 있어, 호주의 Appen 등 대비 아시아 언어 데이터에서 우위를 점하고 있다.

현재는 이렇게 플랫폼에서 생성된 방대한 번역 데이터(텍스트, 음성, 이미지)를 바탕으로 AI 학습용 언어 말뭉치(corpus)를 구축하여 기업들에게 판매하는 것이 주요 수익원이다.
’17년 매출의 80%가 축적된 언어 데이터를 판매한 데서 나왔으며, Microsoft, Tencent, Baidu, NTT DoCoMo 등 글로벌 기업들이 Flitto의 말뭉치를 구매해 자체 기계번역 엔진 훈련에 활용했다.
Flitto 데이터는 슬랭, 대중문화 용어, 방언 등 기존에 얻기 어려운 고품질 번역쌍을 포함하고 있어 경쟁력이 높다고 평가된다.

경쟁사

Flitto와 유사한 비즈니스 모델을 가진 글로벌 기업으로는 Appen처럼 AI 데이터 전문 기업, Rozetta/Conyac처럼 크라우드 번역 기반 데이터 판매 기업,
Unbabel·Lilt처럼 인간+AI 병행 번역 플랫폼 등이 있다.
Flitto는 이들 가운데서도 저자원 언어크라우드 플랫폼 통합 운용이라는 차별점으로 고품질 데이터를 낮은 비용에 생산하는 역량이 높다.

반면 글로벌 빅테크들은 자체 인프라로 데이터를 확보하거나 서비스 자체로 수익을 내는 경우가 많아, 데이터 판매를 주 사업으로 삼는 Flitto와 직접적 경쟁은 적지만 대체재를 내재화할 잠재력을 가졌다.

결국 Flitto의 경쟁우위는 “자사가 구축한 방대한 다국어 코퍼스를 필요로 하는 기업은 많지만, 이를 자체적으로 모으기 어려운 경우가 많다”는 수요-공급의 틈새에서 형성되어 있다.

Appen (호주)

시드니 증시에 상장된 Appen은 텍스트, 음성, 이미지, 영상 등 대규모 주석 데이터(annotation)를 제공하는 글로벌 선도 기업이다.

데이터 어노테이션이란?(feat. GPT)

**데이터 어노테이션(Data Annotation)**은 데이터 라벨링과 거의 같은 의미로 쓰입니다. **어노테이션(annotation)**이란 “주석을 달다”라는 뜻으로, 원본 데이터(텍스트, 이미지, 음성 등)에 사람이 해석한 정보를 덧붙여주는 작업을 가리킵니다. 예를 들어 텍스트 문장에 정답 번역을 달아 병렬 말뭉치를 만들거나, 이미지 속 객체들에 테두리를 그려 이름을 붙이는 작업, 음성 녹음 파일에 그 내용을 문자로 작성하는 작업 등이 모두 데이터 어노테이션입니다. 이러한 어노테이션을 통해 AI 모델이 무엇이 정답이고 어떤 패턴을 학습해야 하는지 알 수 있게 되므로, 데이터 어노테이션은 AI 학습의 필수 토대 서비스라 할 수 있습니다appen.com. AI는 학습 데이터의 품질과 양에 성능이 좌우되기 때문에, 양질의 어노테이션 서비스는 AI 모델의 성공에 결정적 가치를 제공합니다appen.com. 흔히 “AI 시대의 원유는 데이터”라고 하는데, 그 원유를 정제해서 깨끗한 연료로 만드는 과정이 바로 데이터 어노테이션인 셈입니다.

서비스 제공 방식은 주로 B2B(기업 대상 프로젝트) 형태입니다. 데이터 어노테이션 전문 기업들은 의뢰한 기업(예: AI 개발사)이 필요로 하는 데이터를 정의한 후, 다수의 인력을 투입해 해당 데이터를 수집·가공하여 납품합니다. 이때 인력은 회사의 전담 직원일 수도 있지만, 대규모 크라우드소싱 플랫폼을 통해 전세계 프리랜서 혹은 아르바이트 인력을 모아서 수행하는 경우가 많습니다appen.com. 예를 들어 Appen은 수백만 명 규모의 전세계 크라우드 라벨러 풀(pool)을 보유하고 있고, Flitto 역시 1,400만 명 이상 사용자가 참여하는 크라우드 번역/데이터 수집 플랫폼을 운영하고 있습니다flitto.medium.comdatalab.flitto.com. 이 플랫폼을 통해 필요한 언어, 조건의 데이터를 대량으로 수집하고 여러 단계의 검수로 품질을 높여 최종 데이터셋을 만들어 냅니다flitto.medium.com. 어노테이션 완료된 데이터는 디지털 파일 형태로 납품되며, 텍스트 말뭉치라면 평문 파일이나 CSV, JSON 등으로, 이미지라면 바운딩 박스 좌표 정보와 함께, 음성은 전사된 텍스트와 함께 전달하는 식입니다. 때로는 고객사의 시스템에 직접 업로드하거나 API를 통해 제공하기도 합니다.

가치 제공 측면에서, 데이터 어노테이션 서비스는 AI 모델의 정확도를 높여 개발 일정을 단축해주고, 기업이 자체적으로 하기 어려운 대량의 전문 라벨링 작업을 대신 수행해준다는 가치가 있습니다. 예를 들어 자체 직원으로 100만장의 이미지를 일일이 태깅하기는 불가능에 가깝지만, 전문 업체에 맡기면 체계적인 품질 관리 하에 단기간 내 완료할 수 있습니다appen.comappen.com. 또한 신뢰성 있는 라벨링을 통해 오류를 줄이고, AI의 편향을 완화하는 등 결과적으로 더 나은 AI 서비스를 만들 수 있게 해주는 핵심 밸류를 제공합니다. 요약하면, 데이터 어노테이션 업체는 데이터 준비 과정의 번거로움과 전문성 부족 문제를 해결해주는 파트너라고 볼 수 있습니다.

유통과 광고 방식은 전형적인 B2B 솔루션과 유사합니다. 이러한 기업들은 업계 행사나 네트워크를 통해 AI 개발 기업을 대상으로 마케팅을 하고, 자사 웹사이트나 브로셔를 통해 성공 사례(case study)와 품질 우수성을 홍보합니다. 예컨대 “자율주행 업체 A에 데이터 어노테이션을 제공하여 정확도를 N% 향상” 같은 사례를 공유하면서 신규 고객을 유치합니다. 또한 가격, 소요 시간, 지원 언어/도메인 등을 제안서 형태로 제공하여 기업 고객과 계약을 맺습니다. Appen이나 Flitto 모두 글로벌 지사를 설립하고, 웹사이트에 데이터 서비스 포트폴리오를 게시하며, 영업사원이 직접 고객사에 제안을 하는 등으로 시장에 서비스를 알리고 있습니다.

과금 방식프로젝트 단위로 견적을 내는 경우가 대부분입니다. 이는 데이터 종류와 난이도, 분량에 따라 천차만별이기 때문입니다. 일반적으로 **“데이터 포인트당 가격”**을 산정하여 계산합니다. 예를 들면 문장 1개를 이중 언어로 번역하여 검수까지 하는데 0.X달러 혹은 이미지 1장 당 라벨링에 X원 이런 식입니다. 때로는 **시간 기준(라벨러 작업 시간 기준 시급)**으로 비용을 책정하기도 합니다. 예를 들어 Appen 크라우드 작업자들에게는 프로젝트별로 시급 6~12달러 수준으로 비용을 책정하고, Appen은 이를 종합해 고객사에 청구하는 식입니다sweetoffee.tistory.com. 그러나 일반 공개 가격표가 정해져 있다기보다는, 고객의 요구사항(정확도 수준, 데이터 양, 납기 등)에 맞춰 맞춤형 견적을 내는 B2B 계약입니다. 고품질이 요구될수록 다단계 검수와 전문가 투입이 필요하므로 단가가 높아지고thelec.kr, 반대로 간단한 태깅 작업이면 비교적 낮은 단가로 대량 처리합니다. 이런 방식으로 어노테이션 서비스 제공업체는 프로젝트 완료 후 데이터 납품과 함께 대금을 받는 수익 구조입니다.

Appen은 외주 네트워크를 동원하여 AI 엔진 훈련용 언어자원 등 데이터를 수집·가공하며, Search 엔진 평가 등 컨텐츠 라벨링 서비스도 제공한다.

폭발적인 AI 수요에 힘입어 Appen의 매출은 ’17년 1.11억 AUD에서 ’18년 1.66억 AUD로 50% 이상 성장했고, 시가총액 10억 달러에 육박하기도 했다.
고객층은 구글, 마이크로소프트 등 빅테크부터 자율주행, 음성인식 개발사 등 광범위하며,
수익모델은 계약 기반의 데이터 수집·라벨링 용역이다.
Appen은 크라우드 외주 네트워크를 활용하지만, 품질 편차와 작업자 관리 이슈도 존재한다.
이에 최근 시장에서는 데이터 품질과 특화성 면에서 Appen 대안으로 Flitto 같은 플랫폼 기반 기업이 주목받고 있다.

Appen의 매출은 데이터 라벨링 서비스가 대부분을 차지하고 소규모의 플랫폼 툴 판매(클라우드 SaaS)가 존재한다는 점에서 플리토와 유사하다.
Appen은 ’15년 상장 이후 폭발적 성장세를 이어와 ’19년 매출 약 $4억(YoY +47%)을 달성했다.
성장 동력은 주력 고객군의 발주 확대로, 검색엔진 최적화 등 데이터 매출이 37% 증가하여 전체의 80% 수준이었다.
다만, 매출 성장의 상당 부분이 기존 거대 고객사들로부터 더 많은 주문(즉 고객당 매출 증가)에 의존했으며, ’17~’20년 Appen의 최대 매출처들이 AI 데이터 수요를 대폭 늘리며 회사 매출이 급증했으며, ’19년 기존 고객 프로젝트 확대 및 Figure Eight 인수를 통해 성장했다.

그러나 ‘21년 이후 성장세가 둔화되어 ’20년 약 6억 AUD 내외에서 정점에 달하고,
’21년 소폭 감소 후, ‘22년 5.59억 AUD(-8%), ‘23년 약 4.11억 AUD(-27%)로 급감했다.
매출 하락의 주요 원인주요 고객 예산 축소와 테크 업계 둔화로 인한 ARPU 하락이다.
특히 Appen 매출이 몇몇 빅테크에 편중되어 있었기 때문에 나타난 현상이다.
새로운 고객 확보 노력도 있었지만, 이미 글로벌 상위 테크기업 대부분을 고객으로 확보한 상황에서 추가로 매출을 크게 늘릴 만한 신규 고객군 발굴이 어려웠다.
소규모 신규 고객이 늘어도 절대 매출에서는 큰 비중을 차지하지 못했고,
거대 기존 고객의 발주 변동이 매출을 좌우했다.

결국 Appen의 초기 고성장은 소수 대형 고객의 프로젝트 수요 급증(ARPU 증가)에 기인했고,
최근 정체는 그들의 수요 감소로 인한 것이다.

Lionbridge AI (미국)

전통적인 대형 번역/로컬라이제이션 회사이지만,
최근 기계학습용 데이터 공급 사업을 강화했다.

’17년 이후 기존 번역으로 축적한 다국어 말뭉치와 인력풀을 기반으로 Machine Intelligence 부서를 신설하고 AI 훈련 데이터 서비스를 시작했다.

Lionbridge의 AI 데이터 부문은 이후 TELUS International에 인수되어 TELUS AI Data Solutions로 재편되었으며, Appen 등과 경쟁한다.
고객은 빅테크 및 자율주행 등이고, 제공방식은 번역사+크라우드 혼합으로 데이터 수집·라벨링을 수행하는 형태다.
Lionbridge의 강점은 기존 전세계 번역사 네트워크로 정제된 고품질 번역 데이터를 많이 보유했다는 점이며, 이를 내재화된 독자 데이터셋으로 활용한다는 점이 Flitto와 다르다.

Conyac (일본)

Conyac은 ’09년 시작된 일본의 번역 크라우드소싱 서비스로, Flitto와 유사하게 개인 간 번역 의뢰를 중개해왔으며, ’16년 일본 AI기업 Rozetta에 인수된 이후,
축적된 번역 말뭉치 데이터 판매를 새 비즈니스로 도입했다.

현재 Conyac/Rozetta는 번역 크라우드로 모은 텍스트 코퍼스를 비롯해 음성인식용 데이터, 챗봇 대화 데이터 등을 외부에 판매하고 있다.
Rozetta는 “’25년까지 완전 자동통역기를 개발한다”는 비전을 내세워, 자사 번역 플랫폼을 통한 코퍼스 구축을 수익화하고 있다.

고객은 일본 내 IT기업, 연구기관 등이며, 수익모델은 구축한 병렬 말뭉치를 필요에 따라 판매하는 형태다.
Flitto와 매우 유사한 전략으로, 크라우드 번역 → 데이터화 → 판매를 실행한 케이스다.
다만 일본어 중심이어서 글로벌 언어 커버리지는 Flitto가 더 넓다.

Unbabel (포르투갈/미국)

Unbabel은 2013년 포르투갈에서 창업하여 Y Combinator, 구글벤처스 등으로부터 누적 9천만 달러 이상을 투자받은 스타트업이다.
“AI + 인간 편집”이라는 하이브리드 접근으로, 기계번역으로 초안을 만든 뒤 다수의 프리랜서 편집자(50,000여 명 커뮤니티)가 교정하여 품질을 높이는 번역 플랫폼을 제공한다.

고객은 세일즈포스, Zendesk, Facebook기업 고객 지원(Customer Support) 분야가 많고, API로도 Unbabel의 번역을 불러쓸 수 있다.
수익모델은 건당 번역 서비스 요금 및 기업 소프트웨어 연동이고,
번역 결과 자체를 외부에 데이터 판매하지는 않는다.

다만 Unbabel은 운영 과정에서 방대한 다국어 교정 데이터를 내부 자산으로 축적하며, 맞춤 MT 엔진 개선에 활용한다.
Flitto와 비교하면, Unbabel은 데이터를 외부에 파는 대신 자체 번역서비스 품질개선에 쓰는 모델이다.
고객 측면에서도 Flitto는 AI 개발사 중심 (데이터 판매), Unbabel은 고객지원/콘텐츠 현업 중심 (번역 결과 제공)으로 차이가 있다.

Lilt (미국)

Lilt는 ’15년 전 구글 Translate 팀 출신들이 실리콘밸리에서 창업한 업체로,
인공지능 보조 번역(CAT) 도구를 제공하는 기업이다.
Lilt의 플랫폼은 문장을 번역사가 입력하면 실시간으로 다음 단어 제안을 하고, 수정할수록 맞춤형 엔진이 학습되어 점점 정확도가 높아지는 적응형 번역 기술을 특징으로 한다.

이를 통해 인간 번역사의 생산성을 3~5배 높인다고 주장하며,
기업 대상 번역 관리 솔루션으로 판매한다.

매출모델은 소프트웨어 구독 및 전문 번역 서비스이며, Lilt도 번역 과정에서 축적한 번역 메모리와 용어 데이터를 자체 AI 개선에 사용한다.
’20년까지 약 3,750만 달러 투자를 유치했고, SAP 등 대기업과 파트너십을 맺었다.
Flitto와 비교하면 Lilt 역시 데이터 판매가 주수익은 아니고, 번역 서비스형 비즈니스다.
다만 Lilt의 모형은 번역 중 생성되는 양질의 데이터를 고객별로 비공개 유지하며 맞춤 MT에 활용하는 것이므로, Flitto처럼 여러 고객에 동일 데이터셋 판매를 하지는 않는다.

빅테크

빅테크는 자체 서비스 강화를 위해 번역 기술을 활용하고 외부에 데이터를 판매하지는 않는다.
자체 번역 엔진 보유 빅테크들도 고품질 데이터 수요가 있으므로 Flitto의 잠재적 경쟁자이며 고객이다.

Google은 Google Translate라는 세계 최대 기계번역 서비스를 운영하며, 방대한 웹 크롤링으로 수집한 평행코퍼스자원봉사 번역 참여를 통해 데이터를 확보해왔다.
’14년 시작된 Google Translate Community에서는 수만 명의 사용자가 번역 검수와 새 번역 제안을 제공하여, 구글 번역 품질 향상과 저자원 언어 확장에 기여했다.
(이 프로그램은 2024년 봄에 종료되었으나, 그동안 44개 언어에서 최대 40% 품질 개선 효과를 거두었다)

또한 구글은 자사 검색 엔진에서 수집된 다국어 웹페이지들을 활용하고, 필요시 특정 언어에 대해 직접 번역 데이터를 제작하기도 한다.
’23년에는 115개의 저자원 언어에 대해 전문 번역사가 번역한 평행 데이터(SMOL 프로젝트)를 공개하는 등, 자체적으로 데이터를 구축하여 번역기를 개선했다.
구글은 막대한 크롤링 인덱스와 플랫폼 이용자 풀로 Flitto 없이도 데이터를 확보할 수 있어,
데이터 판매 시장에서는 Flitto의 고객이자 궁극적으로는 경쟁상대다.

Naver의 파파고는 한국의 Naver가 자사 검색 데이터를 기반으로 개발한 NMT 번역기다.
Papago는 한국어에 특화되어 자연스러운 번역으로 정평이 있으며,
Naver 검색 DB의 방대한 한-외국어 컨텐츠를 학습에 활용하는 것이 강점이다.

이처럼 검색엔진을 보유한 기업들은 내부 빅데이터 활용이 가능하여 Flitto와 모델이 다르지만, 고품질 번역 데이터 확보라는 측면에서는 방향을 같이한다.
한편 MicrosoftBaidu, Tencent 등은 자사 번역 시스템을 갖추었음에도 불구하고 외부 데이터 공급원을 활용하는 전략을 취해왔다.
실제로 Flitto는 MS, 바이두, 텐센트에 데이터를 판매한 바 있으며,
이러한 빅테크들은 특정 도메인이나 부족한 언어쌍에 대해 Flitto 같은 전문업체의 데이터를 수혈하여 번역엔진 한계를 보완하고 있다.
이는 곧 Flitto에게는 고객이자, 동시에 이들이 내부적으로 충분한 데이터를 쌓을 경우 경쟁위협이 될 수 있는 양면성이 있다.

경쟁 관계의 배타성 vs 보완성

언어 데이터, 번역 서비스 시장 특성상 경쟁사와 Flitto의 성장은 보완성이 강하다.

우선 여러 언어쌍 데이터 수요는 상호 대체되지 않고 독립적이다.
한 기업이 특정 언어쌍의 말뭉치를 많이 보유하고 시장을 선도하더라도,
다른 언어쌍에 대한 수요까지 없애지는 못한다.
예를 들어 한 업체가 영어-스페인어 병렬말뭉치를 장악해도,
영어-베트남어 같이 새로운 언어쌍 데이터에 대한 수요는 여전히 별도로 존재한다.
플리토가 저자원 언어 데이터에 강점이 있어도,
경쟁사들은 또 다른 언어 또는 도메인 특화 데이터를 공급하는 방식으로 공존하고 있다.

동일한 언어쌍에 대해서도 데이터의 질과 용도가 천차만별이라서 한 기업의 데이터가 다른 기업을 완전히 대체하기 어렵다.
실제 사례로, 구글이나 메타 같은 빅테크 기업들이 자체 번역 엔진과 방대한 데이터를 보유하고 있음에도 불구하고 플리토의 특화된 고품질 언어 데이터를 추가로 구매·채택한다.

플리토의 정밀한 병렬 데이터는 범용 번역기가 커버하지 못하는 고유명사, 전문 분야 표현 등의 한계를 보완하기 위해 사용되며, 경쟁사의 번역 품질을 향상시키는 보완재 역할을 한다.

또한 사용자도 복수의 번역 서비스나 데이터 소스를 병행 활용한다.
기업 고객은 기본 기계번역 엔진은 구글 것을 쓰면서도,
별도로 플리토의 전문 번역 플랫폼을 통해 부족한 언어쌍 데이터를 확보하기도 한다.

결국 한 시장에 한 업체만 있으면 충분하다기보다,
언어 종류와 활용 분야별로 여러 플레이어들이 각자의 강점을 살려 공존하는 구조다.
특정 분야에서 한 기업이 성공하면 해당 분야 번역 수요의 확대를 통해 더 전문적인 번역이나 다른 서비스에 대한 관심도 늘어나고, 타사의 데이터나 솔루션 수요도 함께 증가한다.
결론적으로 경쟁사의 매출과 성장은 플리토와 배타적이라기보다는 대체로 보완적인 관계다.
말뭉치(언어쌍) 자체의 특성도 언어별로 독립적인 자산이므로, 한 업체가 특정 말뭉치를 많이 확보한다고 해서 다른 말뭉치에 대한 필요성이 없어지지 않는다.

다만 동일한 좁은 분야에서 직접 경쟁하는 경우(예: 두 회사 모두 몽골어-영어 데이터만 취급 등)에는 한쪽이 시장을 거의 차지하면 다른 쪽 입지가 좁아질 수는 있다.
그러나 현재 플리토와 주요 경쟁사들은 각기 좀 다른 언어, 영역에 강점을 가져 완전한 대체재 관계에 놓여있지는 않다.

데이터 소유권

Flitto의 데이터 정책

플랫폼에서 수집·생성된 모든 언어 데이터의 저작권 및 소유권은 Flitto에 귀속된다.
이용자들이 Flitto에 제공한 번역 컨텐츠는 모두 회사가 자유롭게 활용·판매할 수 있는 자산으로 취급되고 있다.

Flitto의 ’19년 코스닥 상장 당시 증권신고서 및 관련 보도에 따르면 사용자가 웹과 앱을 통해 생산해내는 텍스트, 음성, 이미지 언어데이터는 모두 Flitto에 귀속된다고 명시되어 있다.

즉, 사용자들이 자발적으로 올린 번역 결과물이든, 참여형 미션으로 얻어진 대화 데이터든 일단 플랫폼에 축적되면 Flitto가 그 독점적 권리를 보유하게 되며,
원천 번역 데이터에 대해 완전한 배타적 지식재산권을 확보한다.
따라서 이용자들이 번역에 기여하면 포인트 등의 보상을 받을 뿐, 해당 번역 결과를 개별적으로 외부에 팔거나 할 권리는 없고 Flitto가 일괄 소유하여 상품화하는 구조다.

이러한 독점적 소유권을 바탕으로 Flitto는 데이터를 라이선스 형태로 고객사에 제공한다.
또한, Flitto가 데이터를 판매한다고 데이터의 소유권이 고객에게 이전되는 것이 아니다.
Flitto는 비독점적 라이선스로 데이터를 여러 곳에 공급하며 “한 번 구축한 말뭉치를 한 곳에 팔고 끝내지 않는다”는 One Source, Multi-Use 전략을 취하고 있다.

Flitto가 구축한 한국어-영어 100만 문장 말뭉치를 삼성전자에 판매했어도,
삼성만 사용하고 끝나는 것이 아니라 동일 말뭉치를 다른 기업에도 반복 판매함으로써 추가 수익을 창출할 수 있다.
경영진은 “누군가는 데이터를 하드웨어처럼 한 군데 팔면 없어지는 걸로 여기는데, 말뭉치는 무형자산이라 여러 고객에 재사용된다”고 언급하여 데이터가 소프트웨어나 저작권에 가까운 무형 자산으로, 한 번 제작되면 무한 복제가 가능하고 여러 번 활용될 수 있다는 점을 강조했다.

또한 계약 방식 면에서, Flitto는 특정 고객사에 맞춤 데이터를 제공하는 경우라도 해당 데이터의 권리는 여전히 Flitto가 유지한다.
Flitto는 주요 고객과 데이터 제공 계약을 맺을 때도 이를 라이선스 판매로 인식하며,
계약 종료 후에도 유사 데이터를 재가공하여 다른 용도로 활용할 수 있다.

’22년부터 ’25년까지 한 미국 빅테크 A사와 한국어 등 언어 데이터 공급 계약을 3차례에 걸쳐 체결했는데, 이는 건별 프로젝트 계약이지만 Flitto 입장에서는 반복적인 수익원으로 자리잡았다고 밝혔다.
A사에 제공한 데이터도 Flitto가 지속 업그레이드하며 공급을 이어가는 형태로, 일정 기간 독점 사용권을 그 기업에 주었을 수는 있어도 영구적 소유권을 양도한 것은 아니다.
결국 Flitto는 자신이 보유한 원천 데이터를 계속 축적하고 고도화하면서,
다수의 기업에 제공하는 방식으로 사업을 운영하고 있다고 정리할 수 있다.

이러한 소유권 구조는 Flitto의 데이터가 곧 회사 핵심자산이자 해자(Moat)임을 보여주며,
데이터를 통한 추가 서비스 개발이나 솔루션 판매에도 유연하게 활용될 수 있게 해준다.

경쟁사의 데이터 보유 형태 : 직접 보유 vs 접근권

플리토는 자체 플랫폼을 통해 수집병렬 말뭉치 데이터를 핵심 자산으로 직접 보유한다.

이에 반해 대부분의 경쟁사는 플리토처럼 데이터를 직접 축적하여 재판매하는 모델이 아니라,
고객사의 의뢰에 따라 데이터를 수집·가공해 전달하는 서비스형 모델을 운영한다.
Appen은 전세계 크라우드소싱 인력을 동원해 다국적 기업의 AI 학습 데이터를 수탁 생산하나, 생산된 데이터셋의 소유권은 주로 발주한 고객사에 귀속된다.
Appen은 프로젝트 단위로 데이터 접근권을 제공할 뿐,
플리토처럼 통합된 언어쌍 데이터베이스를 구축해 자체 재산으로 보유하는 방식은 아니다.
따라서 수행 후 결과물을 넘기면 그때그때 소유권이 넘어가는 경우가 많다.

구글, 메타, 네이버 등 빅테크는 방대한 자사 사용자 데이터와 웹 크롤링 등을 통해 언어 데이터를 자체 축적하고 있지만 이들은 해당 데이터를 자체 서비스 개선에 활용할 뿐 외부에 판매하거나 공유하지는 않아, 플리토와 직접적 경쟁 관계에 놓이지는 않으며,
오히려 플리토가 빅테크가 필요로 하는 특정 언어쌍/도메인 데이터를 판매하는 파트너십 관계다.

플리토의 데이터는 크라우드 기여를 통해 만들어진 독자적 자료로서 저작권 이슈 없이 소유되고 있기에, 경쟁사들은 같은 데이터를 쉽게 얻을 수 없다.
플리토 데이터랩 – 인공지능 데이터 & 자연어처리(NLP) 솔루션

결과적으로, 플리토와 같이 방대한 병렬 말뭉치를 직접 보유한 형태의 경쟁사는 찾기 어렵다.
이는 플리토만의 데이터 판매 비즈니스 모델(한번 모은 데이터를 반복 판매)을 가능케 하며, 경쟁사들은 흉내내기 어렵다.

데이터 소유 여부가 BM에 미치는 영향 : 반복 판매 가능성

플리토처럼 자체 구축한 말뭉치를 판매하는 기업들은 동일한 말뭉치를 여러 번 판매하여 반복적으로 매출을 올릴 수 있다.
플리토는 이미 구축해둔 다양한 언어쌍, 도메인의 병렬 말뭉치 라이브러리를 갖추고 있어 필요한 기업에 그 데이터 세트를 ‘라이선스 형태’로 판매한다.
예를 들어 영어-스페인어 일반 회화 말뭉치 100만 문장을 한 번 만들어 놓으면,
이를 구글에도 팔고, 다른 스타트업에도 팔고, 여러 번 판매할 수 있다.
플리토 입장에서는 한 번 데이터 자산을 구축해 놓으면 다수의 고객에게 파는 데이터 거래 플랫폼 사업이 가능하다.
실제로 플리토는 자사 DataLab을 통해 대규모 데이터셋 라이브러리를 공개하고, 여기에 다양한 고객들이 접근하여 필요한 데이터를 구매할 수 있도록 하고 있다.
이런 데이터 서비스형 사업모델(Data as a Service)에서는 동일 데이터의 중복 판매가 수익 극대화의 핵심이다.

다만 일부 대형 계약의 경우 고객이 독점적 사용을 원할 수 있고,
또는 해당 데이터셋이 그 고객의 특정 목적을 위해 커스터마이징되어 다른 곳에 바로 재활용하기 어려울 수도 있다.
다만, 플리토는 해당 프로젝트를 통해 구축한 노하우와 언어 자원을 활용해 유사한 요구를 가진 다른 고객에게 변형된 데이터 서비스를 제공할 수는 있을 것이다.
개별 계약으로 맞춤 생산된 데이터셋은 보통 그 계약 대상에게만 제공되며, 그 동일분량을 또 팔아 같은 매출을 내는 것은 계약상 불가능하거나 현실적으로 쉽지 않을 수 있다.

Appen의 경우는 애초에 고객사의 전용 데이터에 라벨링 작업을 해주는 서비스가 대부분이라, 그 결과물을 다른 곳에 재판매하지 않으므로 동일 작업으로 반복 매출을 내는 구조가 아니었다.
그렇기에 한 번 잃은 매출이 쉽게 반복되지 않아 최근 매출 감소가 지속되고 있는 것이다.
반면 데이터셋 판매형 모델을 부분적으로 가지고 있는 플리토는, 이미 확보한 병렬 말뭉치로 꾸준한 판매를 기대해볼 수 있다는 차이가 있다.

주요 번역 프로그램별 데이터 사용 현황

Google, DeepL, Meta 등 기업들은 자력으로 데이터를 얻고 있으며,
파파고, MS, 바이두는 플리토 데이터를 보완적으로 사용하고 있다.

Google Translate (구글 번역)

구글은 Flitto의 데이터를 직접 사용한다는 공식 정보는 없다.
앞서 언급한 바와 같이, 구글은 막강한 자체 리소스로 번역 품질을 향상시켜 왔다.
주요 데이터 소스로는 웹 크롤링을 통한 평행 코퍼스 자동수집, 유엔/유럽연합 등 공개된 다국어 문서 코퍼스, 그리고 사용자 기여 번역이 있었다.
구글은 ’14년 “Translate Community”를 출범시켜 전세계 자원봉사자들이 번역 문장을 평가하거나 직접 번역하게 함으로써, 데이터가 부족한 언어의 번역 품질을 높였다.

마오리어, 우르두어 등 저자원 언어의 경우 이 커뮤니티 기여가 큰 도움이 되었으며,
실제로 수년간 다수 언어에서 눈에 띄는 향상을 이끌어냈다.
크라우드소싱 프로그램은 ’24년까지 운영되었고 그 후에는 대규모 언어 모델(LLM)의 발전으로 인해 방식이 전환되었다.

한편, 구글은 자사 검색엔진이 전세계 웹사이트의 번역쌍을 방대하게 보유하고 있다는 강점을 적극 활용한다.
구글 검색 크롤러는 다국어로 제공되는 웹페이지(예: 위키백과 다언어 버전, 다국어 뉴스사이트 등)를 수집하여, 이를 문장 단위로 정렬함으로써 자동으로 번역 데이터베이스를 구축해왔다.
이렇듯 크롤링 + 크라우드소싱 + 공개코퍼스 활용을 통해 구글은 Flitto에 의존하지 않고도 108개 이상의 언어쌍에 대한 번역 모델을 발전시켰다.
오히려 구글은 자체적으로 희귀 언어 데이터셋을 제작하여 공개하기도 하는데,
’22년 Meta가 발표한 NLLB(No Language Left Behind)처럼 다언어 평행말뭉치를 만들거나, ’23년에는 구글이 주도하여 115개 저자원 언어에 대한 전문 번역 문장 데이터(SMOL)를 마련하는 등 업계 전반에 데이터를 축적하는 움직임이 활발하다.

이러한 배경을 감안할 때 Google Translate는 Flitto의 데이터에 크게 의존하지 않고,
독자적 데이터를 기반으로 서비스하는 것으로 보인다.
다만 구글이 간접적으로라도 Flitto의 공개 자료나 일부 데이터셋을 활용했는지는 알 수 없다.
예를 들어 Flitto가 학계나 공개 경진대회를 통해 데이터를 공유했다면 구글이 그것을 참고했을 가능성은 있으나, 상업적 계약으로 Flitto 데이터를 구매했다는 소식은 전해진 바 없다.

DeepL (딥엘)

DeepL은 ’17년에 등장한 독일의 기계번역 서비스로, 특히 유럽 언어 정확도가 뛰어나다.
Flitto 데이터 사용 여부를 공식적으로 밝힌 적은 없다.

DeepL의 강점은 원래 Linguee라는 온라인 번역 사전 서비스에서 시작되었다는 점이다.
Linguee는 수년간 인터넷의 양질의 번역문(예: EU 공식문서, 특허 번역, 웹사이트 다국어 표기 등)을 크롤링하여 10억 문장 이상의 대규모 바이링구얼 코퍼스를 구축했다.
DeepL 번역기는 바로 이 Linguee 말뭉치를 기반으로 개발되었으며, 회사 측 설명에 따르면 DeepL의 모델은 Linguee가 수집한 바이링구얼 코퍼스와 크롤러를 지속적으로 운영하여 웹상에 새로 등장하는 번역 쌍을 찾아내고 정확도를 검증한 후 훈련데이터에 추가하는 프로세스를 통해 품질을 높이고 있다.

이처럼 DeepL은 자체 크롤링 데이터 자산이 핵심이므로, Flitto와 접점이 거의 없다.
Flitto가 보유한 한국어 등 아시아 언어 데이터에 관심을 가질 수는 있지만,
’23년부터 DeepL은 한국어, 중국어 등도 지원하기 시작하면서 여전히 자체 수집한 데이터와 대규모 신경망 학습으로 품질을 높이고 있다.
DeepL의 성공 요인은 Linguee 기반 유럽언어 코퍼스와 딥러닝 기술력으로 평가된다.
따라서 DeepL도 Flitto 데이터는 사용하지 않고, 웹 크롤링 및 자체 데이터 구축으로 서비스를 제공하고 있다.

NAVER Papago (네이버 파파고)

Papago는 ’16년 출시된 네이버의 AI 번역 앱/웹서비스로, 특히 한국어 번역에 강점을 보인다.
’19년 코스닥 상장 전 Flitto가 배포한 자료에 “플리토의 전방산업은 국내 AI 시장으로, 그 중 음성인식(SKT 누구, KT 기가지니 등 AI스피커)과 통번역(파파고 등 기계번역기)에 플리토의 언어데이터가 제공되고 있다”고 명시되어 Flitto의 학습용 데이터 고객임을 알 수 있다.

이는 네이버가 자체적으로 한국어↔영어 데이터를 확보할 수 있지만, 한국어와 제3외국어(예: 한국어-인도네시아어 등) 병렬 데이터는 구글만큼 얻기 어렵다(글로벌 이용자가 적기 때문).
Papago 초기 Flitto와 언어 데이터 제휴를 맺어 말뭉치를 보완하여 번역 정확도를 더욱 높였다.
Papago 관계자는 고유명사, 전문용어 등 범용 번역엔진의 한계를 보완하는 특화 데이터 공급능력 때문에 Flitto의 데이터를 채택했다고 하며, Flitto도 국내 빅테크에 데이터 납품 실적을 확보한 사례다.

네이버는 정부 공개 데이터(예: AI 허브의 평행코퍼스)나 자사 콘텐츠(웹툰/웹소설 번역본 등),
Papago 사용자들이 번역 결과를 평가하면 학습하는 등 데이터를 축적했다.
Papago 웹/앱에도 “입력된 문장은 서비스 개선을 위해 활용될 수 있다”는 안내가 있다.

즉, Papago는 Flitto의 데이터를 활용하면서, 네이버 자체의 빅데이터(검색 색인, 이용자 피드백 등)로 번역 엔진을 발전시켜 왔다.

Microsoft Translator (빙 번역)

마이크로소프트의 번역기도 구글처럼 다년간 자체 연구로 성장해왔으나,
주로 기업 대상 Translator Text API로 제공되기에 대중 인지도는 낮다.
MS는 ’17년 중국어-영어에서 인간에 근접한 번역 품질을 달성했다고 발표하는 등 NMT 개발에 앞서 있었고, 자사 제품 (Office, Bing 등)에서 수집한 양질의 문장쌍을 활용했다.

MS는 AI 학습을 위해 외부 데이터도 적극 도입했는데, 2017년 Flitto가 MS에 다량의 한국어 등 번역 데이터를 판매한 것이 알려져 있다.

특히 한국어, 일본어 등 아시아 언어에서 Flitto 데이터를 수혈한 것으로 보인다.
현재 MS는 OpenAI와의 협업 등으로 번역 품질을 높이고 있지만,
Flitto 같은 전문업체 데이터에 대한 수요는 지속될 수 있다.

Baidu Translate (바이두 번역)

중국 바이두의 번역 서비스로, 중국어 기반 다언어를 지원한다.
17년 Flitto로부터 중국어 번역 말뭉치를 구매한 사례가 있으며,
중국어 슬랭/신조어 등이 포함된 Flitto 데이터로 엔진을 향상시켰다.
자체적으로도 사용자 번역 참여 커뮤니티를 운영하고, 웹상의 중국어-영어 콘텐트를 수집하여 엔진을 고도화했다.

Meta (페이스북)

페이스북은 자체 번역 기능을 뉴스피드 등에 제공하고,
’22년에는 200개 언어 이상을 아우르는 NLLB 대형번역모델을 공개했다.
Meta가 Flitto 데이터를 썼다는 소식은 없으며,
번역모델 학습을 위해 위키백과, 성경 번역본, 웹 크롤링 데이터 등 공개 코퍼스를 활용했고,
아프리카 현지 연구자 그룹(Masakhane 등) 등 오픈소스 커뮤니티와 자체 인력으로 저자원 언어 데이터를 확보했다.

Flitto의 매출 성장성

Flitto의 TAM

플리토의 TAM(Total Addressable Market)은 전 세계 모든 AI 언어 데이터 수요 및 실시간 번역 수요를 총망라한 시장이라 할 수 있다.
구체적으로는 AI 학습용 데이터 레이블링/수집 시장자연어 부문, 글로벌 번역·통역 서비스 시장AI 기반 자동통역 분야를 합친 범위다.

규모 면에서 추산해보면, 전세계 AI 데이터 어노테이션 시장은 ’24년 약 19억 달러(2조 5천억원) 규모로 추정되고 2030년경 62억 달러 이상으로 성장할 것으로 전망된다(CAGR 22.2%).

이 가운데 언어 데이터 비중이 상당 부분을 차지하며, 플리토의 데이터 TAM에 해당한다.
또한 글로벌 통·번역 서비스 시장은 (전통적 인력 포함 시) ’20년대 중반 약 50조원에 달하는 거대 시장으로 추산되며, 이중 자동통번역 솔루션 분야도 빠르게 성장하고 있다.
생성형 AI와 멀티모달 AI의 부상으로, 언어 AI 솔루션 수요는 산업 전반(인터넷, 교육, 광고, 콘텐츠, 빅테크 등)에서 지속 증가하는 추세다.
요컨대 플리토의 TAM은 언어 장벽 해소를 필요로 하는 모든 영역으로서, 잠재 시장규모가 매우 크고 꾸준히 확대되고 있다.

AI 학습에 따른 시장 축소 가능성 : AI 기술은 Flitto BM과 경합적인가 보완적인가

언어 자체는 비교적 정적인 체계이고 어휘 변화도 제한적이다 보니, 한번 데이터 우위를 가진다고 해서 영구적인 것은 아닐 수 있다.
이러한 위험에 대해 플리토가 독점적으로 보유한 언어 데이터 자산이 머신러닝의 발전이나 경쟁자의 AI 학습 가속화에 의해 빠르게 따라잡힐 위험은 없는지 살펴본다.

언어 데이터 독점의 범위

플리토가 보유한 데이터의 강점은 희귀 언어 및 일상 표현 등 웹에 충분히 존재하지 않는 부분에 집중돼 있다.
일반적인 정형 문장이나 흔한 문서는 구글 등도 크롤링으로 많이 확보했고, 공개 말뭉치도 많다.
그러나 플리토는 사람들이 실제 쓰는 구어체, 신조어, 지역 특유 표현 등의 디테일하고 실용적인 번역쌍을 쌓아왔다.

언어는 정태적이라도 그 활용 맥락과 표현은 무궁무진하기 때문에,
이러한 디테일에서 오는 데이터 우위는 쉽게 없어지지 않는다.
경쟁자가 기계학습으로 따라잡으려 해도, 이미 플리토가 수집한 맥락 풍부한 병렬 데이터를 단순 모노링구얼 학습으로 복제하기는 어렵다.
예컨대 “밈(meme)”에 해당하는 신조어 표현을 각 언어에서 어떻게 번역하는지는 문화적 맥락이 필요한데, 이런 부분은 데이터를 독점한 쪽이 유리하다.

머신러닝의 데이터 효율 향상

확실히 최신 딥러닝 기법은 데이터 효율을 개선하고 있다.
소수 샘플로 학습하는 소타 기법, Active Learning 등으로 적은 데이터로도 높은 성능을 내는 연구가 많다.
또한 경쟁사들이 오픈소스 말뭉치 + 자체 조금의 데이터로 빠르게 모델 성능을 끌어올리는 경우도 생기고 있다.

그러나 이런 효율 향상에도 한계가 존재한다.
특정 영역의 번역 품질은 여전히 해당 분야의 정제된 병렬데이터 축적량에 비례한다.
대용량 데이터를 가진 쪽이 결국 미묘한 뉘앙스까지 잘 맞추는 고성능을 내기 마련이다.
가속화 학습으로 격차를 줄일 수는 있어도,
동일 수준으로 따라잡으려면 결국 상당량의 유사한 데이터가 필요하다는 뜻이다.
플리토는 특히 범용 번역기가 틀리기 쉬운 부분(고유명사, 전문용어, 문맥묘사)에서 강점이 있는데, 이런 부분은 경쟁사가 일반 딥러닝만으로 메우기 어려운 빈틈이다.

데이터 증분의 한계

언어 외연이 빠르게 확장하지 않는다는 점은 맞지만,
AI 학습용 데이터로 유의미한 것은 단순 사전적 어휘가 아니라 실제 사용 문장들이다.

현실 세계에선 매일 새로운 시사용어, 유행어, 전문지식이 등장한다.
예컨대 COVID-19 이후 방역 용어들의 다국어 번역 데이터는 ’19년 이전에는 없던 것들이다.
플리토는 이런 새로운 콘텐츠를 실시간으로 축적하지만,
경쟁사가 나중에 따라잡으려면 이미 시의성을 잃은 후발 수집이 될 수 있다.

언어 데이터 독점의 유지는 단순히 언어체계 그 자체가 아니라 시시각각 변하는 언어 사용 데이터의 선점에 달려 있다.
이 면에서 플리토가 실시간 크라우드를 활용하여 낮은 비용으로 데이터를 업데이트하는 한,
경쟁자가 격차 없는 수준에 이르기 어렵다.

AI 자동생성 데이터의 한계

경쟁자가 모델을 활용해 인위적으로 병렬 데이터를 생성하는 방식도 생각해볼 수 있다.
예컨데 영어 문장을 모델로 번역하여 pseudo-parallel 데이터셋을 대량 확보하는 것이다.
이런 방법은 어느 정도 효과가 있지만, 오류를 내포한 데이터가 누적될 위험이 있다.

실제로 자기가 만든 번역으로 스스로 훈련하는 자기학습은 품질 상한이 존재하며,
결국 사람이 만든 골드-스탠다드 데이터를 완전히 대체할 순 없다.
플리토의 독점 데이터는 사람들이 참여해 검수한 정답 데이터라는 점에서,
AI가 생성한 은닉 오류 데이터와 본질적 차별화가 있다.

따라서 경쟁사가 AI로 빠르게 번역문을 양산하더라도, 그것으로 플리토와 대등한 품질을 담보하긴 어렵다.

Flitto의 내러티브와 경쟁사 내러티브 충돌 가능성

현재 플리토와 경쟁사들이 내세우는 성장 스토리는 일부 교집합이 있으나 충돌하지는 않는다.

플리토의 내러티브는 “저자원 언어 데이터라는 틈새에서 독보적 품질을 확보하고, 이를 기반으로 AI 통번역 솔루션까지 확장”하는 것으로 요약된다.
데이터 중심(Data-centric) 시대에 희소하고 정밀한 언어 데이터를 무기로 삼아 성장하겠다는 이야기다.

주요 경쟁사인 Appen의 최근 내러티브를 보면, 급성장하는 AI 데이터 시장에서 선두주자 내러티브가 있었으나 ’21년 이후로는 실적 부진을 타개하기 위한 비용 절감과 중국 시장 공략, 생성 AI 관련 프로젝트 수행 등 사업 개편 쪽에 초점이 맞춰져 있다.

이는 플리토처럼 공격적 확장 스토리라기보다 방어적 대응 전략으로 플리토의 내러티브와 정면으로 충돌한다고 보긴 어렵다.
오히려 서로 처한 상황이 달라 플리토는 고성장 서사, 경쟁사는 재정비 서사를 가지고 병존하는 모습이다.

다만 장기적으로내러티브 충돌의 가능성을 배제할 수 없다.
가령 Appen이 구조조정을 마치고 멀티모달 저자원 데이터 쪽으로 전략을 전환해 플리토가 강점을 지닌 분야에 진입한다면,
플리토의 “희소언어 데이터 독점” 내러티브와 충돌이 발생할 수 있다.
혹은 빅테크 기업들이 자체 언어 데이터 구축을 강화하여 외부 데이터 업체 의존도를 낮추는 방향으로 나아간다면, “플리토를 통한 데이터 조달” 내러티브와 배치될 여지가 있다.
또한 DeepL과 같은 기업은 “최고 품질 기계번역 서비스”를 내세워 성장하고 있는데, 이 경우 플리토의 AI 통번역 솔루션과 경쟁·대체 관계가 형성될 수 있다.

결국 TAM이 겹치는 부분에서 각자의 성장스토리가 충돌할 가능성은 존재한다.
그러나 현 시점에서는 플리토가 집중하는 저자원 언어 데이터 시장에 뚜렷한 경쟁자가 드물고,
주요 경쟁사의 전략 방향도 분산되어 있어 직접적인 내러티브 충돌 가능성은 낮다.

플리토 또한 시장 변화를 주시하면서 음성·이미지 등 데이터 종류 다변화, 솔루션 고도화 등으로 자신만의 성장 내러티브를 강화하고 있어,
경쟁사가 비슷한 이야기를 내세워도 중기적으로는 BM을 유지할 개연성이 높다고 볼 수 있다.

Flitto의 경제적 해자

플리토의 데이터 자산 축적 방식을 신규 진입자가 모방하기 어려운 이유는 다음과 같다.

네트워크 효과 – 글로벌 대규모 사용자 풀 확보의 어려움

플리토는 현재 1400만명 규모의 글로벌 사용자 커뮤니티를 보유하고 있다.
이들은 173개국의 다언어 사용자로, 텍스트·음성·이미지 등 다양한 언어 데이터를 생성한다.
신규 업체가 동일한 규모와 다양성의 커뮤니티를 구축하려면 막대한 시간과 자원이 필요하다.
언어 플랫폼은 네트워크 효과가 강해, 초기에 사용자가 적으면 참여 동기가 낮아진다.
플리토는 ’12년 창업 이후 혁신적인 서비스(1분 내 수십 개 번역 제안 등)로 유저를 모았고,
그 커뮤니티가 지금의 데이터 생산 엔진이 되었다.

네트워크 효과는 시간이 지날수록 오히려 강화된다.
플리토의 1400만 유저는 계속 데이터를 생산해내고 있어 데이터 자산이 실시간으로 늘어나며,
참여자들은 보상체계에 익숙해 이탈률도 크지 않다.
신규 경쟁자가 미래에 인공신경망으로 빠르게 데이터를 생성한다 해도, 플리토 커뮤니티가 만들어내는 최신 트렌드 반영 인간 번역 데이터를 완전히 대체하기 어렵다.

모방하기 어려운 생산 프로세스 – 보상 및 검수 시스템 수직통합

플리토의 시스템은 게임적 요소(포인트 보상, 랭킹 등)와 다단계 검수 알고리즘이 적용돼 있다.
이용자들은 번역하고 포인트나 금전적 보상을 받고, 이를 통해 언어 학습 동기도 얻는다.
또한 다수가 참여할 경우 품질을 상호 평가하거나 별도 검수팀이 정제하여 고품질 데이터로 완성하는 시스템이 구축돼 있다.
이는 10여년간 시행착오를 겪으며 다듬어진 것으로,
경쟁사가 단순히 사람을 모은다고 해서 같은 품질의 데이터를 뽑아낼 수 있는 게 아니다.

이러한 낮은 단가 고품질 생산 프로세스(외주비·포인트비 절감)를 바탕으로 플리토가 40%대 영업이익률을 목표로 할 만큼 비용효율성이 높은데, 후발주자는 이를 모방하기 어렵다.

브랜드 가치, 데이터 자산 – 대규모, 다양한 데이터 소유권

플리토는 이미 다년간 축적해온 방대한 병렬 말뭉치와 음성 데이터 등을 보유한다.
특히 한국어·몽골어·아프리카계 언어 등 희소 언어 데이터에 있어서 경쟁사 대비 압도적인 량과 질을 갖췄다.
신규 경쟁자가 이제 와서 해당 언어 자원을 모으려 해도,
플리토가 확보한 데이터를 따라잡기 위해선 동일한 양질의 번역을 수백만 건 생산해야 한다.
이를 위해선 상당수의 전문 번역 인력을 동원하거나 플리토 규모의 크라우드를 형성해야 하는데 현실적으로 쉽지 않다.
데이터 축적의 초기 격차가 시간이 흐를수록 더 벌어질 가능성이 높다.
플리토는 최근 음성 데이터 등 단가 높고 희소성이 큰 데이터까지 수집 범위를 넓혀가고 있어,
시간이 지날수록 경쟁사가 커버해야 할 격차가 오히려 커지는 중이다.

해자의 침식 가능성

알고리즘이 데이터를 대체할 수 있을까?

장기적으로는 기술 변화에 따라 상황이 바뀔 수 있다.
예를 들어 AI 자동 데이터 생성 기술이 획기적으로 발전해 사람 없이도 희소언어 병렬 데이터를 대량 생성할 수 있게 된다면, 플리토의 크라우드 방식 우위는 줄어들 수 있다.
그러나 현재로선 완전한 대체는 요원하며, 플리토의 집단지성 모델이 지닌 인간 품질 데이터의 가치는 지속적으로 유지될 전망이다.
따라서 경쟁자들이 이 메커니즘을 모방하기는 현실적으로 어렵고, 플리토가 쌓아온 데이터 격차도 단기간에 좁혀지기 힘들다고 평가된다.

빅테크들의 자체 데이터 축적 노력은 Flitto의 시장을 잠식할 수 있는 요소다.
구글, 메타 등은 거대한 자본과 인력을 투입해 오픈소스 데이터셋 생성(예: NLLB, SMOL)이나 커뮤니티 주도 번역으로 저자원 언어 격차를 줄여가고 있다.
장기적으로 이들이 거의 모든 언어에 대해 충분한 데이터를 확보하면, Flitto 같은 외부 공급자에 대한 수요가 줄어들 수 있다.
다만 전 세계 수천 개 언어/신조어/방언에 대한 현지화된 구어체 데이터는 여전히 부족하여 Flitto의 역할이 쉽게 대체되지는 않을 것으로 보인다.

또한 신기술의 등장도 변수다.
최근 발전하는 거대 언어모델(LLM)들은 병렬 말뭉치 없이 자연어 추론만으로도 번역 품질을 향상시키고 있다.
GPT-4는 한 언어로 학습해도, 병렬 말뭉치를 직접 학습하지 않았더라도 다중언어 코퍼스를 통해 언어 사이 추론 능력을 획득하여 꽤 정확한 번역을 해낸다.
Meta의 NLLB(No Language Left Behind) 같은 프로젝트는 저자원 언어라도 모노링구얼 데이터와 언어 간 추론 기법으로 번역 모델을 만드는 등, 병렬 데이터 의존도를 낮추는 방향의 연구도 진행되었다.

Flitto처럼 정제된 레이블드 데이터 공급자의 중요성은 당분간 유지되겠지만,
장기적으로 모델의 데이터 의존도 감소가 이루어지면 Flitto의 시장규모 성장에 한계가 올 가능성이 있다.
AI 기술 발전으로 데이터 효율성이 높아지면, 예전보다 적은 데이터로도 모델 성능을 낼 수 있게 되어 데이터 양의 격차가 줄어들 수 있으며,
일부 공개 말뭉치의 증가로 희소 언어 데이터도 공공에서 확보하는 움직임이 있어,
플리토의 독점 데이터 우위가 예전만 못해질 가능성도 고려할 수 있어서,
장기적으로 AI가 스스로 언어 구조를 추론하여 번역하는 시대가 올 수도 있어 보인다.

유지되는 데이터의 중요성

다만 업계 전문가들은 여전히 AI 시대에 ‘모델보다 데이터가 중요하다’고 평가하며,
특화된 고품질 데이터 없이는 번역 AI의 한계를 넘기 어렵다고 지적한다.
또한, 특정 도메인(의료, 법률 등)이나 특수 언어 쌍에서는 Flitto 같은 전문 데이터셋이 범용 AI 번역기의 빈틈을 메워줄 수 있다.

현재까지의 기술 추이를 보면 병렬 말뭉치의 중요성이 완전히 사라지지는 않고 있다.
자연어 추론 기반 번역대규모 파라미터와 연산 자원을 필요로 하고, 특히 희귀한 표현이나 맥락에서는 여전히 병렬 예문 학습이 있었던 모델보다 오류율이 높다.
병렬 말뭉치로 직접 학습된 번역 모델은 소규모나 특정 분야에서 여전히 추론 기반 LLM보다 정확하고 효율적인 결과를 낸다.

즉, 모델의 규모를 키우는 것 못지않게, 특정 작업에 맞는 양질의 데이터를 확보하는 것이 성능 향상의 지름길로 인식되고 있다.
실제로 빅테크들도 범용 LLM만으로 모든 번역 문제를 풀 수 없음을 깨닫고,
특화 데이터 확보에 눈을 돌리고 있다.
자연어 추론 기술이 발전해도 제대로 훈련하기 위해 여전히 병렬 말뭉치 등의 레이블된 데이터가 필요하며, 추론 모델 + 전문 말뭉치를 결합하여 학습하는 방향으로 발전하고 있다.
의학 논문 번역처럼 전문성이 필요한 작업의 경우, 해당 도메인 병렬 말뭉치를 학습한 모델이 맥락 추론으로 번역하는 모델보다 용어 선택과 정확도 면에서 우수하다.
거대 언어모델도 최종 품질을 높이기 위해 고품질 병렬 데이터로 파인튜닝을 거치는 경우가 많아 추론 AI와 병렬 말뭉치는 상호 보완적으로 활용되는 추세로,
결국 두 기술간 경쟁 구도는 완전한 대체보다는 접점이 생기는 방향으로 진화되고 있는 것이다.

그리고 Flitto도 경쟁환경을 인식하여 솔루션 사업 다각화로 대응하고 있다.
최근 Flitto AI+ (Chat Translation, Live Translation)실시간 통역 솔루션을 출시하여 B2C/B2B 제품화에 나섰고,
메뉴 번역 서비스처럼 데이터와 솔루션을 결합한 새로운 수익원을 개발하고 있다.
이는 단순 데이터 판매를 넘어 완제품 번역 서비스를 제공함으로써,
빅테크와 차별화된 영역을 공략하려는 전략으로 해석된다.
Flitto의 실시간 대화 통역 앱은 사용자 개인의 말투에 맞춰 번역을 개선하는 초개인화 기술을 선보여 호평받았고, 이 기술은 Flitto만의 다국어 데이터와 10년 이상의 전문 번역 노하우가 결합되어 가능한 것이었다.

또한 자연어 추론 기술이 영상/음성 등으로 확대되는 흐름 속에서 영상/음성 멀티모달 데이터 수요 증가에 맞춰, 음성인식(STT), 음성합성(TTS), OCR 등 기술을 확보하고, 단순 텍스트 병렬 말뭉치 제공을 넘어 음성∙영상 기반 통번역 데이터/솔루션까지 영역을 넓혀 통합적 언어 AI 경쟁력을 확보하려 하고 있다.
집단지성으로 모은 데이터를 활용해 자체 번역 AI 엔진을 고도화하고, 이를 다시 크라우드 플랫폼에 접목하는 식으로 선순환을 만들고 있다.
특히 다양한 연령 이용자의 음성 녹음 미션 등을 통해 음성 데이터를 대량 확보함으로써 새로운 고부가가치 데이터를 축적하고 있다.
또한 정부의 AI 프로젝트 참여 등 외부 파트너십을 통해 데이터 경쟁력을 유지·강화하고 있다.

이러한 선제적 조치들은 Flitto가 데이터 시장의 변화에 대응하면서 자신의 해자를 지키고 확장하려는 노력의 일환이다.

결론적으로, Flitto는 크라우드소싱 기반 저자원 언어 데이터 구축이라는 독특한 비즈니스 모델을 통해 글로벌 경쟁자 대비 뚜렷한 강점을 확보했다.
플랫폼에서 생산되는 데이터의 독점적 소유를 바탕으로, One Source Multi-Use 라이선스 전략으로 수익을 극대화하고 있다.
Papago 등 주요 번역 앱들도 의존할 만큼 Flitto의 데이터는 가치를 지닌다.

빅테크의 행보와 AI기술 발전이 변수이긴 하나,
데이터 중심의 AI 패러다임에서는 Flitto의 역할이 계속 중요할 것으로 보인다.
Flitto는 자신만의 데이터 품질과 영역을 유지하면서, 동시에 솔루션 사업을 확장하여 데이터+알파의 가치를 창출하는 방향으로 경쟁우위를 공고히 할 것이며,
투자자로서는 이러한 경쟁우위가 유지되는지를 꾸준히 지켜봐야 할 것이다.


가치투자 커뮤니티를 성장시켜나가고 있습니다.
운영 계획방향성을 한 번 읽어보시고,
텔레그램유튜브 채널을 통해 소통하고 있으니 공감이 가신다면 참여해주세요!
쌍방향 소통을 원하는 분들은 카카오톡 채널로 와 주시면 좋을 거 같습니다.
자료실을 통해 리포트, 뉴스도 공유하고 있으니 참고하시면 도움이 될 거 같습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

error: Content is protected !!