딥러닝 모델을 위한 훈련 데이터, 어디서 어떻게 확보할까?
차가 스스로 도로를 이해하려면
우리가 운전을 배울 때를 떠올려보자.
처음엔 앞차와의 간격도 어렵고, 신호등 바뀌는 타이밍도 감을 못 잡는다. 그런데 시간이 지나면서 자연스럽게 요령이 생긴다. 교차로에서 누가 먼저 가야 하는지도 알고, 비 오는 날엔 브레이크를 좀 더 일찍 밟는다.
자율주행차도 사실 크게 다르지 않다. 단지 사람이 몸으로 익히는 걸, 차는 데이터로 배운다는 점만 다를 뿐이다.
그렇다면 질문 하나.
자율주행차는 도대체 무슨 데이터를 가지고, 어떻게 ‘배우는’ 걸까?
자율주행의 핵심은 ‘훈련 데이터’
요즘 자율주행차의 대부분은 딥러닝 모델을 기반으로 한다.
이 딥러닝 모델은 쉽게 말해 차의 ‘두뇌’ 같은 역할을 한다. 사람 대신 판단을 내리고, 눈앞에 있는 게 보행자인지 전봇대인지 구별한다. 그런데 이걸 잘하려면 훈련이 필요하다.
AI에게 “이게 보행자야, 이건 오토바이야, 저건 신호등이야”라고 알려주는 수많은 예제가 필요하고, 이걸 우리는 ‘훈련 데이터’라고 부른다.
그리고 이 데이터는 단순히 많은 것만으로는 부족하다.
정확하고 다양한 상황을 담고 있어야 한다.
낮과 밤, 비 오는 날, 눈 오는 날, 역광, 역주행 차선, 복잡한 이면도로까지…
AI가 놓치지 않으려면, 가능한 모든 조건에서의 데이터가 필요하다.
결국 자율주행차가 얼마나 똑똑해지느냐는 얼마나 좋은 데이터를 얼마나 많이 보여줬느냐에 달렸다.
그럼, 데이터는 어디서 어떻게 얻을까?
1. 진짜 도로에서 모으기
가장 기본적이면서도 중요한 방법은 ‘실제 차량 주행’이다.
차량에 여러 센서와 카메라를 달고 실제 도로를 달리면서, 앞에 나타나는 모든 사물과 상황을 기록한다.
그리고 그 장면 하나하나에 “이건 사람”, “이건 횡단보도”, “이건 차선”이라고 표시해 주는 작업이 이뤄진다.
이걸 ‘라벨링’이라고 부르는데, 말이 쉽지 꽤 고된 일이다.
수천, 수만 장의 이미지에 사람 손으로 선을 긋고, 이름을 붙여야 한다.
그래도 이 데이터가 실제 도로에서 온 것이기 때문에, 현실성을 담보하는 데 가장 신뢰받는 방식이다.
2. 가상환경에서 돌리기
현실에서 모든 상황을 겪게 할 순 없다.
예를 들어 눈 오는 밤에 갑자기 어린아이가 튀어나오는 상황을 반복해서 수집할 순 없다.
그래서 등장한 게 ‘시뮬레이션 데이터’다.
게임처럼 정교하게 만들어진 3D 가상 도시에서, 자율주행차를 여러 번 돌리며 다양한 조건의 데이터를 수집하는 것이다.
시뮬레이션은 통제가 쉽고, 드물게 발생하는 위험 상황도 자유롭게 설정할 수 있다는 점에서 효율적이다.
게다가 자동으로 라벨링까지 되니 실제보다 훨씬 빠르게 데이터가 쌓인다.
3. 기존 데이터셋과 외부 작업 활용
이미 공개된 고품질 자율주행용 데이터셋도 많다.
예를 들면 KITTI, Waymo, nuScenes 같은 데이터들이 대표적이다.
이런 데이터셋은 기업이나 연구기관에서 자유롭게 사용할 수 있게 제공하고 있어서, 많은 연구자와 기업들이 기본 학습용으로 활용한다.
또 하나 흥미로운 방식은 크라우드소싱이다.
일반 작업자들이 온라인 플랫폼에서 이미지를 보고 라벨링을 해주는 방식이다.
시간은 걸리지만 많은 데이터를 빠르게 가공하는 데 유리하다.
중요한 건 양보다 ‘질’
딥러닝 모델은 보여준 것만 이해한다.
그렇기 때문에 데이터가 단순히 많다고 좋은 게 아니라, 정확하고 다양한 조건을 포함해야 한다.
예를 들어 도심 주행 데이터만 많은 차량은 시골길이나 고속도로에서 제대로 반응하지 못할 수 있다.
낮 시간대 데이터로만 훈련된 모델은 야간 주행에서 인식률이 뚝 떨어질 수 있다.
또한 잘못된 라벨링은 학습 자체를 왜곡시킬 수도 있다.
“사람”을 “오토바이”로 라벨링한 이미지가 수백 장만 있어도, 모델은 혼란을 겪는다.
그만큼 정확한 라벨링, 환경별 균형 잡힌 데이터 확보는 자율주행 성능의 기반이다.
데이터를 많이 가진 자가 이긴다
자율주행차 시장에선 기술이 전부가 아니다.
정확히 말하면, 좋은 데이터를 가진 자가 좋은 기술을 만든다.
테슬라가 그토록 빠르게 모델을 개선할 수 있었던 건, 전 세계에서 수백만 대의 차량이 실시간으로 데이터를 보내고 있기 때문이다.
구글 웨이모 역시 수십만 시간의 시뮬레이션 주행을 통해 희귀한 상황까지 학습시켰다.
이제는 데이터가 곧 경쟁력이고, 기업들이 자체 데이터를 어떻게 확보하고 가공하느냐에 따라
앞으로의 기술 격차가 갈릴 가능성이 크다.
마치며: 자율주행차의 진짜 연료는 ‘데이터’
우리는 자율주행차를 ‘자동으로 가는 차’라고 쉽게 표현하지만,
실제로는 수많은 데이터와 알고리즘이 얽힌 매우 복잡한 시스템이다.
그리고 그 핵심은 결국, 차가 무엇을 얼마나 보고, 어떻게 배웠는가에 달려 있다.
딥러닝 모델이 제대로 작동하기 위해선 방대한 양의 정제된 데이터가 필요하고,
이를 위해 자율주행차 기업들은 도로 위에서, 시뮬레이터 안에서, 그리고 서버 안에서 끊임없이 데이터를 모으고 있다.
결국, 자율주행차의 ‘두뇌’를 키우는 건 코딩보다도 현실을 닮은 데이터다.
차가 똑똑해지기 위해선, 먼저 세상을 충분히 보여줘야 한다.