본문 바로가기
  • 삶의 활력소
자기계발/데이터라벨링

데이터라벨링 들어보셨나요

by 포포리ㅎ 2023. 4. 20.
728x90

데이터 라벨링(data labelling)이란?

인공지능 알고리즘 고도화를 위해 AI가 스스로 학습할 수 있는 형태로 데이터를 가공하는 작업을 일컫는다. 사진이나 동영상 등에 등장하는 동물, 사물 등 모든 것에 라벨을 달아 AI에 주입하면 AI는 이를 바탕으로 데이터들을 학습하면서 유사한 이미지를 인식할 수 있게 된다. 

그럼 여기서 인공지능 AI(artificial intelligence)란?

인간의 인지·추론·판단 등의 능력을 컴퓨터로 구현하기 위한 기술 혹은 그 연구 분야 등을 총칭하는 용어로 사용된다. 컴퓨터와 같은 기계는 인간에 비해 제어, 연산 등의 능력이 뛰어나지만, 사람이 가지고 있는 지능을 기반으로 하는 인지·추론·판단 등의 능력은 가지고 있지 않다. 이러한 사람 고유의 능력을 컴퓨터에서 구현해 보고자 시작된 것이 인공지능이다. 1956년 존 매카시(John McCarthy, 1927~2011)가 '인공지능'이라는 용어를 사용하기 시작했지만, 유사한 학문은 그 이전에도 존재하였다. 

인공지능의 현재

2차 암흑기로 침체되어 있던 인공지능은 1980년대 후반 월드와이드맵 (WWW, World Wide Web)의 출현과 이로 인한 대용량 데이터인 빅데이터(BigData)의 등장으로 인공지능 시험을 위한 데이터 부족 현상이 보완되었다. 1990년대에는 컴퓨터 하드웨어의 급속한 발전과 인공지능 병렬 프로세스 처리에 최적화된 GPGPU(General-Purpose Graphics Processing Unit) 아키텍처의 출현 등으로 고속 병렬처리가 가능해졌다. 특히 2000년대에는 인공신경망 알고리즘을 획기적으로 개선한 딥러닝(Deep Learning)이 등장하였으며, 이를 바탕으로 하는 알파고(AlphaGo)의 출현은 인공지능이 더 이상 희망이 아닌 현실로 한 걸음 다가왔음을 보여주는 사례가 되었다. 현재의 인공지능은 급격한 변화와 발전을 거듭하고 있는 과도기로, 우리 사회 전반의 영역에서 다양하게 시도·활용되고 있다. 

인공지능의 주요 응용분야

· 인공신경망(人工神經網, Artificial Neural Network) : 인간의 생물학적인 신경 세포의 정보 처리 과정을 모방하여 뇌와 유사하게 구현한 모델로, 인공지능의 가장 기본이 되는 분야이다.
· 자연어 처리(Natural Language Processing) : 인간의 언어를 분석해서 컴퓨터가 이해할 수 있는 형태로 처리하기 위한 과정으로, 컴퓨터와 사람 간에 자연스러운 대화를 가능하게 하는 분야이다. 인공지능 스피커나 챗봇(Chat Bot) 서비스 등에 적용된다.
· 컴퓨터 비전(Computer Vision) : 영상 전처리를 통해 인간의 시각(視覺)을 실시간으로 이해하고 표현하기 위한 분야이다. 로봇으로 수집된 영상 정보를 통해 인지·판단 등을 가능하게 하며, 사람 눈의 기능을 기계에 접목시켜 실시간 자율주행이 가능하게 한다.
· 로봇공학(Robotics) : 로봇에 관한 분야로 인공지능이 집대성된 영역이기도 하다. 로봇 설계 및 제작에서부터 인지·추론·판단 능력과 같은 인간이 가지고 있는 기능을 접목하는 분야까지도 다룬다.(출처:두산백과)

데이터라벨링

속성(attribute)이나 특징(feature), 분류(classification) 그리고 포함하고 있는 객체(object)가 무엇인가 등의 추가적인 정보를 알려주는 라벨이 붙어 있는 데이터.기계 학습(ML: Machine Learning) 및 deep learning 시스템은 안정적인 학습 패턴을 추출하기 위하여 많은 양의 데이터가 필요하다. 특히 Spervised learning을 위해 사용하는 데이터는 지도형 기계 학습 모델이 원하는 답변이 출력될 수 있도록 미리 정답을 라벨이나 주석의 형태로 데이터에 붙여 놓아야 하는데 이렇게 준비된 데이터를 라벨 데이터라 한다.

예를 들어 사람은 자전거가 찍힌 사진을 보고 사진 속 사물이 자전거임을 쉽게 식별할 수 있다. 하지만 컴퓨터는 이를 자전거로 인식하지 못하기 때문에 컴퓨터가 인식할 수 있도록 사진 위에 자전거 위치와 크기를 입력하고, 그 위치와 크기 안에 있는 이미지를 ‘자전거’라고 표시해주는 작업이 필요하다. 이 작업을 데이터 라벨링(data labeling) 또는 데이터 주석(data annotation)이라고 한다.

사람이 직접 데이터 라벨링 작업을 하면 시간과 비용이 많이 소요되며, 일관되고 정확한 라벨 데이터를 만들어 내는 것이 어렵다. 이를 해결하기 위하여 데이터 라벨링 작업을 인공지능(AI)을 통하여 자동화(또는 반자동화)하는 다양한 솔루션들을 사용한다.한편 라벨 데이터에 오류가 있으면(데이터 라벨링이 잘못되었다면) 훈련 데이터 세트의 품질을 떨어트려 이를 사용하여 만든 기계 학습 모델의 성능이 저하된다. 이 때문에 모델의 학습과 수정을 반복적으로 수행하고 이 과정에 인간의 참여를 유지하는 휴먼인더루프(HITL: Human-in-the-loop) 접근방식을 사용한다. (IT용어사전, 한국정보통신기술협회)

 

728x90
반응형

댓글