News

챗GPT로 확 커지는 생성형 AI 시장...양질 데이터 중요도↑ | 비맥스테크놀로지

작성자
비맥스테크놀로지
작성일
2023-05-04 09:28
조회
404

안녕하세요!

Digital 시대를 만들어가는 Embedded System IPCDisplay Solution 기업 비맥스테크놀로지입니다!

인공지능(AI) 기술의 빠른 발전으로 챗GPT와 같은 생성형 AI가 주목받으면서 AI 데이터 수요가 급증하고 있습니다. 세계적으로 생성형 AI 시장의 규모는 2022년 13조원에서 2030년 142조원까지 급격하게 성장할 것으로 전망됩니다. 이런 추세에 따라 국내 기업들도 한국형 초거대모델 개발에 나섰는데, 이를 위한 양질의 데이터 확보가 시급한 과제로 부상하고 있습니다.

글로벌 리서치 기관 그랜드 뷰 리서치가 2023년 4월 발간한 리포트에 따르면 ChatGPT 등 생성형 AI에서 비롯된 데이터 서비스 및 솔루션 수요는 2022년 글로벌 인공지능 데이터 시장에서 약 0.9조를 차지했습니다. 또 2030년에는 약 6.6조를 차지할 것으로 전망됐습니다. 국내 시장에서도 생성형 AI로 인한 데이터 수요는 2022년 493억원에서 2030년 4천261억원으로 연평균 31.8%로 성장할 것으로 예상됩니다.

 

 

데이터 확보 나선 기업들..."정부 지원, 한국어 양질 데이터 필요해"

이런 상황에서 국내 기업들은 데이터 확보와 관련된 문제를 극복하며 글로벌 경쟁력을 확보해야 하는 과제를 안게 됐습니다. 특히 정부의 지원과, 한국어로 된 양질의 데이터 확보 중요성이 더욱 커지게 됐습니다.

ceda140cc44bb45c89d7b98f4b71f21d.jpg
챗봇 자료 이미지(제공=이미지투데이)

국내 한 주요 통신사 최고기술책임자(CTO)는 언론과의 인터뷰에서 "LLM(초거대 언어모델, Large Language Model)을 학습할 수 있는 충분한 데이터가 없어 데이터 구매에만 이미 상당한 비용을 지출했다"며 정부의 데이터 생태계 조성과 저작권 문제에 대한 지원을 요청했습니다.

한 AI 연구소 관계자는 초거대언어 기반 AI 서비스 개발 비용 중 데이터 관련 비중이 높다고 언급하면서 한국어로 된 콘텐츠·데이터 확보의 중요성을 강조했습니다. 또 다른 AI연구원은 오픈 데이터 세트를 활용할 경우 저작권 이슈가 발생할 수 있어 이미지 데이터를 구매했다고 밝히기도 했습니다. 생성형 AI가 만든 데이터를 학습에 활용하기에는 한계가 있다는 설명입니다.

 

 

정부, 초거대 AI 경쟁력 강화방안 발표...국내 AI 시장 2.5조원2030년 16.1조원

이런 데이터의 중요성을 반영해 과학기술정보통신부는 '초거대 AI 경쟁력 강화방안'을 발표하며 3천901억원을 투입할 계획을 밝혔습니다. 이 방안은 ▲양질의 텍스트 데이터 대규모 확충 ▲초거대 AI 한계 돌파를 위한 핵심 기술 개발 ▲초거대 AI 컴퓨팅 인프라 기술 개발이 포함돼 있습니다.

dd97b9b325d976a34a36a8977e5bee96-waterma
이종호 과기정통부 장관이 초거대 인공지능 경쟁력 강화 방안을 발표하고 있다.

특히, 정부는 기술과 산업 인프라 확충을 위해 분야별 특화 학습용 데이터와 비영어권 언어 데이터를 2027년까지 200종(책 15만권 분량)을 구축할 계획을 강조했습ㄴ다. 이를 통해 초거대 AI 개발 및 고도화를 지원한다는 계획입니다. 아울러 초거대 AI 서비스에서 발생 가능한 위험요인과 성능에 대한 평가를 제3기관을 통해 지원한다고도 밝혔습니다. 이를 위해 비윤리적이거나 유해한 표현 및 사실 왜곡 등을 검증할 수 있는 데이터셋 구축을 추진할 예정입니다.

이처럼 정부의 지원과 함께 국내 AI 데이터 시장은 2022년 2.5조원에서 2030년 16.1조원으로 성장할 것으로 전망됩니다.

 

 

숙련 데이터 라벨러 운영 중요해져...크라우드웍스, 대화 데이터넷 제공

국내 인공지능 생태계에서 AI 데이터를 구축하는 기업들의 역할은 더욱 중요해질 것으로 예상됩니다. 특히 다수의 숙련 데이터 라벨러(AI 학습데이터를 수집 및 가공하는 인력)를 운영하는 것이 중요할 것으로 전망됩니다.

이는 빠른 시간에 다량의 데이터를 제공할 수 있고, 다양한 인력 풀을 기반으로 다양한 산업의 데이터를 제공할 수 있기 때문입니다. 50만명의 데이터 라벨러 풀을 보유한 크라우드웍스는 이미 초거대 AI개발을 위한 다수의 대화 데이터셋을 고객에게 제공하고 있습니다.

또 크라우드웍스는 국내 기업들의 초거대 AI 개발 및 도입을 지원하는 서비스를 제공하고 있습니다. 글로벌 경제 효과를 가져올 것으로 전망되는 생성형 AI 도입이 전세계적으로 강조되면서 국내 기업들도 인공지능 도입 속도를 높일 것으로 예상됩니다. 실제로 네이버, 카카오 등 국내 IT 업체들은 초거대 AI모델을 공개했습니다. 이 밖에 뤼튼테크놀로지스, 라이언로켓, 마이리틀트립 등도 초거대 AI모델을 적용한 서비스들을 선보였습니다.

f4538ef6291f537a15b09520504b24a6.jpg
뤼큰테크놀로지
 

 

데이터 보안·편향적 비윤리적 답변 위험...데이터 오염 현상도 우려

하지만 기업들은 안정성, 개인정보보호 및 데이터 보안, 정확도 문제로 인해 범용 초거대 AI 모델 도입이 어려울 것으로 보입니다. AI 모델이 학습한 웹상 데이터는 특정 집단에 대한 편견을 갖고 있을 수 있어 문제가 될 수 있습니다. 이로 인해 편향적이며 비윤리적인 답변이 생성될 수 있는 위험이 있습니다. 또 개인정보보호 및 데이터 보안에 관련된 문제도 제기되고 있는데, 학습데이터의 저작권 문제, 개인정보 유출 및 표절 문제 등 다양한 보안 문제가 발생할 수 있습니다.

정확도 측면에서도 문제가 있습니다. ChatGPT 등 생성형 AI가 만든 잘못된 정보들이 인터넷에 공유되면, 이 잘못된 정보가 다시 모델에 학습돼 데이터 오염 현상이 심화될 수 있어서입니다. 더구나 현재 ChatGPT는 최신 정보를 반영하지 않기 때문에, 최신 정보가 필요한 경우에는 부족한 결과를 제공할 수 있습니다. 이런 문제들을 해결하기 위해서는 지속적인 업데이트와 보완이 필요하며, 기업들은 이를 고려해 AI 도입 전략을 세워야 합니다.

백상엽 카카오엔터프라이즈 대표는 "컴퓨터 업계에서는 쓰레기를 넣으면 쓰레기가 나온다(Garbage in garbage out)는 말이 있다. 좋은 데이터가 있어야 좋은 결과물이 나온다"고 말하기도 했습니다.

de9e39bc7d3698838a6095602ebfaafb.png
크라우드웍스 프레임워크

크라우드웍스는 기업이 내부 데이터를 활용해 챗GPT 또는 파인튜닝(미세조정)된 GPT를 통해 고객 및 내부 직원의 질문에 답변을 제공할 수 있도록 지원하는 프레임워크를 제공하고 있습니다. 기업의 내부 데이터베이스·문서·웹사이트 등의 정보를 전처리하고, 크라우드웍스 데이터 에이전트를 통해 ChatGPT/파인튜닝된 GPT 모델에게 전달하면 모델이 답변을 제공하는 구조입니다.

크라우드웍스는 이런 프레임워크를 다양한 고객에게 제공할 계획입니다. 이를 통해 기업들은 AI 모델 도입 시 발생할 수 있는 위험요소를 최소화하고, 보다 효율적이고 신뢰할 수 있는 인공지능 기반의 솔루션을 구축할 수 있을 것으로 예상합니다.

회사 측은 “기업들이 AI 기술을 안정적으로 도입하고 활용할 수 있는 환경을 제공하며, 이를 통해 산업 전반의 경쟁력 향상에 기여할 것”이라고 밝혔습니다.


출처:ZDNet










비맥스테크놀로지는 원하시는 사양으로 완성 후 철저한 검사를 통해 최적의 pc를 고객님들께 제공해드리고 있습니다.

*넓은 온도 범위 및 견고한 임베디드 팬리스 컴퓨터

*다중 GigE / PoE 포트가 있는 머신 비전 플랫폼

*GPU 엣지 AI Computing(컴퓨팅) 차내 팬리스 PC

*초소형 팬리스 컨트롤러

*감시 / 비디오 분석 컴퓨터 시스템

혹시나 더 궁금하신 점이나 문의사항이 있으시면 비맥스테크놀로지로 문의해 주세요!






메뉴 닫기