AI식 문제풀이 방법1 : 모든 데이터를 학습한다
AI식 문제풀이 방법1 : 모든 데이터를 학습한다
  • 서울이코노미뉴스
  • 승인 2024.06.04 14:07
  • 댓글 0
  • 트위터
  • 페이스북
  • 카카오스토리
이 기사를 공유합니다

기술은 중립적이나 사용방법에 따라서 위험할 수 있다

[용환승 칼럼] 서구식 사고와 컴퓨터식 사고, AI식 사고

인류는 주어진 환경에 적응하며 진화를 해오면서 언어와 문화가 달라졌다. 겉으로 드러나는 차이 외에도 가치관과 생각하는 방식조차 달라서 우리는 서구식과 동양식으로 구분하기도 한다. 

유럽내에서도 영국식과 독일식이 다르며 동양에서는 중국식과 일본식이 있다. 최근에 한류에 따라서 한국식 문화 전반에 대한 세계인의 관심이 크다는 것은 반가운 일이다.

컴퓨터로 인한 사회전반의 변화는 문제가 주어졌을 때 컴퓨터식으로 문제를 풀기 위해서 컴퓨터식 사고(Computational Thinking)를 배워야 한다는 주장이 미국을 중심으로 오래전부터 있어왔다. 

디지털 원주민(Digital Native)은 아날로그에 익숙한 구세대와는 다른 사고체계를 가지고 있으며 스마트폰 세대, AI세대는 달라질 것이다.

그래서 과거의 영어와 국어와 같은 전통 교양과목에 컴퓨터식 사고와 문제해결 기법이라는 새로운 내용을 전 대학생에게 교양으로 가르치고 있다. 

그러나 컴퓨터식 사고의 핵심은 이제 AI로 귀결되고 있다. AI식 사고를 이해할 수 있어야 우리는 모든 문제를 AI식으로 해결하게 될 것이다.

 

AI식 사고의 제1원칙, 모든 지식을 수집한다

"팔십 먹은 노인도 세살 먹은 아이한테 배울 것이 있다”는 우리 속담이 있다. 남녀노소를 불문하고 지혜를 모으는 일은 중요하다. 

진 나라 승상 이사(李斯)는 “태산불사토양고대(泰山不辭土壤 故大) 하해불택세류고심(河海不擇細流 故深) 즉 태산은 한줌의 흙도 사양하지 않고 받아들여서 높고, 강과 바다는 보잘 것 없는 개울물도 가리지 않고 받아들여서 깊어진다”는 말을 남겼다. 

티끌모아 태산이 맞으며 노적성해(露積成海) 즉 이슬이 모여서 바다를 이룬다.

신라가 골품제를 적용해서 최치원 같은 육두품 인재를 중용하지 않았고, 조선은 서얼 출신들을 배제하고, 국민의 50%를 노비로 삼아서 국가를 경영했으니 전쟁에 누가 나가서 싸울 것인가.

또 상인과 공인을 천대하여 임진란에 일본으로 끌려간 도공들이 사무라이급 대우를 해주는 일본에 남기를 바랄 수 밖에 없었다. 

그후 일본은 조선의 도공들이 생산한 도자기를 유럽에 수출해서 막대한 부를 축적할 수 있었고 근대화에 성공하면서 청일전쟁과 러일전쟁에 승리하여 열강의 반열에 오르게 되었다. 

이러한 결과는 모두 우리의 지혜가 부족한 것이 문제다. 인재를 가리지 않아야 하며 또 인재를 구하기 위해서는 기업경영에 있어서도 노력해야 한다.

그래서 유비의 삼고초려(三顧草廬) 이상을 해야만 한다. 인재에 대한 중요성을 인식한 삼성그룹의 노력이 유명한데 삼성은 필요하다고 판단된 인재가 정해지면 어떻게든 초빙에 성공한다고 한다. 

그 비결은 “항상 성공한다”는 인디언 기우제와 “거부할 수 없는 제안”일 것으로 추측된다.

학습 데이터의 양이 AI의 성능을 결정

오늘의 AI는 인류의 쌓아놓은 수집 가능한 모든 지식을 학습하였기에 놀라운 성능을 보일 수 있다. 

절대적인 양이 부족하면 지식의 질은 좋아질 수가 없다. 미래의 AI경쟁도 결국은 데이터 전쟁이나 마찬가지다. 

세계 각국의 언어로 누적된 데이터를 많이 확보하는 것이 중요하다. AI식 사고의 제1원칙은 한개의 데이터도 마다하지 않고 수집해서 바다를 이루는 것이다.

데이터는 초기 파일 시스템에 저장되다가 데이터베이스(DB, Database)로, 더 큰 용량의 데이터 웨어하우스(Data Warehouse)에서 발전했고 이후 데이터 호수(Data Lake)와 데이터 오션
(Data Ocean)의 빅데이터로 진화해왔다. 

오랫동안 인류가 구축해온 데이터베이스와 빅데이터들이 있었기에 오늘날의 AI시스템이 학습할 데이터가 준비되었다. 

현재의 데이터뿐아니라 역사속에서 누적된 과거를 포함한 지구 천체의 데이터(모든 국가와 언어를 포함해서)를 확보하는 것은 인류 공동의 AI를 구축하는 데 필수적이다.

대표적 AI인 GPT-3는 570GB(원본 45TB(테라바이트))의 용량을 가진 7,000억개의 토큰(토큰은 문장 분석의 단위)을 사용했으며 언어비율은 영어 92.6%이고 프랑스어는 1.82%, 한국어 는 28위로 0.017%를 사용했다. 

구글의 람다(LaMDA)는 2조8천억개의 토큰을 사용했고 1년후에 발표된 GPT-4는 300TB 용량을 가진 12조 개의 토큰을 사용했으며 100만 시간 분량의 유투브 영상으로 학습을 했다. 

앞으로 발표될 GPT-5는 약 60조 개에서 100조 개의 토큰을 사용할 예정이라고 전망하고 있다.

반면 문재인 정부가 한국판 뉴딜로 추진한 “AI 데이터 사업”에 1,148억원을 사용하여 구축한 데이터의 34%가 엉터리로 학습에 사용이 불가능하다는 소식이 들려온다. 

쓰레기 데이터를 학습하면 쓰레기 결과가 나온다(Garbage In Garbage Out). 예로 A-D의 네 등급에 해당하는 계란 사진을 16,000장씩 확보하면 이를 학습한 AI는 계란을 사진만으로 등급을 분류할 수 있다. 

그러나 수행 기업은 B등급 사진 43장만 제출했다고 한다. 소고기 등급 사진도 마찬가지였는데 이 기업은 19억원의 국고를 사용했다.

 

AI기술은 중립이지만 응용과 사람에 따라 위험할 수 있다

원효와 지눌, 야운 세 고승이 만든 불교입문서인 초발심자경문에는 “우음수성유 사음수성독(牛飮水成乳 蛇飮水成毒) 즉 소는 물을 마시고 젖을 만드나 뱀은 물을 마시고 독을 만든다”이
라는 문장이 있다. 

똑같은 물도 어디에 쓰느냐에 따라서 달라짐을 알 수 있다. 기술도 중립적이다. 

단 기술이 어떻게 활용하느냐에 따라서 위험할 수 있다. 칼이나 원자력을 생각하면 쉽게 이해가 된다.

중국을 지배한 소수 민족의 원나라는 한족 가정의 주방에 있는 칼이 위험하다고 판단하여 모두 회수하고 10가구에 1개씩만 배치해서 요리를 한 후에 반납하여 보관하는 제도로 대륙을 통치했다. 

명나라는 활을 제조하는 소뿔과 화약 재료의 양을 규제하여 조선을 통제했다.

총기는 개인의 안전을 지킬 수 있는 최후의 보루이지만 다른 사람을 살상할 수도 있어서 대부분의 국가는 휴대를 금지하는 정책을 유지하지만 미국 등 일부 국가에서는 허용하여 미국의 경우 2023년에만 4만2천명이 총기로 사망했다고 한다.

임진왜란의 전황을 기록한 유성용의 징비록은 간행되자 곧 금서로 지정되어 조선에서는 활용되지 못했으나 일본에서는 국가발전에 활용되었다. 

징비록은 오사카의 가판대에서 팔릴 정도로 인기도서였다고 한다. 서점하나 없었던 조선과 비교되는 일이다. 

정조는 박지원의 열하일기를 잡서로 출판금지시켰을 뿐아니라 청으로부터의 서적 수입도 금지시켜서 조선을 우물안 개구리로 만들었다.

모든 일에는 트레이드오프(tradeoff)가 있어서 적당한 선에서 균형을 선택을 해야 한다. 

한쪽으로 치우친 결정은 어리석다. 유리한 점을 살려서 활용을 극대화하고 단점은 최소화하여 활용하는 것이 지혜이며 AI의 기본 철학이다. 

우리의 미래를 위해 쓴 책이 실제 활용되지 못하고 오히려 침공을 했던 적들이 그 책을 활용해서 나라를 발전시킨 셈이니 역사의 아이러니라고 할 수 있다.

 

#외부 칼럼은 본지의 편집방향과 일치하지 않을 수 있습니다.

<필자 소개>

용환승(hsyong@ewha.ac.kr)

서울대학교 컴퓨터공학과 졸업, 대학원 공학박사

한국전자통신연구원 연구원, 국가교육과학기술자문회의 전문위원

한국정보과학회 부회장, 한국소프트웨어감정평가학회 회장

현 이화여자대학교 컴퓨터공학과 교수


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • (주)서울이코미디어
  • 등록번호 : 서울 아 03055
  • 등록일자 : 2014-03-21
  • 제호 : 서울이코노미뉴스
  • 부회장 : 김명서
  • 대표·편집국장 : 박선화
  • 발행인·편집인 : 박미연
  • 주소 : 서울특별시 영등포구 은행로 58, 1107호(여의도동, 삼도빌딩)
  • 발행일자 : 2014-04-16
  • 대표전화 : 02-3775-4176
  • 팩스 : 02-3775-4177
  • 청소년보호책임자 : 박미연
  • 서울이코노미뉴스 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 서울이코노미뉴스. All rights reserved. mail to seouleconews@naver.com
ND소프트