[용환승 칼럼] 기록의 역사는 그림, 글, 사진, 영상의 순서
인류가 기록을 시작한 것은 수만년 전의 구석기시대 암각화를 보면 알 수 있다.
주로 사람이 동물을 사냥하는 모습을 그렸으며, 사람과 동물이 보여주는 행동의 순간을 잘 묘사했다.
그래서 무용총에 그려진 파르티안 사법이라고도 하는 고구려 무사의 배사법이 잘 그려져 있으며, 몽골의 전사들이 세계를 정복하는 데 주로 사용되었다고 한다.
각저총의 씨름도를 보면서 씨름의 역사를 알 수 있으며, 울산의 암각화는 거대한 고래를 사냥하는 모습을 알 수 있다.
그림을 이용해서 문자보다 먼저 인간의 행동이 표현되었던 것이다. 그후 문자를 만들면서 글로 적기 시작했고, 비로서 역사시대가 시작되었다.
기원전 6세기 그리스의 시인 핀다로스는 “글은 행위보다 오래 간다”고 말했다.
행동은 동영상으로 녹화되지 않는 한 그 순간에 사라지지만, 글로 표현을 한 것은 기록에 의해서 오래간다는 뜻이다.
물론 글로 행동을 묘사하는 것에는 표현의 한계가 있어서 시공간의 변화에 따른 행동의 디테일을 담지는 못한다.
조선왕조실록을 기록한 사관은 두 명으로 좌사는 왕의 행동을 기록하고, 우사는 말을 기록했다.
이는 행동을 말과 함께 대등하게 중요시했다는 것을 알 수 있다. 또한 연회와 행차 등 주요행사의 장면은 여러 명의 화공들이 남긴 그림 기록으로 현재에도 재현이 가능하다.
오늘날 우리는 저렴하게 카메라 1대로 한 개인의 모든 행동과 말을 정확하게 기록으로 남길 수 있으며, 일생 전체의 기록을 모두 남길 수도 있게 되었다.
지금도 수많은 유투버들이 세계를 누비면서 혼자서 영상으로 기록을 남기고 있으니, 과거의 어느 왕보다도 많은 기록을 개인이 남기고 있는 셈이다.
동작과 제스처는 문자보다 강렬하다
현재의 스마트폰은 문자 뿐아니라 소리와 영상을 모두 기록할 수 있어서 문자를 입력하지 않고음성으로 받아적도록 해서 더 편리해졌다.
젊은 세대는 주로 영상통화와 함께 틱톡과 유투브와 같은 SNS를 이용해서 세계와 소통한다. 그래서 한 개인의 모든 영상과 특이한 동작까지 쉽게 전달되고 있다.
문자는 언어가 달라 번역이 필요하지만 몸짓과 제스처는 만국 언어라 누구나 이해하고 공감할 수 있다는 장점을 가진다.
제스처와 동작언어가 대세인 시대인 오늘날, 한국 아이돌의 안무를 세계인이 따라하여 손가락 하트사인이 새로운 공통제스처가 되었다.
가수 싸이는 노래 뿐아니라 말춤 동작 하나로 수퍼스타가 되었다. 물론 이 동작의 강렬함은 이후의 모든 후속노래와 동작이 효과를 못보게 하는 부작용도 가져왔다.
축구스타의 골세리모니, 야구장 치어리더의 동작까지 유명해져서 기아 타이거즈의 아웃송 세리모니인 ‘삐끼삐끼’ 춤은 조회수 1억이 넘었으며, 유명 외신에서 기사화되고 걸그룹 수준의 대우를 받고 있다고 한다.
씬 스틸러(scene stealer)라고 단 한 장면과 하나의 동작만으로 스타가 되는 시대이기도 하지만, 몰래카메라에 잡힌 말과 영상 및 제스처로 인한 곤욕사례를 보면 행동거지를 더 조심해야만 한다.
한국인은 단체로 사진을 찍을 때면 반드시 ‘화이팅’하면서 주먹을 쥐어야 한다. 이렇게 하지 않으면 뭔가 중요한 것이 빠진 듯 허전하다.
금메달을 받으면 이빨로 깨물어봐야 하고, 시상식에서 셀카를 찍고, 승리하면 큰 절로 응원관객에게 감사를 표한다. 공손하게 허리숙여 배꼽인사하는 것도 빼놓을 수 없다.
우리는 절을 할 때 두 무릎을 꿇는 자세를 취한다. 그러나 북방 유목민족의 풍습은 한쪽 무릎만 꿇고 절한다.
한족과 고조선의 풍습이 차이가 있으며 이러한 절은 고구려를 거쳐 금, 요, 원과 고려로 이어졌다. 조선에 와서 중국식 절로 변경되었다.
주먹을 쥐고 파이팅하는 모습과 두 손가락으로 하트를 만드는 제스처는 근래에 만들어져서 세계로 보급되고 있다.
모든 동작이 카메라에 잡히는 시대가 되어서 온 인류의 모든 동작들이 놓치지 않고 SNS에 올라오는 시대가 되었다.
며칠 전에 별세한 송혜희의 부친은 실종된 딸을 찾는 현수막을 25년간 전국 곳곳에 게시했다. 어려운 경제 형편에 현수막 대신 SNS를 이용했어도 되었을 것인데
디지털 세대가 아닌 분이 내거는 마지막 현수막이지 않을까 한다.
그림보다 글을 우선한 정약용
1814년에 출간된 자산어보는 정약전이 먼저 그림을 그려서 “해족도설(海族圖說)”이라는 책의 계획을 보냈더니, 동생은 “글로 쓰는 것이 그림을 그리는 것보다 나을 것입니다.”고 답해서
글로 쓰여졌으니 아쉬울 따름이다. 글이 우선이고 그림은 보조적인 수단이라는 성리학의 한계를 볼 수 있다.
자산어보에서 만든 이름의 조사어(釣絲魚), 즉 아귀를 표현한 부분을 보자.
“큰 것은 두자 정도고, 모양은 올챙이를 닮았다. 입이 매우 크고 빨갛다. 입술 끝에 두 개의 낚싯대가 있는데, 크기는 의사가 쓰는 침과 같다. 길이는 4-5치이며 낚싯대 끝에 낚시줄이 있는데 크기는 말꼬리와 같다. 그 낚시줄에 달린 먹이를 흔들어서 다른 물고기를 유인하여 잡아먹는다.”
아귀의 생태에 대해서는 자세히 관찰된 기록이나 아귀의 모습은 상상하는 수 밖에 없다.
일설에 의하면 자산어보는 원문이 방을 도배하는 데 사용된 것을 발견하여 겨우 구해서 필사본으로만 전해진다는 설이 있지만, 신동아(2006년 7월호)는 진기홍 고서 전문가가 우여곡절 끝에 입수한 책이 정약전이 직접 쓴 자산어보의 진본이라고 주장한다.
1949년 좌익으로 처형된 국문학자 김태준이 소장한 물품을 전주우체국 국장이던 당시 입수하게 되었다는 것이다. 진본이 사실이라면 다행스러운 일이다.
멀티 모달(MuLti-modaL)로 진화한 AI
멀티 모달이란 시각이나 청각 등 단일 감각기관이 아니고, 다중의 감각기관으로 정보를 입력해서 처리하는 방식을 의미한다.
우리는 상대방과 대화하면서 말뿐 아니라 표정과 몸짓 등 전체를 종합적으로 인식해서 상황을 파악하여 대처하는 것과 같다.
대규모 언어 모델로 출발한 AI는 초기에 입출력을 문장 중심으로 이루어졌다.
그러나 그림을 생성하는 경우 언어만으로 표현하는 한계는 곧 문장과 스케치나 그림을 동시에 입력으로 주는 멀티 모달 기능으로 확장되었다.
오늘날 AI는 문서를 음성으로, 그림으로, 그림을 문자로 설명하고, 음성을 인식하며 동영상을 생성하기도 하는 등 1년 만에 미디어 변환(transform) 지능으로 진화했다.
이와 같이 그림지능과 영상지능이 추가된 AI의 복합 미디어지능은 멀티 모달 인터페이스를 가능하게 했다.
최근에는 언어로 표현된 모든 결과물을 영상으로 만들어 주는 것이 가능해져서 누구나 영화감독과 PD가 될 수 있다.
경북연구원에서는 “서라벌 천년여행”이라는 7분30초짜리 영상을 시연했는 데 100% AI를 이용해서 제작한 것이다.
이 영상에는 남녀 배우와 그래픽, 성우의 내레이션, 작곡된 음악과 가수가 부르는 노래가 포함되었다.
이 컨텐츠를 기존의 미디어 제작사에 의뢰하면 제작기간도 수개월 이상에 비용이 최소 수천만원이 들어야만 가능했을 것이나,
시나리오 제작에 3명이 11일 걸렸고 영상 제작은 1명이 2.5일만에 만들었다.
영상의 질은 흠잡을 데 없는 고화질이었으며, 시나리오조차 AI로 작성을 시킨다면 비용과 제작기간은 더 단축될 것이다.
컨텐츠 혁명의 시대가 오고 있음을 실감할 수 있다.
#외부 칼럼은 본지의 편집방향과 일치하지 않을 수 있습니다.
<필자 소개>
용환승(hsyong@ewha.ac.kr)
서울대학교 컴퓨터공학과 졸업, 대학원 공학박사
한국전자통신연구원 연구원, 국가교육과학기술자문회의 전문위원
한국정보과학회 부회장, 한국소프트웨어감정평가학회 회장
현 이화여자대학교 컴퓨터공학과 교수