LLM vs LMM : 미래의 언어모델은?

딥러닝과 자연어 처리 기술(NLP)이 빠르게 발전하면서 언어 모델의 성능도 날로 향상되고 있습니다.

특히, LLM(Large Language Model)과 LMM(Large Multi Modal Model)은 NLP 분야에서 주요한 언어 모델 유형으로 주목 받고 있고,

최근에는 LLM 기반 GPT-4가 출시된 지 1년이 채 안 되어 LMM 기반의 GPT-4V(ision)이 공개되었습니다.

이는 NLP 분야의 기술 발전 속도가 매우 빠르다는 것을 보여주는 대표적인 사례입니다.

향후 자연어 처리 기술 발전을 주도할 언어 모델은 과연 어떤 것이 될까요?

1. 정의

LLM (Large Language Model)

방대한 양의 텍스트 데이터를 학습하여 다양한 종류의 텍스트를 생성할 수 있는 능력을 갖춘 모델입니다.

예를 들어, 시, 코드, 대본, 음악 작품, 이메일, 편지 등과 같은 다양한 종류의 텍스트를 생성할 수 있습니다. 또한, 텍스트를 번역하거나, 요약하거나, 질문에 답하는 등의 작업에도 사용할 수 있습니다.

사용 아키텍처 : 트랜스포머 (Transformer)라는 신경망 아키텍처를 기반

아키텍처 예 : GPT-3 (Generative Pretrained Transformer), BERT (Bidirectional Encoder Representations from Transformers) 등

LMM (Large Multimodal Model)

텍스트 데이터 외에도 이미지, 오디오 등 여러 가지 유형의 데이터를 통합하여 처리할 수 있는 능력을 갖춘 모델입니다.

예를 들어, 영화, 음악, 뉴스 등 다양한 미디어 콘텐츠 요약 및 생성, 음성 인식, 이미지 인식, 감정 분석 등 여러가지 유형의 데이터를 처리하는 작업에 사용될 수 있습니다.

사용 아키텍처 : 트랜스포머와 비전 인코더 (Vision Encoder)와 같은 다른 모델들을 결합하는 비전 언어 교차 모델 커넥터 (Vision-Language Cross-Modal Connector)와 같은 아키텍처를 기반

아키텍처 예 : GPT-4V(ision), 라바(LLaVA) 1.5 등

2. 특징

LLM과 LMM은 모두 방대한 양의 데이터를 학습하여 다양한 작업을 수행할 수 있는 능력을 갖춘 모델입니다. 그러나, 두 모델은 각각의 장단점이 있습니다.

LLM은 텍스트를 이해하고 생성하는 능력이 뛰어나나, 학습 데이터에 사실적인 정보 뿐만이 아니라 편향되거나 잘못된 정보도 포함될 수 있기 때문에 편향성이나 환각 현상(Hallucination)이 발생할 수 있습니다.

*편향성 및 환각 현상의 대표적 예시 “세종대왕 맥북 던짐 사건”

2023년 3월 2일, ChatGPT가 “세종대왕이 맥북을 던진 사건이 조선왕조실록에 기록되어 있다"고 대답해 화제가 되었습니다.

잘못된 정보는 챗봇 내부에서 환각 현상으로 나타날 수 있습니다. 즉, 챗봇은 현실에는 존재하지 않는 세종대왕 맥북 던짐 사건을 마치 사실인 것처럼 인식하게 된 것입니다.

또한 특정 집단이나 이념에 편향된 정보를 학습할 가능성도 있습니다. 이러한 편향성은 챗봇이 생성하는 정보에 영향을 미치게 됩니다.

예를 들어, 챗봇이 편향된 정보에 대해 질문을 받으면, 편향된 정보를 바탕으로 답변을 생성할 가능성이 높습니다. 이러한 답변은 현실을 왜곡하고, 사람들의 편견을 강화할 수 있습니다.

이미지 출처 : 한국일보

LMM은 텍스트와 이미지, 오디오 등 다양한 데이터를 처리할 수 있는 장점이 있어 LLM보다 새로운 분야에서 응용 가능성이 높습니다.

그러나 서로 다른 데이터 유형을 통합하여 처리하기 때문에 학습 데이터의 양이 방대해야 하고, 학습 시간이 오래 걸리는 단점이 있습니다.

또한 텍스트만 처리하는 LLM에 비해, 데이터 통합을 위해 추가적인 분석을 수행하기 때문에 단순히 텍스트 처리 능력만 놓고 비교한다면 LLM에 비해 성능이 다소 떨어질 수 있는 단점이 있습니다.

3. 활용 분야

LLM과 LMM 모두 교육, 금육, 의료, 제조, 헬스, 뷰티, 건설 등 다양한 산업 분야에서 활용이 가능합니다.

LLM은 텍스트 처리 능력이 뛰어나기 때문에, 자연어 처리, 창의적 텍스트 생성 등의 분야에서 활용될 가능성이 높습니다.

LMM은 데이터 통합 및 다양한 분야에서의 응용 가능성이 높기 때문에, 이미지 인식, 음성 인식, 자율 주행 등의 분야에서 활용될 가능성이 높습니다.

LLM

자연어 처리: 텍스트 분류, 텍스트 요약, 질문 응답, 언어 번역 등
창의적 콘텐츠 생성: 뉴스 기사, 소설, 시, 코드 등 다양한 종류의 텍스트를 생성
챗봇: 챗봇을 통해 자연스러운 대화를 가능하게 하는 데 기여

LMM

자연어 처리: 텍스트와 이미지, 텍스트와 오디오 등 서로 다른 데이터 유형을 통합하여 처리
컴퓨터 비전: 이미지와 텍스트를 통합하여 처리
음성 인식: 음성과 텍스트를 통합하여 처리
다중 형태의 데이터 분석: 감정 분석, 복합적 데이터 세트에서의 패턴 인식 등.

4. 윤리적 고려 사항

이러한 거대 모델의 가파른 성장은 대규모 데이터를 처리하는데 따른 개인의 프라이버시, 편향, 공정성 등 다양한 윤리적 문제를 수반할 수밖에 없습니다. 이러한 문제를 해결하기 위해 여러 관점에서 해결 방안을 모색하는 시도가 있습니다.

1) 제도적 관점

데이터 프라이버시와 보안: LLM과 LMM은 대량의 데이터를 처리합니다. 이 때, 사용자 데이터의 프라이버시 보호와 보안 유지가 중요합니다. 규제 기관은 데이터 보호 규정(예: GDPR)을 통해 사용자 데이터의 수집, 사용 및 저장 방식을 관리해야 합니다.
편향과 공정성: AI 모델은 훈련 데이터에 내재된 편향을 학습할 수 있습니다. 따라서, 편향을 최소화하고 다양성과 포용성을 증진하는 방향으로 모델을 개발하고 관리하는 정책이 필요합니다.
투명성 및 책임성: AI의 결정 과정과 결과에 대한 투명성을 확보하고, 잘못된 결정이나 피해에 대한 책임을 명확히 해야 합니다.

2) 사회적 관점

공공 의식과 인식 제고: AI 기술의 잠재적인 위험과 이점에 대한 공공의 인식을 높이고, 적절한 기대치를 설정하는 것이 중요합니다.
디지털 격차 해소: AI 기술의 발전이 특정 지역이나 집단에만 혜택을 주는 것이 아니라, 모든 사람에게 도움이 되도록 디지털 격차를 해소하는 노력이 필요합니다.
윤리적 기준 설정: AI 기술의 발전에 따라 새로운 윤리적, 사회적 문제가 발생할 수 있으므로, 지속적인 윤리 기준의 개발과 적용이 필요합니다.

3) 사용자 관점

개인정보 보호와 동의: 사용자는 자신의 데이터가 어떻게 사용되고 있는지 알 권리가 있으며, 명시적인 동의 없이 개인정보가 사용되지 않도록 보호 받아야 합니다.
AI 결정에 대한 이해와 통제: 사용자는 AI 시스템이 내리는 결정의 기준을 이해하고, 필요한 경우 이에 대해 통제할 수 있어야 합니다.
피해 구제 방안: AI 시스템으로 인해 피해를 입었을 때, 이를 구제 받을 수 있는 명확한 방안이 마련되어야 합니다.

4. 전망

LLM과 LMM은 각각 고유한 장점과 특성을 가지고 있으며, 모두 미래의 언어 모델을 구성하는 핵심 기술입니다.

LLM과 LMM의 발전은 자연어 처리 작업의 정확도와 효율성을 크게 향상 시킬 것으로 기대되며, 어떤 모델에 초점을 맞출지는 현재의 기술 발전과 사회적, 경제적 요인에 따라 달라질 수 있습니다.

LLM은 텍스트 기반의 응용 분야에서, LMM은 다양한 형태의 데이터를 통합적으로 이해하고 활용하는 분야에서 각각 중요한 역할을 할 것입니다.

또한 두 모델은 AI의 미래에 핵심적인 역할을 할 것이며, 서로 보완적인 관계를 유지할 것으로 예상됩니다. 최근에는 LLM과 LMM의 장점을 결합한 통합적인 모델이 개발되고 있습니다.

이러한 모델은 텍스트 기반의 깊은 이해력과 멀티모달 데이터를 통합적으로 분석하는 능력을 모두 갖추게 되어 두 모델을 단순 선택하는 것이 아닌 통합 모델이 개발됨에 따라 NLP 분야는 더욱 발전하게 될 것으로 기대됩니다.