본문 바로가기

인공지능

초거대 AI

초거대 AI란?
엄청난 양의 데이터와 매개변수(가중치,파라미터)를 학습시킨 AI
== LLM(a large language model),
NLP(Natural Language processing)

초거대 AI 활용


초거개 AI 사례


초거대 AI란?

딥러닝 기법을 쓰는 인공신경망 가운데서도 그 파라미터(매개변수)가 무수히 많은 AI를 뜻한다.

파라미터는 인간 뇌에서 정보를 학습하고 기억하는 역할을 담당하는 시냅스와 유사한 역할을 한다. 학습량이 많을수록 좋은 결과를 낼 가능성이 높은 것처럼, 파라미터의 규모가 커질수록 AI가 데이터를 분석하는 지능도 비약적으로 확대된다. 1,000억 개 이상의 파라미터를 가진 초거대 AI는 언어뿐만 아니라 이미지와 영상을 이해하고, 데이터 추론까지 가능하다. 초거대 AI의 원형으로 거론되는 GPT-3는 몇 개의 키워드만 넣으면 대화의 문맥을 파악해 사람처럼 대화하거나 창의적인 답변을 내놓는다. 인간이 작성한 뉴스 기사와 구분하기 어려운 정도의 기사나 수필, 소설을 창작하기도 한다.

 

초거대 AI 모델 비고

기업명 초거대 AI 특징 공개연도
구글 PalM 최대 규모, 최대성능으로 추정되는 초거대 AI 언어모델
매개변수 5400억개
2022년
오픈AI GPT-3 초거대 AI 언어모델 2020년
구글 Imagen Text to image 2022년 06월
오픈AI DALL-E 2 Text to image 2022년
(Dall-e - 2020년)
MS MT-NLG MS와 엔비디아와 함께 개발한 초거대 AI 언어모델
매개변수 5300억개  레이어 수 105개

2021년
메타 OPT-175B 대형 언어 모델의 편향과 오용을 방지하기 위한 연구를 목적으로 비상업적 라이선스로 공개되었다.
매개변수 1750억개
2022년
네이버 하이퍼클로바 한국어에 특화, 멀티모달리티 모델 2021년
LG 엑사원 Text to image 및 image to text 기능이 가능한 멀티모달리티 모델
매개변수 3000억개
2021년
카카오 KoGPT GPT-3의 한국어 특화 버전 AI 언어 모델 2021년
카카오 minDALL-E DALL-E의 한국어 특화버전 멀티모달리티 모델  2022년














초거대 AI 의 문제점 및 한계

 

  1. 윤리적 문제

2022년 6월 구글은 Imagen 모델을 공개하였지만 DALL-E 2와 마찬가지로 구글은 Imagen을 대중에게 제공하지 않을 방침이다. 초거대 AI는 무한한 창의성의 잠재력을 갖고 있지만 윤리적, 도덕적, 사회적, 문화적으로 많은 문제와 혼란을 불러올 소지가 크기 때문이다. 구글이 제시한 샘플 이미지에 사람은 포함되지 않았는데 자칫 인종이나 성차별적인 형태로 비춰질 수 있다는 우려가 작용했다. 

오픈AI도 또한 이 문제를 해결하기 위해 달리2에 몇 가지 제약을 걸어놓았다고 밝혔다. 폭력적이거나 포르노, 정치색이 있는 이미지를 생성하거나 딥페이크 문제를 방지하기 위해 실제 사람의 이미지를 생성하는 것을 금지했다.

  1. 환경적 문제

보통 초거대 AI를 운용하는 데에는 일반 서버 3000대가 사용하는 전력이 필요한 것으로 알려져 있다. 많은 기업이 추구하는 ESG 경영과는 상반되게 초거대 AI는 탄소배출의 주범이 되고 있는 것이다.신정규 래블업 대표는 “초거대 AI를 학습시킬 때 소모되는 전력 사용량을 일반 AI와 비교했을 때 9대 1 정도”라며 “전력을 사용하는 만큼 성능을 높이면 문제가 없겠지만 실상은 그렇지 않다는 것이 문제”라고 지적했다.



















  1. PalM

https://byline.network/2022/04/7-138/

PalM은 2020(Pathways Language Model)

PaLM은 6,144개의 TPU v4 칩을 결합해 단일 모델을 효율적으로 훈련할 수 있도록 하는 Pathways 시스템으로 학습된 5,400억 개의 매개변수, 트랜스포머(Transformer) 기반 모델이다. PaLM은 수백 가지의 언어 이해 및 생성 작업에 대해 시험됐으며 현재까지 만들어진 다른 언어 모델보다 학습 효율성이 높다.



  1. DALL-E 2
  1. DALL-E 란?

DALL-E 1은 2021년 1월 OpenAI가 공개한 Text-to-image 모델이다. 1년 후 DALL-E 2를 공개하였다. 두 모델  모두 자연어를 통하여 이미지를 생성하는 인공 지능 시스템이다.

  1. DALL-E 1-> DALL-E 2 차이점

DALL-E 1은 dVAE(Discrete Variational Autoencoder-이산변형 자동인코더)로 다음 토큰 예측 및 CLIP 모델로 순위를 재지정을 하는 반면, DALL-E 2는 CLIP으로 임베딩을 직접 사용하고 GLIDE 모델을 통해 CLIP 이미지 임베딩을 확률적으로 디코딩하기 위해 이미지 인코딩 프로세스 를 반전 시키는 방법으로 학습한다.

DALL-E 1 -> DALL-E 2  개선점

https://simplified.com/blog/ai/dall-e-1-vs-dall-e-2/

  • 텍스트의 명료함과 빠른 결과물 출력
  • 고해상도 이미지

 

  • 리터칭 및 수정이 간단해짐 

 

  1. DALL-E 2 아키텍쳐

확산모델이며 CLIP + VQ-VAE + GLIDE로 구성된다.

https://www.assemblyai.com/blog/how-dall-e-2-actually-works/

https://vaclavkosar.com/ml/openai-dall-e-2-and-dall-e-1#openais-glide

 

  1. 먼저, 텍스트 프롬프트가 표현 공간에 프롬프트를 매핑하도록 훈련된 텍스트 인코더에 입력
  2. 그 다음 prior 모델은 텍스트 인코딩에 포함된 프롬프트 의미 정보를 캡쳐하는 이미지 인코딩에 텍스트 인코딩을 매핑
  3. 마지막으로 이미지 디코딩 모델이 의미 정보의 시각적 표현인 이미지를 확률적으로 생성함



확산 모델 (diffusion model)

노이즈가 있는 상태에서 시작해 이미지를 정교화하는 과정을 여러 번 거치는 이미지 생성 방식이다. 노이즈가 남지 않을 때까지 반복해 요청 사항에 맞는 이미지를 만든다.

 

CLIP 모델

https://openai.com/blog/clip/

https://dealicious-inc.github.io/2021/03/22/learning-transferable-visual-models.html

 

VAE(Variational Autoencoders)

https://housekdk.gitbook.io/ml/ml/computer-vision-transformer-based/zero-shot-text-to-image-generation-dall-e



GLIDE 

Diffusion 모델이지만, Text를 condition으로 받아서 이미지를 생성할 수 있는 모델이다.




KT

https://youtu.be/quFCapow6JM


http://www.aitimes.com/news/articleView.html?idxno=145507

 

[AI 주간브리핑] GPT-4가 다가오고 있다 - AI타임스

[편집자주] 한 주간 주요 인공지능(AI) 동향을 가 정리해 드립니다. [AI 주간브리핑]을 보시며 주요 AI 이슈를 만나보세요. 본문 내 제목을 클릭하면 자세한 기사 내용을 보실 수 있습니다.초거대

www.aitimes.com