나에게 필요한 지식과 기술을 검색해 보세요.

대표이미지

핵심만 담은 비전 기반 멀티모달 AI 모델 이해와 개발

CNN부터 VLM까지, 원리를 이해하며 서비스를 만드는 AI 개발자가 됩니다

강사

대디메이커

강의

21강

시간

9h 37m

레벨

중급

기간

무제한

정가

200,000

총 결제 금액

200,000

강사

커리큘럼

1 강좌 소개

18:44

02

2 컴퓨터 비전 모델의 발전 동향

1:17:39

03

3 자연어 처리(NLP) 주요 개념

29:19

04

4 허깅페이스 파이프라인

28:20

05

5 개요

1:12:09

06

6 동작 구조

38:14

07

7 핵심 연산 스크래치 구현

36:38

08

9 이론. 모델 학습 기법

26:12

09

10 실습. 모델 학습 실습

20:55

10

11 이론. ViT 구조 개요

11:36

11

12 실습. ViT 모델 활용 방법

03:29

12

13 실습. Hugging Face ViT 모델 인퍼런스

18:22

13

14 대조 학습(Contrastive Learning) 구조 및 제로샷 추론

19:00

14

15 실습. OpenAI CLIP 활용 이미지 자동 분류 예제

07:18

15

16 실습. CLIP 프롬 스크래치를 통한 동작 메커니즘 구현 방법 확인

23:44

16

17 VLM 아키텍처 개요 및 주요 모델

43:47

17

18 실습. 오픈웨이트 모델 기반 VLM 인퍼런스 실습

27:08

18

19 서비스 구현 방법

18:50

19

20 VLM 서비스 구현 실습

24:57

20

21 SOTA

16:38

21

22 참고자료 소개 및 결론

14:25

수강 후기

200,000

200,000