자연어 처리의 성장...“OOO이 강력한 언어 모델을 탄생시켰다”

channel_editor_icon 오렐리앙 제롱

2022-12-19

14.2K

오렐리앙 제롱(Aurélien Géron), 『핸즈온 머신러닝』 저자

[사진 출처: 오렐리앙 제롱 트위터, https://twitter.com/aureliengeron/status/1177941860691496961]

딥러닝의 여러 혁신이 강력한 언어 모델을 탄생시켰습니다. 여러분은 벌써 GPT-3 같은 언어 모델의 깜짝 놀랄 데모를 보았을지 모르겠습니다.(!!)

이 모델은 "a frog meets a crocodile" 같은 짧은 프롬프트(prompt)가 주어지면 이야기를 통째로 만들어냅니다. 물론 셰익스피어에 견줄 만큼은 못 되지만, 인공 신경망이 썼다고는 도저히 믿지 못할 훌륭한 글이 되기도 합니다.

사실 이 글을 쓸 때 깃허브 코파일럿(Copilot) 시스템의 도움을 받았습니다. 제가 실제로 쓴 글이 얼마나 되는지 여러분은 결코 알지 못할 것입니다.

이 혁명은 텍스트 생성에 그치지 않습니다. 텍스트 분류부터 요약, 번역, 질문 답변, 챗봇, 자연어 이해(natural language understanding, NLU)까지 자연어 처리(natural language processing, NLP) 전 분야를 아우릅니다.

언어, 음성, 텍스트가 있는 도처에는 NLP 애플리케이션이 있습니다. 이미 여러분은 내일 날씨를 스마트폰에 물어보고 문제 해결을 위해 가상의 상담원과 채팅하거나 검색어를 진정으로 이해하는 듯한 검색 엔진에서 의미 있는 결과를 얻습니다.

하지만 이는 여전히 신생 기술이며 아직 최고의 경지에 이르지 않았습니다. 과학의 여느 발전과 마찬가지로, 최근 NLP의 혁명은 이름 없는 수많은 영웅의 노고로 이루어졌습니다. 그 외 NLP 성공을 견인한 동력은 다음 세 가지입니다.

하나, 트랜스포머

트랜스포머는 2017년에 구글 연구팀이 발표한 획기적인 논문 ‘Attention Is All You Need’(https://arxiv.org/abs/1706.03762)에 제안된 신경망 아키텍처입니다.

이후 수년 만에 업계를 휩쓸며 순환 신경망(RNN)을 기반으로 한 전형적인 이전 아키텍처들을 압도했습니다. 트랜스포머 아키텍처는 긴 시퀀스 데이터에서 패턴을 감지하고 대용량 데이터셋을 처리하는 데 뛰어납니다.

따라서 이제 NLP를 넘어 이미지 처리 등의 작업에도 사용됩니다.

둘, 대규모 데이터셋과 언어 모델

대부분 프로젝트는 밑바닥부터 모델을 훈련할 대규모 데이터셋이 없습니다. 다행히도 대개는 범용의 데이터셋에서 사전 훈련한 모델의 다운로드가 가능합니다.

그다음 할 일은 (규모가 훨씬 작은) 자신의 데이터셋에서 미세 튜닝하는 것이죠. 이게 전부입니다.

2010년 초부터 사전 훈련은 이미지 처리 분야의 주류가 됐습니다. 하지만 NLP에서는 문맥이 없는 단어 임베딩(즉, 개별 단어의 밀집 벡터 표현)으로 국한됐습니다.

가령 ‘teddy bear’와 ‘to bear’에서 ‘bear’는 사전 훈련된 임베딩이 동일합니다. 그 후 2018년에 여러 논문이 사전 훈련되어 다양한 NLP 작업에서 미세 튜닝할 수 있는 완전한 언어 모델을 제안했는데, 이를 계기로 판도가 완전히 바뀌었습니다.

셋, 허깅페이스의 라이브러리

허깅페이스의 모델 허브(hub)도 판도를 바꾸는 데 일조했습니다. 초기에는 사전 훈련된 모델이 여러 곳에 산재됐기 때문에 필요한 것을 찾지가 쉽지 않았습니다. 또 머피의 법칙처럼 파이토치 사용자가 텐서플로 모델만 찾거나 그 반대의 일도 다반사였습니다. 그리고 모델을 찾은 후 미세 튜닝하는 방법을 파악하기는 언제나 어렵습니다.

이때 트랜스포머스 라이브러리가 등장했습니다. 이 라이브러리는 오픈소스이고 텐서플로와 파이토치를 모두 지원합니다. 허깅페이스 허브에서 최첨단의 사전 훈련 모델을 다운로드하고, 현재 작업에 맞게 설정하고, 자신의 데이터셋으로 미세 튜닝해 평가할 수 있습니다.

이 라이브러리 사용자는 빠르게 늘고 있습니다. 2021년 4분기 기준, 5천여 조직에서 사용 중이고 매달 pip(패키지 관리자)를 통한 설치가 4백만 건을 상회합니다.

또 이 라이브러리와 생태계는 NLP의 경계를 넘어 확장되고 있습니다. 이제는 이미지 처리 모델도 제공합니다. 허브에서 수많은 데이터셋을 다운로드해 모델을 훈련하고 평가할 수 있습니다.

그리고 +@

필요한 것이 남았나요? 네, 바로 <트랜스포머를 활용한 자연어 처리>입니다! 이 책은 트랜스포머스 라이브러리의 개발자들과 허깅페이스의 오픈소스 개발자들이 공동 집필했습니다. 이 책에서 접하게 될 정보의 폭과 깊이는 놀라울 정도입니다.

트랜스포머 아키텍처 자체에서 시작해 트랜스포머스 라이브러리와 이를 둘러싼 생태계까지 전 영역을 아우릅니다. 저는 특별히 이 책의 실습 주도 방식을 높이 평합니다.

모든 예제 코드는 주피터 노트북을 따라 실습할 수 있으며, 직관적이고 이해하기 쉽습니다. 저자들은 초대형 트랜스포머 모델을 훈련해본 다년의 경험을 살려 모든 내용이 효율적으로 작동하도록 팁과 트릭을 제공합니다.

빼놓을 수 없는 이 책의 마지막 특징은 작문 기법입니다. 직접적이면서 생동감이 있어 소설처럼 읽게 됩니다.

한마디로, 저는 이 책을 정말 재미있게 읽었고 여러분도 그러리라고 확신합니다. 최첨단 언어 처리 기능의 제품을 만드는 데 관심 있다면 이 책을 추천합니다.

이 글은 <트랜스포머를 활용한 자연어 처리> 도서에 대한 오렐리앙 제롱의 추천사 일부를 발췌한 글입니다. 허깅페이스 개발팀이 직접 알려주는 트랜스포머와 자연어 처리 기술에 대한 자세한 내용은 하기 링크의 도서에서 만나보실 수 있습니다.

『트랜스포머를 활용한 자연어 처리』