NLP study

[LLM] Databricks Dolly 란 무엇인가?

2로 접어듦 2023. 4. 15. 11:16

참고 링크

https://www.youtube.com/watch?v=Xp0sAghk28M

https://github.com/databrickslabs/dolly

https://www.youtube.com/watch?v=AWAo4iyNWGc

https://www.aitimes.com/news/articleView.html?idxno=150518

 

I wrote this article for my studying about LLM and Dolly, this article doesn't make any commercial benefits. If there is any copyright issues, please kindely write comments below.

 

사진 출처 wikipedia. Alpaca(left) and Dolly(right)

(LLM) Large Language Model Current Releases


  • 스탠포드에서 LLaMa 기반으로 Alpaca 출시
  • Databricks에서 Dolly 출시

Dolly는 무엇인가? Chat GPT와 비교해보면,


image from https://www.youtube.com/watch?v=Xp0sAghk28M

오픈소스인 GPT-J-6B 모델에 직접 만든 데이터세트를 학습시킨 모델이다.

ChatGPT는 현재로서는 공개되어 있지 않지만, Dolly는 모든 것을 오픈해두었다는 것이 큰 특징이다

(심지어 상업적 이용도 가능!! 이게 가장 큰 장점이고 특징이라서 이슈화되는 중!)

 

이 모델은 Alpaca의 오픈소스버전 클론이기 때문에 Dolly라고 이름지었다고 하는데, 알파카와 모델도 다르고, 학습한 데이터세트도 다른데, 정확히 어떤 스타일을 복제한 것인지는 잘 이해하지 못했다. -> version 1.0 Dolly의 dataset가 Alpaca로부터 생성되었기 때문인 것으로 추정.

학습 데이터세트 예시


  • instruction(질문), content(문맥), response(정답), category(분류)로 나누어 데이터세트를 직접 (5,000명의 직원들이) 제작하였음.
  • 약 1만 5천개의 데이터로 학습. Stanford의 Alpaca가 LLaMa 기반으로 50,000개의 human-like question 데이터로 새롭게 학습시킨 것에 비하면 엄청나게 적은 데이터세트이다.
  • 카테고리: brainstorming, classification, closed QA, generation, information extraction, open QA, and summarization.
  • 텍스트 데이터 생성, text augmentation 등의 태스크 수행도 가능하다.

어떻게 소형화 시켰는가?


본인 가설: instuct GPT로부터 영감을 받은 것 같다.

특정 태스크(open domain QA, summarize, classification, …)에 대한 모델의 답변에 사람이 직접 피드백한 데이터들로 다시 finetuning, reinforcement learning을 진행시키면서 사람의 의도에 좀 더 알맞은 텍스트 생성이 가능하도록 했으니, (chatGPT에 비해)더 적은 파라미터를 가진 모델임에도 비슷한 성능을 내게 된 것이 아닐까 추측한다.

chatGPT와 비슷하게 질의가 가능하도록 특수하게 finetuning했기 때문에 가능한 게 아닐까.

상업적 사용 가능한 영역에는 무엇이 있을까?


  • 모델을 학습시키는 데 사용한 instuction dataset가 공개되어있고, 학습 코드 또한 공개되어있으므로, 적용시키고 싶은 어떤 분야의 데이터든 직접 가져와서 학습시켜 산업에 적용시킬 수 있다는 점이 큰 장점이다.
  • 각종 텍스트 데이터의 분석 및 요약, 컨텐츠 생성, 개인화 추천 등등 다양한 영역에 활용될 수 있다.

특징 및 한계점


  • alpaca와는 다르게, state-of-art 모델이 아님에도 chatGPT와 비슷한 성능을 낼 수 있다(준수한 텍스트 생성 결과를 보임)
  • 한계점
    • 당연하게도, 특정한 태스크에 한정된 데이터세트로 finetuning했으므로, chatGPT처럼 범용적으로는 활용하기 어렵다. 예를 들면, 문법적으로 복잡한 프롬프트, 프로그래밍 문제, 수학문제 등을 해결할 수 없으며, 아주 자신있게 답변하는 대답이 거짓일 가능성이 크다고 한다(Hallucination이라고 불리는 문제)
    • 전반적으로 chatGPT를 흉내내는 모델에 그치는 수준.

version information

내가 찾아본 데이터세트 정보는 2.0 데이터 정보다. 2.0 깃허브를 봤어서 오해했다.

1.0 버전은 alpaca-generated dataset이었기 때문에 알파카 복제 본이군. + DALL-E 이름 따라한 것도 있다.

Dataset information

1.0 출시 이후 1-2주 만에 15K 데이터 생성. 직원들 열심히 competition 부추겨서 질 높은 데이터세트 생성.