NLP study 10

[논문리딩] ANCE : Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval

* 현재 내용을 보충 및 수정 중인 포스트입니다. 논문의 저자 Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul Bennett, Junaid Ahmed, Arnold Overwijk, Microsoft, 2021, ICLR 논문의 하이라이트 및 핵심 1. Dense Retrieval(DR)이 종종 Sparse Retrieval에 비해 성능이 낮게 나오는 이유를 밝혀냈다. local uninformative negative samples들이 어떠한 영향을 주기 때문이다. 2.ANCE(Approximate nearest neighbor Negative Contrastive Learning)을 도입해서 BERT-base IR 과정에서 100배..

NLP study 2023.08.22

[NLP 이론] R-drop과 KL-divergence, 그의 활용

R-drop 이란? 먼저 Dropout이란, regularization 기법의 일종으로, 모델의 complexity가 주어진 데이터 및 태스크에 비해 너무 클 경우 과적합(overfitting) 하게 되는 것을 방지하고자 고안된 regularization 기법이다. Dropout은 Fully connected layer에서 몇 개의 unit들을 동작하지 않도록(weight=0) 설정하여 일부만 weight를 전달하도록 학습하게 되는데, 모델의 복잡도를 떨어뜨리면서도 test 시에는 모든 unit들이 동작하게 되어 앙상블과 유사한 효과를 가져올 수 있다(일반화 성능 향상을 기대할 수 있다.) 적은 parameter들로 하여금 feature를 학습하고 정보를 소유할 수 있도록 '규제'함으로써 overfitt..

NLP study 2023.04.29

[대회 회고] Semantic Text Similarity(STS) 대회 회고

대회 개요 대회 기간: 2023.04.10 ~ 2023.04.20, 11일 대회 설명: STS, Semantic Text Similarity 태스크는 주어진 두 문장 사이에서의 유사도를 측정하여 0점 ~ 5점 으로 값을 매기는 태스크로, 두 문장이 비슷한 의미를 가질 수록 5점에 가까운 값을 예측해야 한다. 텍스트를 생성하거나, 글을 직접 작성하는 경우, 같은 의미를 가진 말을 반복하게 되는 경우 글의 품질과 가독성을 떨어뜨리게 된다. 또한, 챗봇과 같은 시스템에서 이전에 유사한 질문과 응답이 있었는지 탐색하는 작업이 필요하게 된다. 데이터 세트: 학습 데이터 세트는 9300여개, 검증 데이터세트는 550여개, 테스트 데이터세트는 1100여개. 평가 기준: Pearson 상관계수 참고: 네이버 부스트캠프..

NLP study 2023.04.27

[논문리딩] Improving Language Understanding by Generative Pre-Training

논문의 저자 Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, Open AI, 2018 논문의 하이라이트 및 핵심 1. Transformer의 디코더를 사용하였다. 2. 텍스트 데이터로부터 라벨이 없는 데이터를 만들어 Unsupervised learning으로 학습하였다. 3. specialized task를 수행할 때 다른 모델을 사용하지 않고, fine tuning 하기만 하면 되도록 하였다. 4. word tokenization에 sub-word tokenization 기법을 사용하였다. 5. 사전학습 과정과 특정한 태스크 수행을 위한 튜닝 과정에 상당히 많은 데이터세트가 필요하다.(데이터세트가 적으면 성능 큰 하락) 관련된 선행 연구..

NLP study 2023.04.17

[논문 리딩] Neural Machine Translation By Jointly Learning to Align and Translate

논문의 저자 Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio, 2015 논문의 하이라이트 및 핵심 기존 encoder-decoder 모델의 fixed-length vector의 생성은 bottleneck이 될 수 있다. 또한, 한정된 길이로의 압축은 input sequence가 길어질 경우 정보의 손실이 생기며 번역 성능이 떨어지는 결과를 가져왔다. 해당 논문이 제안하는 모델에서는, 이러한 고정된 크기의 context vector로 많은 정보를 압축시키지 않는다. 디코더가 input sentence의 어떤 부분에 집중해야하는지 attention weight를 통해 직접 결정한다. 디코더는 매 단계마다 context vector, 이전 단계에 생성한 word y, 디코더..

NLP study 2023.04.03

[논문 리딩] GloVe: Global Vectors for Word Representation

논문의 저자 Jeffrey Pennington, Richard Socher, Christopher D. Manning(2014) 들어가기에 앞서 논문을 참고하며 작성한 글로, 잘못 이해한 부분이 있을 수 있습니다. 참고 바랍니다. 논문 요약 Word vector representation에 대한 연구가 지속되고 있고, 최근 여러 모델들이 벡터 연산으로 미세한 semantic, syntactic regularities를 표현하고 있지만, '어떻게' 그 regularities를 얻어내고 있는지가 여전히 불명확한 상황에서 제시된 논문이다. 이 GloVe 라는 방법은 log-bilinear regression을 이용하는 모델로서, global matrix factorization과 local context wi..

NLP study 2023.03.24

[논문 리딩] Efficient Estimation of Words Representations in Vector Space - Word2Vec(CBOW, Skip-gram)

들어가기에 앞서 논문을 참고하며 작성한 글로, 잘못 이해한 부분이 있을 수 있습니다. 참고 바랍니다. 논문의 저자 Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, (2013) 논문 요약 Continuous 하고, distributed 한 word의 representation을 보다 high quailty로 제시하고자 두 개의 novel architecture를 소개한다. 단어를 표현하는 continuous representation 이전 기법들에 비해 computational cost를 줄이고, 성능을 개선시켰다. CBOW, Skip-Gram을 소개한다. 이전의 NNLM에서 가장 많은 computational complexity를 발생시키는 구간은 Hidde..

NLP study 2023.03.14

[Pytorch] pad_sequence와 pack_padded_sequence 그리고 collate_fn

1. pad_sequence, pack_padded_sequence 란 무엇인가? 딥러닝 모델 학습에는 batch_size 설정이 필수적이다. GPU를 이용하여 computation을 parallelize할 수 있기 때문이다. 자연어처리에서는 input data의 길이가 variable하므로, batch를 설정할 때, 사진과 같이, 5개의 text를 하나의 batch 라고 할 때, 문장의 길이가 다르기 때문에 빈 공간이 생기게 된다(일반적으로 padding 처리를 한다.) 문장의 길이가 다른 것을 same input feature로 만들기 위해서 padding처리를 한 뒤 RNN모델과 같은 DL 모델에 input으로 들어가게 되는데, 이 때 이러한 input batch는 다음과 같은 문제점을 갖는다. V..

NLP study 2023.02.22