전체 글 56

(독후감) 이토록 평범한 미래 - 김연수

장편소설일 줄 알고 구매했는데, 소설집이었다. 그래도 단편소설 하나하나가 그렇게 길지 않아, 출퇴근시간에 한 편씩 읽기 참 좋았던 것이 기억에 남는다. 여러 단편소설들이 엮여 있지만, 대부분의 주요 괄자는 어떠한 한 생각으로 요약될 수 있는 듯 했다. 소설의 분위기가 대부분 비슷하다고 느껴졌다. 세세한 내용들을 모두 내쳐버리면서 소설의 주요 내용을 요약하면 다음과 같을 것이다.- 시간이 흐르는 것이 아니라, 기억이 흐르는 것이다. - 사실 우리는 모두 세 번째 삶을 살고 있는 것이 아닐까 하는 생각. 첫 번째 삶은 일반적으로 과거에서 미래로 향하는 삶. 두 번째 삶은, 삶이 끝나는 시점에서부터 다시 과거로 돌아가는 삶. 세 번째 삶은, 다시 일반적인 시간의 흐름에 따라 사는 삶. 내 학창시절은 내가 시간..

(독후감) 쇼펜하우어의 의지와 표상으로서의 세계

한 문장으로 요약하면, 모두 같은 고통의 바다를 건너는, 이리저리 흔들리며 욕망을 추구하는 의지의 흐름에 고통받는 존재가 인간이기에, 다른 누군가와 비교함으로써 개별적인 존재로 나아갈 것이 아닌, 동고(同苦, 동고동락할 때 그 '동고'이다.)의 마음가짐을 가지며 해탈의 경지로 나아갈 수 있도록 생각해야한다는 것이 이 책의 핵심이다. 문득 든 생각. 각자의 삶에서 각자의 고통의 크기는 모두 다를텐데, 우리는 어떻게 동고의 마음가짐을 가질 수 있을까? 사람들 각자는 모두 고민의 크기가 다르다. 태양의 후예, 눈물의 여왕에 출연한 김지원 배우는 한 프로그램에서 자신의 귀가 컴플렉스라고 한 적 있다.(이후 해당 발언이 화제가 되면서 많은 관심이 있었던 것으로 기억한다. 사람들마다 가지고 있는 컴플렉스는 모두 다..

(일기장) 멘탈이 강한 사람과 약한 사람의 진정한 차이

(들어가며: 다소 주저리주저리가 많고 정리되지 않았다고 느낄 수 있다. 그렇다. 그냥 일기장이다.) 멘탈이 강하다는 것은 요즈음 어떤 의미로 사용되고 있는가? 나는 멘탈이 강한 사람이었는가? 라는 생각을 하게 되었다. 멘탈, 정신력, 자존감, 자신감, 확신, 목표 그리고 성취. 바쁘게만 정신없이 지내기만 했지, 무엇을 향해 달려가고 있는지, 어떤 마음으로 견디고 버티고 성장하려고 하고 있었는지 명확하게 정리한 적이 없었던 것 같다. 그러던 중, 다음과 같은 영상을 접하게 되었다. 사실 '멘탈 관리' 라는 키워드는 많은 자기계발 채널 및 도서에서 흔하게 접할 수 있는 키워드이다. 많이 접해보았다면 사실 조금 넌더리가 날 수 있는 키워드이기도 하다. 흔히들 '정신력 부족', '본인만의 주관' 으로 이야기가 ..

[논문리딩] ANCE : Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval

* 현재 내용을 보충 및 수정 중인 포스트입니다. 논문의 저자 Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul Bennett, Junaid Ahmed, Arnold Overwijk, Microsoft, 2021, ICLR 논문의 하이라이트 및 핵심 1. Dense Retrieval(DR)이 종종 Sparse Retrieval에 비해 성능이 낮게 나오는 이유를 밝혀냈다. local uninformative negative samples들이 어떠한 영향을 주기 때문이다. 2.ANCE(Approximate nearest neighbor Negative Contrastive Learning)을 도입해서 BERT-base IR 과정에서 100배..

NLP study 2023.08.22

두런두런 1~4회차 후기

두런두런 1회차, 그리고 3월 회고... 변성윤마스터로부터 1회차 두런두런 강의를 듣고, 많은 생각들이 스쳐지나갔다. 생각보다 코딩 늦게 시작했네? 그런데 상당히 많은 사람들에게 이름을 알렸다. 꾸준한 블로깅과 여러 분야로의 도전 때문인가? 창업을 해 봤던 경험, 광고 동아리 등의 다양한 경험들이 쌓여 어느 순간에 시너지 효과를 발휘한 것 같았다. 매 순간에 진심이고 즐거워하며 노력하면서 성장하면, 결코 버려지는 경험은 없는 것 같았다. 물론, 개발 실력을 향상시키기 위해 고시원에서 하루 14시간을 공부하기도 했다고 했다. 나중에 이름을 알리는 사람들은 역시, 보이지 않는, 상당한 인고의 시간을 가졌구나, 싶었다. 나는 버티는 것은 잘 하니까, 흔들리지 않고 장기적인 관점을 잃지 않으려고 노력해야겠다고 ..

Daily Life 2023.07.02

[NLP 이론] R-drop과 KL-divergence, 그의 활용

R-drop 이란? 먼저 Dropout이란, regularization 기법의 일종으로, 모델의 complexity가 주어진 데이터 및 태스크에 비해 너무 클 경우 과적합(overfitting) 하게 되는 것을 방지하고자 고안된 regularization 기법이다. Dropout은 Fully connected layer에서 몇 개의 unit들을 동작하지 않도록(weight=0) 설정하여 일부만 weight를 전달하도록 학습하게 되는데, 모델의 복잡도를 떨어뜨리면서도 test 시에는 모든 unit들이 동작하게 되어 앙상블과 유사한 효과를 가져올 수 있다(일반화 성능 향상을 기대할 수 있다.) 적은 parameter들로 하여금 feature를 학습하고 정보를 소유할 수 있도록 '규제'함으로써 overfitt..

NLP study 2023.04.29

[대회 회고] Semantic Text Similarity(STS) 대회 회고

대회 개요 대회 기간: 2023.04.10 ~ 2023.04.20, 11일 대회 설명: STS, Semantic Text Similarity 태스크는 주어진 두 문장 사이에서의 유사도를 측정하여 0점 ~ 5점 으로 값을 매기는 태스크로, 두 문장이 비슷한 의미를 가질 수록 5점에 가까운 값을 예측해야 한다. 텍스트를 생성하거나, 글을 직접 작성하는 경우, 같은 의미를 가진 말을 반복하게 되는 경우 글의 품질과 가독성을 떨어뜨리게 된다. 또한, 챗봇과 같은 시스템에서 이전에 유사한 질문과 응답이 있었는지 탐색하는 작업이 필요하게 된다. 데이터 세트: 학습 데이터 세트는 9300여개, 검증 데이터세트는 550여개, 테스트 데이터세트는 1100여개. 평가 기준: Pearson 상관계수 참고: 네이버 부스트캠프..

NLP study 2023.04.27

[논문리딩] Improving Language Understanding by Generative Pre-Training

논문의 저자 Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, Open AI, 2018 논문의 하이라이트 및 핵심 1. Transformer의 디코더를 사용하였다. 2. 텍스트 데이터로부터 라벨이 없는 데이터를 만들어 Unsupervised learning으로 학습하였다. 3. specialized task를 수행할 때 다른 모델을 사용하지 않고, fine tuning 하기만 하면 되도록 하였다. 4. word tokenization에 sub-word tokenization 기법을 사용하였다. 5. 사전학습 과정과 특정한 태스크 수행을 위한 튜닝 과정에 상당히 많은 데이터세트가 필요하다.(데이터세트가 적으면 성능 큰 하락) 관련된 선행 연구..

NLP study 2023.04.17

[논문 리딩] Neural Machine Translation By Jointly Learning to Align and Translate

논문의 저자 Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio, 2015 논문의 하이라이트 및 핵심 기존 encoder-decoder 모델의 fixed-length vector의 생성은 bottleneck이 될 수 있다. 또한, 한정된 길이로의 압축은 input sequence가 길어질 경우 정보의 손실이 생기며 번역 성능이 떨어지는 결과를 가져왔다. 해당 논문이 제안하는 모델에서는, 이러한 고정된 크기의 context vector로 많은 정보를 압축시키지 않는다. 디코더가 input sentence의 어떤 부분에 집중해야하는지 attention weight를 통해 직접 결정한다. 디코더는 매 단계마다 context vector, 이전 단계에 생성한 word y, 디코더..

NLP study 2023.04.03

[논문 리딩] GloVe: Global Vectors for Word Representation

논문의 저자 Jeffrey Pennington, Richard Socher, Christopher D. Manning(2014) 들어가기에 앞서 논문을 참고하며 작성한 글로, 잘못 이해한 부분이 있을 수 있습니다. 참고 바랍니다. 논문 요약 Word vector representation에 대한 연구가 지속되고 있고, 최근 여러 모델들이 벡터 연산으로 미세한 semantic, syntactic regularities를 표현하고 있지만, '어떻게' 그 regularities를 얻어내고 있는지가 여전히 불명확한 상황에서 제시된 논문이다. 이 GloVe 라는 방법은 log-bilinear regression을 이용하는 모델로서, global matrix factorization과 local context wi..

NLP study 2023.03.24

[논문 리딩] Efficient Estimation of Words Representations in Vector Space - Word2Vec(CBOW, Skip-gram)

들어가기에 앞서 논문을 참고하며 작성한 글로, 잘못 이해한 부분이 있을 수 있습니다. 참고 바랍니다. 논문의 저자 Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, (2013) 논문 요약 Continuous 하고, distributed 한 word의 representation을 보다 high quailty로 제시하고자 두 개의 novel architecture를 소개한다. 단어를 표현하는 continuous representation 이전 기법들에 비해 computational cost를 줄이고, 성능을 개선시켰다. CBOW, Skip-Gram을 소개한다. 이전의 NNLM에서 가장 많은 computational complexity를 발생시키는 구간은 Hidde..

NLP study 2023.03.14

Recurrent Neural Network에서의 Backpropagation 살펴보기(From scratch)

RNN 네트워크의 구조(간단 버전, 시그모이드 생략) Recurrent 하게 나타낼 수 있다. 아주 간단하게(LSTM, GRU 가 아닌) 표현하면, Hidden State를 저장하는 weight matrix W_h 가 Sequential input X_t에 recurrent 하게 적용되며, 해당 t time별로 Hidden State H_t가 기록된다. 아래와 같이 간단히 나타낼 수 있다. RNN 네트워크 함수로의 표현 H를 Hidden State로 표현하면 위와 같이 간단하게 표현할 수 있다. 마지막 Hidden state H_n의 경우, 그리고 RNN 이 Many-to-one classification에 사용된다면 H_n은 시그모이드 함수를 거친 뒤 predicted output Y_hat으로 계산되..

AI Basic 2023.03.08