2025/06 2

[한국어 법률 및 약관 검색 특화를 위한 klaw-Contriever의 연구] 회고(2)

TL; DR1. 공정거래위원회의 보도자료(약관 - 불공정성 판단 근거 법령이 매핑된 자료)를 정제하여 직접 '법령 검색 평가세트'를 제작했다.2. Contriever 방법론을 기존 오픈소스 대비 xx% 성능 향상시켰으나, 현실적으로 아직 사용하기 어려운 검색 성능이다.3. 실험 과정에서 이런저런 어려움이 있었다... (학습 시간 40시간, 평가코드 디버깅 어려움, 법령정보 크롤링 예외처리 등) 법령 검색 평가세트 제작하기 - 공정거래위원회 보도자료를 기반으로 공정거래위원회는 보도자료를 통해 (특히 '약관'과 관련된 보도자료는) 다양한 기관 및 기업의 약관들을 분석하여 불공정성 및 위법성을 조사하고 시정명령을 내리거나 과태료를 부과하는 등, 준사법기관으로서 심결 처리하는 역할을 수행한 기록을 공개하고 ..

NLP study 2025.06.09

[한국어 법률 및 약관 검색 특화를 위한 klaw-Contriever의 연구] 회고(1)

상당히 오랜 기간동안 검색모델의 개발과 연구에 몰두했었고, 최근 한국정보과학회 주관 한국컴퓨터종합학술대회(KCC2025)에 논문을 개제할 기회가 생겨, 그동안의 연구과정을 정리하고자 연구기록 및 어려웠던 점들을 회고하고자 한다. 또한, 연구 과정에서의 어려움들을 정리하면서 부끄럽지만 성장의 밑거름이 될 수 있도록... 하고 싶기도 하고. 목차문제상황 - 연구배경 - 연구 과정에서의 난관 1, 난관 2, 난관 3, 난관 4 .... 이런 배경에서 이런 연구를 진행했는데, 이런 어려움이 있었다고 주절주절. TL; DR1. 법률 및 약관 분야에 특화된 검색 모델의 연구 개발의 필요성이 있고, 이를 위해 Contriever의 유효성을 검증하는 연구를 진행.2. 오픈소스 Contriever 훈련 코드를 더 효..

NLP study 2025.06.08