본문 바로가기

분류 전체보기

나만의 Tokenizer, vocab 만들기 해당 코드를 실행하면 지정한 텍스트 파일을 기준으로 Vocabulary를 생성합니다. from tokenizers import BertWordPieceTokenizer # Initialize a tokenizer tokenizer = BertWordPieceTokenizer(clean_text=False, handle_chinese_chars=False) vocab_size = 50000 ## 임의 지정 min_frequency = 5 ## 단어의 최소 발생 빈도 limit_alphabet= 6000 ## 알파벳 제한 trainer = tokenizer.train( files=['가지고 있는 텍스트 파일'], vocab_size=vocab_size, min_frequency=min_frequency, s.. 더보기
RealFormer: Transformer Likes Residual Attention RealFormer: Transformer Likes Residual Attention Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie arxiv.org/abs/2012.11747 RealFormer: Transformer Likes Residual Attention Transformer is the backbone of modern NLP models. In this paper, we propose RealFormer, a simple Residual Attention Layer Transformer architecture that significantly outperforms canonical Transformers on a spectrum .. 더보기
ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning https://openreview.net/forum?id=r1xMH1BtvB ELECTRA: Pre-training Text Encoders as Discriminators Rather Than... A text encoder trained to distinguish real input tokens from plausible fakes efficiently learns effective language representations. openreview... 더보기
네이버 개발자센터(NAVER Developers), 번역 API 사용해보기 먼저 네이버 개발자 홈페이지에 네이버 아이디로 로그인을 하게 되면 사용하겠다는 동의서가 나오게 된다. 이부분은 휴대폰 인증을 통해 진행해주시면 됩니다. 1. 먼저 API를 사용하기 위해서는 애플케이션 등록을 진행해야 합니다. 네이버 개발자 홈페이지에 접속하면 다음과 같은 화면이 뜨는데 여기에서 상단 Application - 애플리케이션 등록을 눌러줍니다. 그렇게하면 아래와 같은 내용이 나타납니다. 애플리케이션 이름은 닉네임과 같으며 사용자가 애플리케이션에 이름을 지정하여 관리하기 편하게 사용하기 위한 것 같습니다. 다음으로 사용 API는 항목을 누르게되면 다음과 같은 항목이 나타납니다. 저는 당연히 번역을 위한 API를 사용을 하기 위해 Papago 번역을 클릭해줍니다. 그 다음 자신이 통신할 어플리케이.. 더보기
BLEU score (Bilingual Evaluation Understudy score) 언어 모델(Language Model)의 성능 측정을 위한 평가 방법 중 하나입니다. BLEU스코어 BLEU(Bilingual Evaluation Understudy) score로 불립니다. 기계 번역 Task에서 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 측정 기준은 n-gram에 기반합니다. 들어가기 앞서 먼저 Candidate, Reference가 있습니다. Candidate : Output, 예측된 문장 Reference : Target, 실제 문장 번역에서는 ex)영어 -> 한국어 번역된 문장을 Candidate라고 하며, 한국인이 직접 영어를 번역한 문장을 Reference라고 합니다. 1. 정밀도(Precision) 측정 먼저, Can.. 더보기
SKT-AI KoBART 기존 페이스북(Facebook)에서 발표한 BART(Bidirectional and Auto-Regressive Transformers)를 SKT-AI팀에서 한국어를 이용하여 학습을 하여 배포하고 있습니다. 아래는 깃허브입니다. 출처 : SKT-AI KoBART 깃허브 : https://github.com/SKT-AI/KoBART 1. 설치 pip install git+https://github.com/SKT-AI/KoBART#egg=kobart 코드를 이용하여 설치하게 되면 다음 패키지들을 설치하게 됩니다. (패키지-버전 입니다.) chardet-4.0.0 click-7.1.2 dataclasses-0.8 filelock-3.0.12 idna-2.10 joblib-1.0.0 kobart-0.2 nump.. 더보기
Ubuntu 18.04 Theme Setting 0. 테마 설정 툴 설치 sudo apt install gnome-tweak-tool 1. Tweaks 어플리케이션 실행 테마 이외의 다른 설정도 가능합니다. 테마는 Appearance에서 설정할 수 있습니다. 기본 설정가지고도 본인이 원하는 옵션을 선택할 수 있습니다. 2. 테마 설치 sudo add-get-repository ppa:tista/adapta sudo apt-get update sudo apt-get install adapta-gtk-theme 아까 설치했던 Tweaks 어플리케이션을 껏다 켜줍니다. 그럼 Appearance - Application 탭에 추가되었습니다. 이번엔 프로그램 상단바(Gnome Shell)에 테마를 적용해보겠습니다. 우분투 기본 어플리케이션인 파이어폭스로 htt.. 더보기
Ubuntu 컴퓨터 원격 NoMachine https://www.nomachine.com/ NoMachine - Free Remote Desktop For Everybody NoMachine for the Enterprise When remote desktop gets serious, you need a serious tool to do the job. NoMachine satisfies any enterprise remote access scenario and scales to fit your unique IT delivery needs. Be in control of your own data, hosted desktops www.nomachine.com 위 사이트에 들어가서 No machine을 다운 받습니다. 물론 원격을 실행하는 컴퓨터 및.. 더보기