'make tokenizer' 태그의 글 목록

본문 바로가기

make tokenizer

나만의 Tokenizer, vocab 만들기 해당 코드를 실행하면 지정한 텍스트 파일을 기준으로 Vocabulary를 생성합니다. from tokenizers import BertWordPieceTokenizer # Initialize a tokenizer tokenizer = BertWordPieceTokenizer(clean_text=False, handle_chinese_chars=False) vocab_size = 50000 ## 임의 지정 min_frequency = 5 ## 단어의 최소 발생 빈도 limit_alphabet= 6000 ## 알파벳 제한 trainer = tokenizer.train( files=['가지고 있는 텍스트 파일'], vocab_size=vocab_size, min_frequency=min_frequency, s.. 더보기

이전 1 다음

티스토리툴바