홈
Paper Review

분류 전체보기 (7)

Today: -

Yesterday: -

Total: -

기술 블로그 안하세요? 기술 블로그 안하세요?

컨텐츠 검색 블로그 내 검색

Archiving

BERT : Bidirectional Encoder Representations from Transformers
Archiving/Model 2024. 3. 10. 19:27

Input Representation Token Embeddings WordPiece 토크나이저를 사용하여 문장을 토큰으로 분해 바이트 페어 인코딩(Byte Pair Encoding, BPE)의 유사 알고리즘 흔한 단어를 그대로 유지하고, 흔하지 않은 단어는 부분 단어(subword)로 분해 sentence의 첫번째 token은 언제나 [CLS] (special classification token) 여기에 간단한 classifier를 붙이면 단일 문장, 또는 연속된 문장 분류 가능 분류 작업 안하면 무시 문장의 구분을 위해 문장의 끝에 [SEP] 토큰을 사용 Segement Embedding 문장 A와 문장 B를 구분하고, 각 문장의 시작과 끝을 알려주는 방법 첫 번째 문장의 모든 토큰에는 'A' 임베..

이전

1

다음

인기포스트

LINK

Just Keep Doing

티스토리툴바