본문 바로가기

Study

Fewshot Learning Training Approach 사전 지식을 사용하여 몇 가지 예에서 잘 일반화되는 매개변수를 선택하도록 학습 알고리즘을 제한. Multi Task Learning과 Meta Learning. Multi Task Learning : 모델이 여러 Task를 지원할 수 있는 것. (여러 Task를 동시에 최적화할 수 있는 학습) Meta Learning : 각 Task 마다 최적의 학습은 다르다라고 가정. ( 학습된 모델과 새로운 데이터 특성 사이의 상관성을 찾는 과정을 통해 학습) Transfer Learning과 Meta Learning. Transfer Learning : Pre-trained 모델을 기반으로, Fine Tuning 하는 것을 초점. Meta Learning : Transfer Learning 보다 빠른 최적의 알고리.. 더보기
Fewshot Learning Similarity Approach Few shot Similarity 많은 데이터만 있으면 모델은 입력에 해당하는 클래스를 분류할 수 있습니다. 하지만 얼굴 인식과 같이 사람의 경우 한 번만 그 사람의 얼굴을 보아도 대충 누구인지 알 수 있고, 기억할 수 있습니다. 이러한 문제에 대해 여러 사람에 대해 3장 씩만 가지고 있다면 모델은 학습하기 어려울 것 입니다. 이러한 부분에서 사람과 기계의 핵심 포인트 1. 사람은 학습이 빠르다. 2. 모델은 많은 양의 데이터가 필요하다. 얼굴 인식에서 사람과 인간이 다른 이유 : 사전 지식을 가지고 있기 때문에 (인간이 어떻게 생겼는지, 인종이 무엇인지, 옷을 입고 있는 것을 통해) 사전 지식을 제공한다면 문제를 해결할 수 있을까? -> 사전 지식에 달려있다. 사전 지식은 여러 형태가 될 수 있다. .. 더보기
Pattern Exploiting Train (PET) Large Scale Language Model (Ex, GPT-3 : 1,750억 개의 매개변수) 의 경우 모델을 학습하기 힘들다. -> 이 매개변수의 0.1%만을 사용하는 앙상블 마스크 언어 모델 학습 방법. Pattern Exploiting Train(PET) 분류 문제에서.. basic fine tuning : MLM(Masked Language Modeling) 혹은 다른 학습 목표를 가지고 학습한 Pre-Training 이후 학습된 해당 위치에 할당되는 Vocab Softmax Layer는 사용하지 않고 새로운 Classification Task을 위한 Softmax Layer를 추가하여 Fine Tuning 진행. 따라서 많은 Sample이 필요함. PET (Pattern Exploiting.. 더보기
positive-definite, negative-definite matrix A > 0와 같은 행렬 부등식이 있다. 행렬 A가 0보다 크다는 이야기이다. 행렬에 대해서는 이러한 부등호의 관점이 행렬 A의 모든 성분이 0보다 크다는 것을 의미하는 것은 아니다. 위의 A > 0 식은 행렬 A가 정정 행렬(positive-define matrix)를 나타낸다. 또한, 부등호가 포함된 A >= 0 식은 행렬 A가 준정정 행렬(positive semi-define matrix)를 나타냅니다. 위키피디아에서는 다음과 같이 정의 되어 있습니다. 예제1 Identity matrix I 행렬은 정정(positive-definite), 준정정(positive semi-definite)이며, 대칭적인(symmetric) 행렬입니다. 실수 a와 b를 가진 모든 Non-zero Column vector.. 더보기
Git 설치하기 (window, 2.31.1) git-scm.com/downloads Git - Downloads Downloads macOS Windows Linux/Unix Older releases are available and the Git source repository is on GitHub. GUI Clients Git comes with built-in GUI tools (git-gui, gitk), but there are several third-party tools for users looking for a platform-specific exp git-scm.com 먼저 사이트에서 해당하는 운영체제 파일을 다운받아줍니다. 설치파일을 실행합니다. Next를 눌러줍니다. 저장할 위치를 지정합니다. 각 항목에 대해 필요한 설정을 한.. 더보기
TextRank, PageRank PageRank, TextRank TextRank는 Mihalcea(2004)이 제안한 알고리즘으로 텍스트에 관한 graph-based ranking model 입니다. 이는 Google의 PageRank를 활용한 알고리즘입니다. PageRank는 Brin and Page(1998)이 제안한 알고리즘으로 하이퍼링크를 가지는 웹 문서에 상대적 중요도에 따라 가중치를 부여하는 방법입니다. 서로간의 인용과 참조로 연결된 임의의 묶음으로 정의 할 수 있습니다. 예를 들어 소셜 네트워크에서 각 사람은 그래프의 node가 되고, 사람 간의 친밀도 혹은 영향럭은 edge로 표현된다고 생각하시면 됩니다. ex formula) G = (N, E), N은 node를 의미하고 E는 edge를 의미합니다. 텍스트 데이터도 그.. 더보기
NLP(자연어처리) - Language Model (언어 모델) 들어가기 앞서 간단히 설명하자면, 위의 그림과 같이 Language Modeling은 학습을 통해 다음에 어떤 단어가 나올지 예측하는 작업입니다. 조금 더 형식적으로는, 다음 단어의 확률 분포를 계산하는 것입니다. 다음 수식에서와 같이 다음 단어는 vocabulary 에 있는 어떠한 단어도 올 수 있습니다. 언어모델을 직관적으로 알 수 있는 다른 예 입니다. 나는 오늘 늦잠을 자서, 학교에 [ ]. 우리는 [ ]에 어떤 단어가 올 것인지 쉽게 예상할 수 있습니다. 우리는 지식에 기반하여 나올 수 있는 여러 단어들을 후보에 놓고, '늦었다'라는 단어의 확률이 가장 높다고 판단하였기 때문입니다. 1. Statistical Language Model (SLM, 통계적 언어모델) 1.1) Conditional .. 더보기
Markov Process Markov Process(MP) Markov Process의 Wikipedia 정의는 확률론에서 마르코프연쇄는 메모리를 갖지 않는 이산 시간 확률 과정입니다. 확률 과정 : 시간이 진행 함에 따라 상태가 확률적으로 변화는 과정 임의의 값(random value)이 이산적인(discrete)한 시간(time interval)마다 값을 생성해내는 것을 의미합니다. 이때 시간(time interval)이 이산적(discrete)이고 현재의 상태(state)가 이전 상태(state)에만 영향을 받는 확률 과정입니다. Markov Property(= Memoryless Property) Markov property는 어떤 시간에 특정 상태(state)에 도달하든 그 이전에 어떤 상태(state)를 지나왔든 다음.. 더보기