본문 바로가기

분류 전체보기

t-SNE t-sne : T-distributed Stocastic Neighbor Embedding 기능 : 1. 고차원 공간에서 점 세트를 가져와 저차원 공간(일반적으로 2D)에서 해당 점을 표현하는 것을 찾는 것. 2. Perplexity, 데이터의 지역적 측면과 전역적 측면 사이에서 균형을 맞추는 방법을 알려줌. 어떤 의미에서 각 점이 가지고 있는 가까운 이웃의 수에 대한 추측. (복잡도의 변화에 상당히 강하며 일반적으로 5~50 사이의 값을 사용함) ! 똑같은 값으로 설정하여 t-SNE를 실행하여도 추가 하이퍼파라미터가 있어 항상 유사한 출력을 생성하지는 않는다. 하이퍼 파라미터 Perplexity에 따른 결과입니다. 알고리즘이 제대로 작동하려면 Perplexity가 실제 포인트 수보다 작아야합니다. 안정.. 더보기
GCP, Cloud TPU 사용법 Google Cloud SDK 설치 # Add the Cloud SDK distribution URI as a package source echo "deb [signed-by=/usr/share/keyrings/cloud.google.gpg] http://packages.cloud.google.com/apt cloud-sdk main" | sudo tee -a /etc/apt/sources.list.d/google-cloud-sdk.list # Import the Google Cloud public key curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | sudo apt-key --keyring /usr/share/keyrings/cloud.go.. 더보기
json 읽고/쓰기 입력 방식 : Dict ## 입력 방식 import json json_data = {} json_data["1"] = "첫번째" json_data["2"] = "두번째" json_data["3"] = {"1" : []} json_data["3"]["1"] = "첫번째" print(json_data) 읽기 ## 읽기 import json with open("json_file.json", "r") as jf: st_python = json.load(jf) 쓰기 ## 쓰기 import json with open("json_file.json", "w") as jf: json.dump(json_data, jf) 더보기
Requirements.txt 만들기 새로운 conda env 혹은 virtualenv를 사용할 때 이전의 작업환경을 복사해야하는 경우가 많다. 그 경우 해당 환경안의 pip 패키지들을 이용해야하는데 이러한 부분을 requirements.txt를 만듦으로서 빠르게 수행할 수 있다. # pip freeze > 저장경로/저장파일이름.txt pip freeze > Desktop/requirements.txt 이후 저장한 requirements.txt를 실행하려면 새로운 환경을 만든 뒤 해당하는 폴더 혹은 파일 경로를 지정해줍니다. # 새로운 환경을 만든 뒤 # pip install 경로/파일이름.txt pip install -r Desktop/requirements.txt 더보기
sklearn dataset, validation Method 모델을 학습한 후 중요한 것은 일반화 성능입니다. 그 중 일반화 성능 올릴 가능성이 있는 방법은 Cross-validation 방법입니다. 모델 학습에 있어서 중요한 것은 데이터 입니다. 어떠한 데이터 A가 있을 때, 여러 모델을 이용하여 데이터 A를 학습시킨다고 가정하였을 때, 물론 해당 모델이 훈련을 잘 하는 것도 있겠지만 데이터의 양이나 질에 따라 모델의 성능이 달라질 수 있습니다. 우선 sklearn에서는 dataset을 분할할 수 있는 코드가 제공됩니다. (데이터 분할하는 코드를 테스트해보기 위해 sklearn 패키지의 Iris(꽃) 데이터 셋을 이용하였습니다.) import numpy as np from sklearn.model_selection import train_test_split fr.. 더보기
자연어 처리 성능 평가 지표 - Matthews Correlation Coefficient 상관계수 상관계수란 두 변수 사이의 연관성을 나타냅니다. 즉 둘 사이에 얼마나 상관 관계가 있는지 측정하는 척도입니다. 주로 두 숫자형 변수 사이의 연관성을 직선적인 경향을 나타냅니다. 좌표평면을 펼쳐놓고 x축은 변인 x를, y축은 변인 y를 나타내게 한 뒤 각각의 관찰값들을 산점도 형태로 찍어놓으면, 그 결과 두 변인이 어떤 관계가 있는지 시각적으로 나타나게 됩니다. 양의 상관이 나타날 경우 관찰값들은 우상향하는 방향으로 모이고, 음의 상관이 나타날 경우 관찰값들은 우하향하는 방향으로 모이게 됩니다. 관찰값들이 빽빽하게 밀집해서 모이는 경우와 흩어져 분포하는 경우가 있는데 밀집된 경우 상관계수가 높다고 말할 수 있고, 흩어져 있는 경우 상관계수가 낮다고 말할 수 있습니다. 피어슨 상관 계수 (Pears.. 더보기
positive-definite, negative-definite matrix A > 0와 같은 행렬 부등식이 있다. 행렬 A가 0보다 크다는 이야기이다. 행렬에 대해서는 이러한 부등호의 관점이 행렬 A의 모든 성분이 0보다 크다는 것을 의미하는 것은 아니다. 위의 A > 0 식은 행렬 A가 정정 행렬(positive-define matrix)를 나타낸다. 또한, 부등호가 포함된 A >= 0 식은 행렬 A가 준정정 행렬(positive semi-define matrix)를 나타냅니다. 위키피디아에서는 다음과 같이 정의 되어 있습니다. 예제1 Identity matrix I 행렬은 정정(positive-definite), 준정정(positive semi-definite)이며, 대칭적인(symmetric) 행렬입니다. 실수 a와 b를 가진 모든 Non-zero Column vector.. 더보기
python virtualenv 사용하기 python의 가상환경 virtualenv 모듈 사용법. python의 가상환경은 python 안에 작은 python을 새로 설치해서 원하는 모듈만을 운용하는 또 하나의 환경이라고 생각하면 된다. anaconda의 conda 환경처럼 이용할 수 있다. Ubuntu 18.04에는 기본적으로 Python 2.7버전과 Python 3.6 버전이 설치되어 있습니다. Python 확인은 다음과 같이 실행할 수 있습니다. # python 2.7 확인 python2 # 나오기 : Ctrl+Z # python 3.6 확인 python3 # 나오기 : Ctrl+Z 또한 각 pip 버전을 확인할 수 있습니다. # python2의 pip 버전 pip --version # python3의 pip 버전 pip3 --versio.. 더보기