일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Numpy
- 파이썬크롤링
- 데이터분석
- 판다스기초
- 넘파이함수
- 유클리디안거리
- 데이터프레임
- 워드클라우드
- np.argsort
- Python
- KNN
- np.where
- LOC
- DataFrame
- 파이썬
- 파이썬기초
- 판다스인덱싱
- 크롤링
- reindex
- 판다스
- 넘파이정렬
- 판다스시리즈
- iloc
- 넘파이
- pandas
- np.sort
- K-NN
- 머신러닝
- np.where()
- KNN알고리즘
- Today
- Total
목록전체 글 (6)
해피러너의 Ns

k-NN: k-Nearest Neighbors - 수치형 데이터 뿐만 아니라 명목형 변수 등의 유형에도 적용 가능 - k가 작을수록 -> higher variance (less stable) - k가 클수록 -> higher bias (less precise) - [장점] 훈련단계 필요 없음(only inference step) / target function의 복잡성은 중요하지 않음 / 정보 손실 없음 - [단점] * 훈련데이터가 imbalanced할 경우, 다수클래스가 거의 차지 * 모든 데이터를 가지고 학습하기 때문에 메모리 비용 * Affected by local structure of training data * 모든 훈련 데이터들끼리의 거리를 계산해야 해 시간과 비용이 많이 듦 (Computa..
import pandas as pd 데이터프레임(dataframe) 생성 # numpy array를 활용한 생성 : 열단위(하나의 행)로 들어감 >>> df1 = pd.DataFrame(np.array([[10,11,12],[20,21,22]]), columns = ['col1', 'col2', 'col3']) >>> df1 col1col2col3 010 11 12 120 21 22 # series 객체를 활용한 생성: 열단위(하나의 행)로 들어감 >>> s1 = pd.Series([10,11,12]) >>> s2 = pd.Series([20,21,22]) >>> df2 = pd.DataFrame([s1, s2]) >>> df2 012 0101112 1202122 # 리스트를 활용한 생성 >>> df3 ..
판다스 시리즈(Series) 생성하기 ## 리스트를 이용한 생성 >>> s = pd.Series([1,2,3,4,5], index=['a','b','c','d','e']) >>> s a 1 b 2 c 3 d 4 e 5 dtype: int64 ## 딕셔너리를 이용한 생성 >>>pd.Series({'Korea': 'Seoul', 'UK': 'London', 'China': 'Beijing', 'France': 'Paris'}) Korea Seoul UK London China Beijing France Paris dtype: object ## 넘파이를 이용한 생성 >>>pd.Series(np.arange(4,9)) 0 4 1 5 2 6 3 7 4 8 dtype: int32 .index & .values >>..

수집하고자 하는 데이터: "www.dailypop.kr/"의 솔로이코노미, 뉴스, 나혼자산다 섹션의 기사들 이번에는 json파일로 먼저 저장하고 excel로 변환하는 방식으로 해보고자 합니다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 import requests from bs4 import BeautifulSoup as bs import json import re import datetime import p..
numpy.sort(a, axis=-1, kind=None, order=None) 1 2 3 4 5 x = np.array([4,6,2,0,10, 9]) np.sort(x) 결과 array([ 0, 2, 4, 6, 9, 10]) cs 2차원 배열로 살펴보자. 1 2 3 x2 = np.array([[4, 10, 6], [1, 5, 9], [2, 3, 0]]) cs axis= 0 : 행 축 기준으로 오름차순 정렬 (위->아래) 1 2 3 4 5 np.sort(x2, axis=0) # 행 축 기준 정렬(위->아래) array([[ 1, 3, 0], [ 2, 5, 6], [ 4, 10, 9]]) cs axis= 1 : 열 축 기준으로 오름차순 정렬 (왼->오) 1 2 3 4 5 np.sort(x2, axis=1..
np.where (condition, x, y) - 조건(condition)에 부합하면 x, 아니면 y를 출력한다 - x, y는 생략 가능하며, 이 경우에는 조건에 부합하는 index를 출력한다. - numpy.ndarray로 반환된다. 우선, 간단하게 1차원 배열에 적용해보면, 30보다 크거나 같은 값의 위치를 반환한다. 1 2 3 4 5 a = np.array([10,20,30,40]) np.where(a>=30) 결과 (array([2, 3], dtype=int64),) cs 그러면 데이터 프레임에 적용해보자. 1 2 3 4 5 6 7 test = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], columns=list('abc')) test a b c 0 1 2 3 1 4 5..