'분류 전체보기'에 해당되는 글 162건

  1. 2019.06.09 딥러닝 스터디02
  2. 2019.06.07 딥러닝 스터디 01
  3. 2019.06.04 튜플
  4. 2019.06.03 딕셔너리

https://docs.google.com/document/d/1e65KbFCfMDlGAm4guatKLo9sVs-msiHwyXp5dfo58zk/edit?usp=sharing


구조를 엔지니어링하는 것이 

특성을 엔지니어링하는 것이다. 


어떤 특성이 유용한지 아닌지 사람이 직접 판단하는 어려움은 의미 x

어떤 특성을 주든 딥러닝은 알아서 관점에서 특성을 학습함 


딥러닝은 알아서 배우기 때문에 결과적으로 힘든 부분은

수작업으로 특성이나 모델을 작업하는 있는 것이 아니라 

모델 구조의 선택에 있다. 어떤 하이퍼 파라미터를 쓸지 

특정 데이터셋에 어떤 신경망이 적합한지를 판단하는게 중요함. 


어떤 머신러닝 문제를 다루든 모델을 학습시키기 전에

항상 데이터를 트레이닝과 테스팅으로 나누는 것부터 해야 한다. 


추천 시스템에는 가지 유형이 있음 = 콘텐츠 기반, 유사성 기반

콘텐츠 기반 - 과거 기록을 통한 예측

유사성 기반(collaborative filtering) - 다른 사용자의 선호도를 바탕으로 예측 

> 유사성 기반은 크게 가지로 나뉨 - 아이템&아이템, 사용자&아이템 유사성 


정밀도와 재현율은 추천 시스템을 평가하기 좋은 방법

정밀도 - 관련 있는 결과값들이 차지하는 비율

재현율 - 관련 있다고 결과들 중에 실제 선택한 비율 


행렬 분해 기반 추천 시스템 (평점 예측  )

SVD 결과는 원래 행렬을 인수분해 행렬이다. 

특이값 분해 적용. 

특이값 분해를 하면 개의 결과가 나옴 -  U(사용자 벡터), S(아이템 벡터), Vt(2차원 상의 점들)

https://darkpgmr.tistory.com/106



Posted by 도이(doi)
,



csv파일

','로 구분지은 data txt 파일 포맷


DataFrame

2차원 배열 자료 구조 

*'series'는 1차원 배열 자료 구조 
  2차원 배열 자료 구조가 기본적으로 더 많이 사용 됨. 


자료구조

정리방식


*다른 형태의 파일 읽기(read_fwf, read_csv)

read_fwf 

고정폭 파일에서 데이터 프레임 읽어오기
공백 구분자로 만들어진 파일 읽음


read_csv 

','로 구분되는 파일 읽기
csv파일 읽음


*데이터 핸들링? - 데이터를 다룬다. 

*선형회귀 - 이해안됨


회귀분석 

무언가를 예측하는 분석, 예측값만 존재, 항상 오차 존재 


결정계수 

회귀식이 얼마나 정확한지를 나타내는 숫자,  r²으로 표현(1에 근사할 수록 정확도 높음)


가설검정

회귀식이 믿을 만한지 의사결정 



Posted by 도이(doi)
,

튜플

programming/python 2019. 6. 4. 15:41

리스트와 튜플은 거의 유사하다. 

다만, 튜플은 한 번 선언하면 변경이 불가능하다. 


리스트에서 사용 가능한 함수 /  튜플에서 사용 가능한 함수 



튜플은 튜플 간에 비교할 때 ( ) 안에 있는 value 중 하나라도
조건이 성립하면 True를 출력한다. 


딕셔너리 / 리스트의 sorted( ) / 튜플 선언 

sorted(d.items( ), reverse = True)
*reverse = True 내림차순 (가장 큰 값이 앞에 온다.)


sorted( ) 함수가 정의된 리스트 만듦 / 그 안에 튜플 반복문이 돌아가면서 리스트에 튜플을 순차적으로 채워넣는다. 

##


'programming > python' 카테고리의 다른 글

딕셔너리  (0) 2019.06.03
py4e loops and interation  (0) 2019.05.07
Posted by 도이(doi)
,

딕셔너리

programming/python 2019. 6. 3. 17:12

딕셔너리는 사전형태로 자료를 정리하는 것이다.

# 글에 있는 단어의 수 세기 

딕셔너리에 있는 단어가 나오면 기존 카운터에서 추가로 1더해줌
ex) 처음 등장하는 글자에는 di.get(w,0)의 value값이 0이기에 1만 count 된다. 

di[w] = di.get(w,0) + 1 


# 가장 많이 쓰인 단어 찾기

di.items( ) 는 딕셔너리에 저장된 단어를 보여준다. 
딕셔너리를 for 루프로 돌릴 때 사용한다. 
ex) print( key값, value값)

if v > largest 는 새로운 값을 이전 largest값과 비교하여 최대값을 찾아준다. 


rstrip( ) - 왼쪽 공백을 지워주는 
split( ) - 단어 단위로 문장 쪼개기



'programming > python' 카테고리의 다른 글

튜플  (0) 2019.06.04
py4e loops and interation  (0) 2019.05.07
Posted by 도이(doi)
,