분류 전체보기

· Python
질적변수와 양적변수 질적변수 : 선택이 필요한 변수, 종류를 구별하기 위한 변수 - 명목형 변수라고도 불리며, 범주형 변수라고도 한다. - EX : 성별, 혈액형 등 양적변수 : 양을 표현하는 변수 - 수치형 변수라고도 불리며, 연속형 변수라고도 한다. - EX : 나이, 키, 몸무게, 시험 점수 등 - 질적 변수는 주로 빈도 분석, 범주 간 비교, 카이제곱 검정 등의 방법을 활용하여 분석 - 양적 변수는 주로 중심 경향성(평균, 중앙값), 분산성(표준편차, 분위수), 상관관계, 회귀 분석 등의 방법을 활용하여 분석 이산형변수와 연속형변수 이산형변수 : 하나하나의 값을 취하는 변수 - 서로 인접한 숫자 사이에 값이 존재하지 않음 - EX : 주사위의 눈, 결석 횟수, 결석 학생 수 등 연속형변수 : 연속..
· Python
In [2]: import pandas as pd import numpy as np import seaborn as sns import matplotlib as plt df = pd.read_csv("DataBreaches(2004-2021).csv", encoding='cp949') df.head() Out[2]: Entity Year Records Organization type Method 0 21st Century Oncology 2016 2200000 healthcare hacked 1 500px 2020 14870304 social networking hacked 2 Accendo Insurance Co. 2020 175350 healthcare poor security 3 Adobe Syst..
· Python
In [38]: import pandas as pd 두개의 dataframe 합치기 pd.merge(df1, df2, how= , left_index= , right_index) how : 병합 방법을 지정하는 문자열 inner : 두 데이터프레임에 모두 존재하는 경우에만 결과에 포함 outer : 두 데이터프레임의 합집합을 결과에 포함 left : 왼쪽 데이터프레임의 모든 행을 유지하며, 오른쪽 데이터프레임과 공통된 열의 값이 일치하는 경우에만 결과에 포함 right : 오른쪽 데이터프레임의 모든 행을 유지하며, 왼쪽 데이터프레임과 공통된 열의 값이 일치하는 경우에만 결과에 포함 left_index, right_index: 왼쪽과 오른쪽 데이터프레임의 인덱스를 병합 기준으로 사용할지 여부를 지정하는 매..
· Python
판다스 자료구조 - Series¶ 1차원 레이블링된 배열로, 일련의 값들을 가지고 있다. 인덱스와 값으로 구성 인덱스 : 각 값에 대한 고유한 식별자, 기본적으로 0부터 시작하는 정수 인덱스가 사용 series data 만들기¶ In [1]: import pandas as pd list를 series data로 만들기 In [2]: customer=['a','b','c'] pd.Series(customer) Out[2]: 0 a 1 b 2 c dtype: object dictionary를 series data로 만들기 In [3]: customer_no_name={ '10001':'홍인표', '10002':'김학동', '10003':'안은영', '10004':'고길동' } cust_info = pd.Se..
"반복할 문자열".repeat(반복할 횟수)
집합의 처리 상호배타적집합 : 공통원소가 없는, 즉 상호 배타적인 부분 집합들로 나눠진 원소들에 대한 정보를 저장하고 조작하는 자료 구조 교집합은 없다 상호배타집합을 처리하는 데는 Linked List 혹은 Tree로 구현하여 추상화한다. 지원할 연산 make-set(x) : 원소 x로만 이루어진 집합을 만든다 find-set(x) : 원소 x를 가지고 있는 집합을 알아낸다 union(x,y) : 원소 x를 가진 집합과 원소 y를 가진 집합의 합집합 연결리스트를 이용한 집합 처리 같은 집합의 원소들은 하나의 연결리스트로 관리한다 연결리스트의 맨 앞의 원소를 집합의 대표원소로 삼는다. ✅ 무게를 고려한 union 연결리스트로 된 두 집합을 합칠 때 작은 집합을 큰 집합의 뒤에 붙인다. 대표원소를 가리키는 ..
해시테이블 원소가 저장될 자리가 원소의 값(key)에 의해 결정되는 자료구조이다. 데이터의 저장, 검색에서 극단적인 효율을 추구하는 자료구조이다. 매우 빠른 응답을 요하는 응용에 유용하다. 해시테이블은 최소원소를 찾는 것과 같은 작업은 지원하지 않는다. 평균상수시간 O(1)에 삽입/삭제/검색이 가능하다. 즉, 저장된 원소들과 비교하여(트리와 같이) 자리를 찾아나가는 것이 아닌, 원솟값을 이용하여 단 한 번의 계산(상수시간 내 계산)으로 저장할 자리를 찾아낸다. 해시함수 입력 원소가 해시 테이블에 고루 저장되어야 한다. 계산이 간단하고 빨라야 한다. 여러가지 방법이 있으나 가장 대표적인 것은 나누기 방법과 곱하기 방법이다. 1️⃣ 나누기 방법 나머지 연산자(mod)를 사용하여 키를 해시 테이블의 크기로 나..
그리드 파일 (Grid-File) - 트리구조가 아닌 다차원 저장/검색 방법 - 키의 내용으로 저장 위치를 단번에 알아낼 수 있도록 한 접근 - 공간을 서로 배타적인 격자 영역으로 나눈 후 해당 영역에 속하는 레코드들을 모아서 저장한다. ->검색키 값이 저장되는 위치와 직접 상관이 있다. 일차스케일링 배열 : 각 grid들의 경계값을 저장하고 있는 배열이다. 그리드 배열 : 각 영역이 저장되어 있는 page번호를 저장하고 있는 배열이다.
제이지연
'분류 전체보기' 카테고리의 글 목록