데이터 분석 기초
02.DataFrame
세용용용용
2023. 3. 6. 22:13
2.DataFrame¶
2차원 데이터 (Series 들의 모음)
Data 준비¶
사전 (dict) 자료구조를 통해 생성
In [13]:
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))
In [1]:
data = {
'이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
'학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
'키' : [197, 184, 168, 187, 188, 202, 188, 190],
'국어' : [90, 40, 80, 40, 15, 80, 55, 100],
'영어' : [85, 35, 75, 60, 20, 100, 65, 85],
'수학' : [100, 50, 70, 70, 10, 95, 45, 90],
'과학' : [95, 55, 80, 75, 35, 85, 40, 95],
'사회' : [85, 25, 75, 80, 10, 80, 35, 95],
'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
data
Out[1]:
{'이름': ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
'학교': ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
'키': [197, 184, 168, 187, 188, 202, 188, 190],
'국어': [90, 40, 80, 40, 15, 80, 55, 100],
'영어': [85, 35, 75, 60, 20, 100, 65, 85],
'수학': [100, 50, 70, 70, 10, 95, 45, 90],
'과학': [95, 55, 80, 75, 35, 85, 40, 95],
'사회': [85, 25, 75, 80, 10, 80, 35, 95],
'SW특기': ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']}
In [2]:
data['이름']
Out[2]:
['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협']
DataFrame 객체 생성¶
In [5]:
import pandas as pd
df = pd.DataFrame(data) #판다스로 데이터프레임 객체를 만들고 df로 받아올수 있다!!
df
Out[5]:
| 이름 | 학교 | 키 | 국어 | 영어 | 수학 | 과학 | 사회 | SW특기 | |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 채치수 | 북산고 | 197 | 90 | 85 | 100 | 95 | 85 | Python |
| 1 | 정대만 | 북산고 | 184 | 40 | 35 | 50 | 55 | 25 | Java |
| 2 | 송태섭 | 북산고 | 168 | 80 | 75 | 70 | 80 | 75 | Javascript |
| 3 | 서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | |
| 4 | 강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | |
| 5 | 변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
| 6 | 황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
| 7 | 윤대협 | 능남고 | 190 | 100 | 85 | 90 | 95 | 95 | C# |
데이터 접근¶
In [6]:
df['이름'] #이름에 해당하는 데이터 확인
Out[6]:
0 채치수 1 정대만 2 송태섭 3 서태웅 4 강백호 5 변덕규 6 황태산 7 윤대협 Name: 이름, dtype: object
In [7]:
df[['이름','키']] #두개 이상의 컬럼의 데이터를 확인하고 싶을떄 대괄호 두번
Out[7]:
| 이름 | 키 | |
|---|---|---|
| 0 | 채치수 | 197 |
| 1 | 정대만 | 184 |
| 2 | 송태섭 | 168 |
| 3 | 서태웅 | 187 |
| 4 | 강백호 | 188 |
| 5 | 변덕규 | 202 |
| 6 | 황태산 | 188 |
| 7 | 윤대협 | 190 |
DataFrame 객체 생성(index 지정)¶
In [9]:
df = pd.DataFrame(data, index =['1번',' 2번', '3번', '4번', '5번', '6번', '7번',' 8번'])
df
Out[9]:
| 이름 | 학교 | 키 | 국어 | 영어 | 수학 | 과학 | 사회 | SW특기 | |
|---|---|---|---|---|---|---|---|---|---|
| 1번 | 채치수 | 북산고 | 197 | 90 | 85 | 100 | 95 | 85 | Python |
| 2번 | 정대만 | 북산고 | 184 | 40 | 35 | 50 | 55 | 25 | Java |
| 3번 | 송태섭 | 북산고 | 168 | 80 | 75 | 70 | 80 | 75 | Javascript |
| 4번 | 서태웅 | 북산고 | 187 | 40 | 60 | 70 | 75 | 80 | |
| 5번 | 강백호 | 북산고 | 188 | 15 | 20 | 10 | 35 | 10 | |
| 6번 | 변덕규 | 능남고 | 202 | 80 | 100 | 95 | 85 | 80 | C |
| 7번 | 황태산 | 능남고 | 188 | 55 | 65 | 45 | 40 | 35 | PYTHON |
| 8번 | 윤대협 | 능남고 | 190 | 100 | 85 | 90 | 95 | 95 | C# |
DataFrame 객체 생성(Column 지정)¶
data 중에서 원하는 column만 선택하거나, 순서 변경 가능
In [11]:
df = pd.DataFrame(data, columns = ['이름', '학교', '키'])
df
Out[11]:
| 이름 | 학교 | 키 | |
|---|---|---|---|
| 0 | 채치수 | 북산고 | 197 |
| 1 | 정대만 | 북산고 | 184 |
| 2 | 송태섭 | 북산고 | 168 |
| 3 | 서태웅 | 북산고 | 187 |
| 4 | 강백호 | 북산고 | 188 |
| 5 | 변덕규 | 능남고 | 202 |
| 6 | 황태산 | 능남고 | 188 |
| 7 | 윤대협 | 능남고 | 190 |
In [12]:
df = pd.DataFrame(data, columns=['이름', '키', '학교'])
df
Out[12]:
| 이름 | 키 | 학교 | |
|---|---|---|---|
| 0 | 채치수 | 197 | 북산고 |
| 1 | 정대만 | 184 | 북산고 |
| 2 | 송태섭 | 168 | 북산고 |
| 3 | 서태웅 | 187 | 북산고 |
| 4 | 강백호 | 188 | 북산고 |
| 5 | 변덕규 | 202 | 능남고 |
| 6 | 황태산 | 188 | 능남고 |
| 7 | 윤대협 | 190 | 능남고 |