Pandasλ‘ λ°μ΄ν° μμ½ ν΅κ³ κ³μ°νκΈ°
λκ·λͺ¨ λ°μ΄ν°μ νκ·
, νμ€νΈμ°¨
λ±μ ν λ²μ κ³μ°νλ €λ©΄ μ΄λ»κ² ν΄μΌ ν κΉμ?
κ° νλͺ©λ³λ‘ μΌμΌμ΄ ν¨μλ₯Ό μ μνκ³ κ³μ°νλ κ²μ λ§€μ° λ²κ±°λ‘μ΄ μμ μ λλ€.
νμ§λ§ λ°μ΄ν°νλ μμ describe()
λ©μλλ₯Ό μ¬μ©νλ©΄ λ°μ΄ν°μ κ°μ, νκ· , νμ€νΈμ°¨, μ΅μκ°, μ΅λκ° λ±μ ν¬ν¨ν μμ½ ν΅κ³λ₯Ό ν λ²μ κ³μ°ν μ μμ΅λλ€.
import pandas as pd data_frame = pd.DataFrame({ 'νλͺ©': ['μ¬κ³Ό', 'λ°λλ', 'λΈκΈ°', 'ν¬λ'], '맀μΆ': [1000, 2000, 1500, 3000] }) # μμ½ ν΅κ³ κ³μ° summary_stats = data_frame.describe() print(summary_stats)
data_frame.describe()
μ½λλ λ°μ΄ν°νλ μμ μμ½ ν΅κ³(νκ· , νμ€νΈμ°¨, μ΅μκ°, μ΅λκ° λ±)λ₯Ό λ°μ΄ν°νλ μμΌλ‘ λ°νν©λλ€.
λ§€μΆ count 4.000000 mean 1875.000000 std 866.025404 min 1000.000000 25% 1375.000000 50% 1750.000000 75% 2250.000000 max 3000.000000
κ° νλͺ©μ΄ μλ―Ένλ λ°λ λ€μκ³Ό κ°μ΅λλ€.
-
count
: λ°μ΄ν°μ κ°μ -
mean
: νκ· κ° -
std
: νμ€νΈμ°¨ -
min
: μ΅μκ° -
25%
,50%
,75%
: λ°±λΆμμ(Percentile) -
max
: μ΅λκ°
κ²°μΈ‘μΉ μ²λ¦¬
κ²°μΈ‘μΉ(Missing Value)
λ λ°μ΄ν°μ
μμ κ°μ΄ λΉμ΄ μλ κ²½μ°λ₯Ό μλ―Έν©λλ€.
Pandasμμλ κ²°μΈ‘μΉλ₯Ό μ²λ¦¬νκΈ° μν λ€μν λ©μλλ₯Ό μ 곡ν©λλ€.
import pandas as pd data_frame = pd.DataFrame({ 'νλͺ©': ['μ¬κ³Ό', 'λ°λλ', 'λΈκΈ°', None], '맀μΆ': [1000, 2000, 1500, None] }) # κ²°μΈ‘μΉ νμΈ missing_values = data_frame.isnull() # κ²°μΈ‘μΉλ₯Ό 0μΌλ‘ λ체 data_frame_filled = data_frame.fillna(0) print(data_frame_filled)
νλͺ© λ§€μΆ 0 μ¬κ³Ό 1000.0 1 λ°λλ 2000.0 2 λΈκΈ° 1500.0 3 0 0.0
μ½λ μ€λͺ
-
data_frame.isnull()
μ½λλ λ°μ΄ν°νλ μμμ κ²°μΈ‘μΉκ° μλ μμΉλ₯Ό Trueλ‘ νμν λ°μ΄ν°νλ μμ λ°νν©λλ€. -
data_frame.fillna(0)
μ½λλ κ²°μΈ‘μΉλ₯Ό 0μΌλ‘ λ체ν λ°μ΄ν°νλ μμ λ°νν©λλ€. -
data_frame.fillna(0)
λμdata_frame.dropna()
λ₯Ό μ¬μ©νλ©΄ κ²°μΈ‘μΉκ° ν¬ν¨λ νμ μμ ν μ μμ΅λλ€.
λ€μ λΉμΉΈμ κ°μ₯ μ μ ν λ¨μ΄λ 무μμΌκΉμ?
Guidelines
AI Tutor
Publish
Design
Upload
Notes
Favorites
Help
Code Editor
Execution Result