Pandasデータ抽出・前処理入門｜loc, iloc, isin, dropの使い方まとめ | Python Data Lab（Pythonデータラボ）

pandas between()の使い方｜数値・日付を範囲で抽出する方法

coin_collector — Sat, 09 May 2026 15:40:35 +0000

CSVを読み込んだあと、DataFrameの中から 「一定の範囲に入る行だけ」 を取り出したいことがあります。

たとえば、次のような場面です。

売上が1000円〜5000円の商品だけ見たい
2026年1月の注文だけ確認したい
年齢が20歳〜40歳の人だけ抽出したい

このような 数値や日付の範囲で行を絞り込む処理 に使えるのが、Pandasの between() です。

between() を使うと、たとえば「売上が1000円以上5000円以下の行」を、次のように短く書けます。

df[df["売上"].between(1000, 5000)]

つまり、between() は 1つの列を「下限〜上限」の範囲で抽出したいときに使う方法 です。

この記事では、between() を使って、数値や日付の範囲で行を抽出する方法を、サンプルデータで順番に確認します。あわせて、範囲の始まりと終わりを含めるかどうか、between() と同じ範囲抽出を、>=・<= や query() で書く方法も確認します。

また、範囲に関係する処理として cut() もあります。ただし、cut() は between() と同じ結果を出すための方法ではありません。between() は「範囲に入る行を抽出する」処理、cut() は「値を区間に分ける」処理です。この違いは、本文後半で具体例を使って確認します。

この記事でわかること
やりたいこと別：between()を使う場面
サンプルデータを用意する
数値を範囲で抽出する方法
1. まずbetween()で範囲内かどうかを判定する
2. 判定結果を使って行を抽出する
日付を範囲で抽出する方法
inclusiveで数値や日付の範囲の境界値を含める・含めない設定
範囲抽出で欠損値があるときの注意点
between()と>=・<=・query()・cut()の違い
抽出したデータを集計して確認する
1. 必要に応じてグラフで確認する
よくあるミスと確認ポイント
between()は前処理・抽出で使う
まとめ：between()は数値・日付の範囲抽出を読みやすくする方法
次に読みたい関連記事

この記事でわかること

この記事では、次の内容を順番に確認します。

between() とは何か、範囲抽出の基本
数値を範囲で抽出する方法
日付を範囲で抽出する方法
inclusive で数値や日付の範囲の境界値を含める・含めない設定
between() と >=・<=・query()・cut() の違い
範囲抽出後に集計・可視化へつなげる考え方

やりたいこと別：between()を使う場面

between() は、1つの列を「下限〜上限」の範囲で絞りたいときに使います。

やりたいこと	使う方法	例
数値を範囲で抽出したい	`between()`	売上1000円〜5000円
日付を範囲で抽出したい	`between()`	2026年1月の注文
同じ範囲抽出を別の書き方で書きたい	比較演算子・`query()`	`>=`・`<=` や `query()`
範囲で抽出ではなく、区間に分けたい	`cut()`	売上を低価格・中価格・高価格に分類

between() は、連続した範囲で行を絞り込むときに向いています。

候補リストから選ぶ場合や、文字列を含む行を探す場合は、後半の「between()を使わない場面」で軽く整理します。

サンプルデータを用意する

ここでは、ECサイトの注文データを例にします。

売上 と 注文日 を使って、数値と日付の範囲抽出を確認していきます。

import pandas as pd

data = {
    "注文日": ["2026-01-03", "2026-01-08", "2026-01-15", "2026-01-28", "2026-02-04", "2026-02-12", "日付不明"],
    "商品": ["ノートPC", "マウス", "キーボード", "USBメモリ", "モニター", "Webカメラ", "ケーブル"],
    "カテゴリ": ["PC", "周辺機器", "周辺機器", "周辺機器", "PC", "周辺機器", "周辺機器"],
    "売上": [120000, 1000, 4800, 980, 5000, None, 3200]
}

df = pd.DataFrame(data)
df

	注文日	商品	カテゴリ	売上
0	2026-01-03	ノートPC	PC	120000.0
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
3	2026-01-28	USBメモリ	周辺機器	980.0
4	2026-02-04	モニター	PC	5000.0
5	2026-02-12	Webカメラ	周辺機器	NaN
6	日付不明	ケーブル	周辺機器	3200.0

この時点では、注文日 は文字列として入っています。日付の範囲抽出をするときは、あとで pd.to_datetime() を使って日付型に変換します。

数値を範囲で抽出する方法

ここからは、売上 列を使って between() の動きを確認します。

between() は、いきなり行を取り出すのではなく、まず各行が範囲内かどうかを判定します。

まずbetween()で範囲内かどうかを判定する

between() は、最初に各行の値が指定した範囲に入っているかどうかを、True / False で判定します。

たとえば、売上 が1000円以上5000円以下かどうかを判定してみます。

df["売上"].between(1000, 5000)

	売上
0	False
1	True
2	True
3	False
4	True
5	False
6	True

True は範囲内、False は範囲外という意味です。

この判定結果を使うと、次のステップで True の行だけを抽出できます。

判定結果を使って行を抽出する

範囲内かどうかを判定できたら、その条件を df[...] に入れます。

これで、売上 が1000円以上5000円以下の行だけを抽出できます。

売上範囲内 = df[df["売上"].between(1000, 5000)]
売上範囲内

	注文日	商品	カテゴリ	売上
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
4	2026-02-04	モニター	PC	5000.0
6	日付不明	ケーブル	周辺機器	3200.0

このコードでは、売上 が1000円以上5000円以下の行だけが残ります。

ポイントは、1000円ちょうどの行も、5000円ちょうどの行も含まれることです。between() は、初期設定では両端の値を含みます。

between() は、売上だけでなく、年齢・点数・価格など、範囲で絞りたい数値列にも同じように使えます。

日付を範囲で抽出する方法

between() は、数値だけでなく日付にも使えます。

ただし、CSVから読み込んだ日付列は、文字列のままになっていることがあります。日付の範囲抽出をする前に、pd.to_datetime() で日付型に変換しておきます。

df["注文日"] = pd.to_datetime(df["注文日"], errors="coerce")
df

	注文日	商品	カテゴリ	売上
0	2026-01-03	ノートPC	PC	120000.0
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
3	2026-01-28	USBメモリ	周辺機器	980.0
4	2026-02-04	モニター	PC	5000.0
5	2026-02-12	Webカメラ	周辺機器	NaN
6	NaT	ケーブル	周辺機器	3200.0

このセルを実行すると、df["注文日"] は日付型に変換されます。

そのため、以降の df では、日付として変換できなかった "日付不明" は NaT と表示されます。

errors="coerce" を指定すると、日付に変換できない値は NaT に変わります。

今回のデータでは、"日付不明" は日付として変換できません。errors="coerce" を指定しないとエラーになりますが、指定しておけば NaT に変換され、処理を続けられます。

次に、2026年1月1日から2026年1月31日までの注文だけを抽出します。

開始日 = pd.to_datetime("2026-01-01")
終了日 = pd.to_datetime("2026-01-31")

一月注文 = df[df["注文日"].between(開始日, 終了日)]
一月注文

	注文日	商品	カテゴリ	売上
0	2026-01-03	ノートPC	PC	120000.0
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
3	2026-01-28	USBメモリ	周辺機器	980.0

このように、between() を使うと、指定期間内の日付データだけを取り出せます。

日付の範囲抽出では、次の流れを意識すると安全です。

pd.to_datetime() で日付型に変換する
開始日と終了日を決める
between(開始日, 終了日) で抽出する

日付変換そのものを詳しく確認したい場合は、関連記事の to_datetime() を読むと理解しやすくなります。

抽出した結果は、必要な列だけ表示して確認すると見やすくなります。

一月注文[["注文日", "商品", "売上"]]

	注文日	商品	売上
0	2026-01-03	ノートPC	120000.0
1	2026-01-08	マウス	1000.0
2	2026-01-15	キーボード	4800.0
3	2026-01-28	USBメモリ	980.0

指定した日付範囲に入る行だけが残っていることを確認できます。

inclusiveで数値や日付の範囲の境界値を含める・含めない設定

between() は、境界値を含めるかどうかを inclusive で指定できます。

たとえば、1000円以上5000円以下なのか、1000円より大きく5000円未満なのかで、結果が変わります。

書き方	意味	境界値1000	境界値5000
`inclusive="both"`	両端を含む	含む	含む
`inclusive="left"`	左だけ含む	含む	含まない
`inclusive="right"`	右だけ含む	含まない	含む
`inclusive="neither"`	両端を含まない	含まない	含まない

まずは、初期設定と同じ inclusive="both" を確認します。

df[df["売上"].between(1000, 5000, inclusive="both")]

	注文日	商品	カテゴリ	売上
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
4	2026-02-04	モニター	PC	5000.0
6	NaT	ケーブル	周辺機器	3200.0

1000円ちょうど、5000円ちょうどの行がどちらも含まれます。

次に、両端を含めない inclusive="neither" を見てみましょう。

df[df["売上"].between(1000, 5000, inclusive="neither")]

	注文日	商品	カテゴリ	売上
2	2026-01-15	キーボード	周辺機器	4800.0
6	NaT	ケーブル	周辺機器	3200.0

この場合は、1000円ちょうどと5000円ちょうどの行は含まれません。

初心者がつまずきやすいのは、境界値を含むと思っていたのに含まれていない、またはその逆です。抽出条件を書くときは、「以上・以下」なのか「より大きい・未満」なのかを先に決めておきましょう。

範囲抽出で欠損値があるときの注意点

ここまでで、数値と日付の範囲抽出を確認しました。

次に、抽出対象の列に欠損値がある場合の動きを確認します。

between() では、NaN や日付型の欠損値は範囲内として扱われません。

実際に、売上 が欠損している行がどう判定されるか確認してみましょう。

ここでは、欠損値がどのように判定されるかを見やすくするために、商品・売上・範囲内 だけを並べた確認用のDataFrameを作ります。

元の df を変更しているわけではなく、判定結果を確認するための表です。

pd.DataFrame({
    "商品": df["商品"],
    "売上": df["売上"],
    "範囲内": df["売上"].between(1000, 5000)
})

	商品	売上	範囲内
0	ノートPC	120000.0	False
1	マウス	1000.0	True
2	キーボード	4800.0	True
3	USBメモリ	980.0	False
4	モニター	5000.0	True
5	Webカメラ	NaN	False
6	ケーブル	3200.0	True

売上 が欠損している行は、範囲内 が False になります。

欠損値は、1000以上とも5000以下とも判断できないためです。欠損値をどう扱うかは、分析目的によって変わります。

between()と>=・<=・query()・cut()の違い

between() と似た処理は、比較演算子や query() でも書けます。また、範囲に関係するメソッドとして cut() もあります。

ここでは、混同しやすい違いだけを整理します。

比較対象	使う場面	`between()`との違い
`>=`・`<=`	同じ範囲抽出を比較演算子で書きたい	`between()`のほうが範囲抽出の意図が読みやすい
`query()`	同じ範囲抽出を文字列の条件式で書きたい	条件を文章に近い形で書けるが、列名や文字列条件の書き方に慣れが必要
`cut()`	数値を区間カテゴリに分けたい	`between()`は範囲に入る行を抽出、`cut()`は値を区間に分類

同じ範囲条件を、between() と比較演算子で比べてみましょう。

# between()を使う書き方
df[df["売上"].between(1000, 5000)]

	注文日	商品	カテゴリ	売上
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
4	2026-02-04	モニター	PC	5000.0
6	NaT	ケーブル	周辺機器	3200.0

# 比較演算子を使う書き方
df[(df["売上"] >= 1000) & (df["売上"] <= 5000)]

	注文日	商品	カテゴリ	売上
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
4	2026-02-04	モニター	PC	5000.0
6	NaT	ケーブル	周辺機器	3200.0

1つの列を範囲で絞るだけなら、between() のほうが読みやすいことが多いです。

一方で、「売上が5000円以上」「カテゴリが周辺機器」「注文日が1月以降」のように複数条件を組み合わせる場合は、通常の条件式や query() も選択肢になります。

query()で書く場合

同じ条件を query() で書くと、次のようになります。

df.query("1000 <= 売上 <= 5000")

	注文日	商品	カテゴリ	売上
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
4	2026-02-04	モニター	PC	5000.0
6	NaT	ケーブル	周辺機器	3200.0

query() は便利ですが、列名や文字列条件の書き方に慣れが必要です。

この記事では、まず 1つの列を範囲で絞るなら between() と覚えるのがおすすめです。

cut()は抽出ではなく分類に使う

between() と cut() は、どちらも「範囲」に関係しますが、役割は違います。

between() は、範囲に合う行を残すための方法です。

df[df["売上"].between(1000, 5000)]

	注文日	商品	カテゴリ	売上
1	2026-01-08	マウス	周辺機器	1000.0
2	2026-01-15	キーボード	周辺機器	4800.0
4	2026-02-04	モニター	PC	5000.0
6	NaT	ケーブル	周辺機器	3200.0

一方で、cut() は値を区間ごとのラベルに分けたいときに使います。ここでは違いを確認するために、軽く例だけ示します。

df["売上帯"] = pd.cut(
    df["売上"],
    bins=[0, 1000, 5000, 200000],
    labels=["低め", "中くらい", "高め"]
)

df[["商品", "売上", "売上帯"]]

	商品	売上	売上帯
0	ノートPC	120000.0	高め
1	マウス	1000.0	低め
2	キーボード	4800.0	中くらい
3	USBメモリ	980.0	低め
4	モニター	5000.0	中くらい
5	Webカメラ	NaN	NaN
6	ケーブル	3200.0	中くらい

cut() は行を取り出すというより、値をカテゴリに分ける処理です。

今回の記事の主役は、あくまで 範囲で行を抽出する between() です。区間分けを詳しく学びたい場合は、cut() の記事に進むとよいです。

between()を使わない場面も確認しておく

between() は、数値や日付を「下限〜上限」の範囲で絞るときに使います。

一方で、次のような条件では、between() ではなく別のメソッドを使う方が自然です。

やりたいこと	使う方法
候補リストに含まれる値を抽出したい	`isin()`
文字列を含む行を抽出したい	`str.contains()`

たとえば、商品名が「マウス」または「キーボード」の行を取り出したい場合は isin()、商品名に「PC」を含む行を探したい場合は str.contains() が向いています。

この記事では between() を中心に扱うため、isin() と str.contains() は詳しく扱いません。必要に応じて関連記事で確認してください。

抽出したデータを集計して確認する

between() は、抽出して終わりではありません。抽出したデータを集計すると、条件に合うデータの傾向を確認しやすくなります。

データ分析では、必要な行だけを取り出したあとに、件数を数えたり、カテゴリ別に集計したり、グラフにしたりすることが多いです。

ここでは、売上が1000円以上5000円以下の商品だけに絞ったあと、カテゴリ別に件数を数えてみます。

売上範囲内 = df[df["売上"].between(1000, 5000)]

売上範囲内["カテゴリ"].value_counts()

	count
周辺機器	3
PC	1

value_counts() を使うと、抽出後のデータにどのカテゴリが多いかを確認できます。

次に、カテゴリ別の売上合計も確認してみます。

売上範囲内.groupby("カテゴリ")["売上"].sum()

	売上
PC	5000.0
周辺機器	9000.0

この流れは、実務でもよく使います。

CSV読み込み → 型確認 → 必要な範囲で抽出 → 集計 → 可視化 という流れの中で、between() は「必要な行だけを取り出す」ための前処理として使えます。

必要に応じてグラフで確認する

集計結果は、必要に応じてグラフで確認できます。

本格的なグラフ調整はMatplotlibの記事で扱うため、ここでは「抽出後のデータを可視化につなげられる」ことだけ確認します。

!pip install japanize-matplotlib > /dev/null

import matplotlib.pyplot as plt
import japanize_matplotlib

集計結果 = 売上範囲内.groupby("カテゴリ")["売上"].sum()

集計結果.plot(kind="bar")
plt.title("カテゴリ別の売上合計")
plt.xlabel("カテゴリ")
plt.ylabel("売上")
plt.show()

between()で抽出したデータをカテゴリ別に集計した棒グラフ

between() で絞り込んだあとに集計・可視化すると、必要な範囲だけに注目してデータを見やすくなります。

たとえば、全体では高額商品の影響が大きすぎる場合でも、1000〜5000円の商品だけに絞ることで、中価格帯の商品傾向を確認しやすくなります。

よくあるミスと確認ポイント

between() はシンプルですが、初心者がつまずきやすいポイントがあります。

よくあるミス	原因	対策
文字列の数字にそのまま使う	数値として比較できていない	`pd.to_numeric()` で数値型に変換する
日付文字列にそのまま使う	日付型ではなく文字列のまま	`pd.to_datetime()` で日付型に変換する
境界値が思った通りに含まれない	`inclusive` の指定を確認していない	以上・以下なのか、より大きい・未満なのかを先に決める
欠損値が抽出されない	`NaN` や `NaT` は範囲内にならない	欠損値処理を先に検討する
複数条件をすべてbetween()で書こうとする	1つの列の範囲抽出向きのメソッドだから	複数条件では AND/OR や `query()` も使う

数値の範囲抽出では、必要に応じて先に数値型へ変換します。

数値の範囲抽出では、列が文字列になっている場合に pd.to_numeric() で数値型へ変換します。

日付の範囲抽出では、pd.to_datetime() で日付型へ変換してから between() を使います。

between() は、基本的に1つの列を下限〜上限で絞るときに使います。

複数列にまたがる複雑な条件を扱う場合は、通常の条件式や query() も候補にしましょう。

between()は前処理・抽出で使う

between() は、集計や可視化の前に、必要な行だけを取り出すための処理です。

たとえば、次のような流れで使います。

CSV読み込み → 型の確認 → 数値・日付の変換 → 範囲抽出 → 集計 → 可視化

つまり、between() は、すべてのデータを見る前に、分析したい範囲に絞り込むための前処理として使えます。

まとめ：between()は数値・日付の範囲抽出を読みやすくする方法

この記事では、Pandasの between() を使って、数値や日付の範囲で行を抽出する方法を解説しました。

ポイントを整理します。

between() は、1つの列を下限〜上限で絞りたいときに使う
数値だけでなく、日付の範囲抽出にも使える
初期設定では、両端の境界値を含む
数値や日付の範囲の境界値を含めるかどうかは inclusive で指定できる
NaN や NaT は範囲内として扱われない
文字列の数字は to_numeric()、日付文字列は to_datetime() で整えてから使う
候補リストなら isin()、文字列検索なら str.contains()、区間分けなら cut() を使う
抽出後は value_counts() や groupby()、Matplotlib可視化へつなげると分析に活かしやすい

まずは、「1つの列を下限〜上限で抽出したいときは between()」 と覚えておくと、条件式を読みやすく書けるようになります。

次に読みたい関連記事

範囲抽出の前後で使いやすい記事をまとめます。

pandas 条件抽出（filtering）入門｜AND/OR・query関数・複数条件の指定方法
条件抽出全体、AND/OR、query() を整理したいときにおすすめです。
Pandas locとilocの違い｜行・列の抽出/スライス/条件指定を図解で解説
行・列の指定方法や、条件指定との関係を整理したいときに役立ちます。
pandas isinの使い方と仕組み｜リスト・複数条件・not isin・処理速度まで徹底解説
候補リストに含まれる行を抽出したいときに参考になります。
pandas str.contains()の使い方｜文字列を含む行を抽出・na=Falseも解説
文字列を含む行を抽出したいときに使います。
pandas to_numeric()の使い方｜文字列の数字を数値に変換する方法
文字列の数字を数値に直してから範囲抽出したいときにおすすめです。
pandas to_datetime()の使い方｜文字列の日付変換とformat・NaT対処を初心者向けに解説
日付の範囲抽出をする前に、日付型への変換を確認したいときに役立ちます。
pandas dtの使い方｜日付から年・月・曜日を取り出す方法を初心者向けに解説
日付を抽出したあと、年・月・曜日を取り出して集計したいときにおすすめです。
pandas cut()の使い方｜bins・labelsで数値を区間分けする方法を解説
範囲で抽出するのではなく、価格帯や年代などに分類したいときに使います。
Pandas groupby×aggの使い方｜基本の集計とaggの書き方を例で解説
範囲抽出したデータをカテゴリ別・月別に集計したいときに役立ちます。
pandas value_counts()の使い方｜件数集計・割合表示・欠損値の数え方を解説
抽出後の件数を数えたいときにおすすめです。
Matplotlib 棒グラフ入門：横棒・グループ化・積み上げまで解説
集計結果を棒グラフで見やすくしたいときに参考になります。

▲ ページトップへ戻る

pandasのbetween()は何をするメソッドですか？

between() は、指定した列の値が下限から上限の範囲に入っているかを判定するメソッドです。
たとえば、df["売上"].between(1000, 5000) と書くと、売上 が1000以上5000以下の行を判定できます。その結果を df[...] に入れると、範囲内の行だけを抽出できます。

between()は境界値を含みますか？

初期設定では、境界値を含みます。
つまり、between(1000, 5000) の場合、1000ちょうど、5000ちょうどの値も含まれます。境界値を含めたくない場合は、inclusive="neither" を使います。

between()で日付の範囲抽出はできますか？

できます。
ただし、日付列が文字列のままだと期待どおりに扱えないことがあります。日付の範囲抽出をする前に、pd.to_datetime() で日付型に変換してから between() を使うのがおすすめです。

between()と>=・<=は何が違いますか？

どちらも範囲抽出に使えます。
between() は、1つの列を下限〜上限で絞るときに短く読みやすく書けます。
一方、>= や <= は、片側だけの条件や複数条件を細かく組み合わせたいときに便利です。

between()とquery()はどちらを使えばよいですか？

1つの列を単純に範囲で絞るなら、まずは between() がわかりやすいです。
複数条件を文章に近い形で書きたい場合は、query() も便利です。ただし、query() は列名や文字列条件の書き方に少し慣れが必要です。

between()とcut()は何が違いますか？

between() は、範囲に入る行を抽出するために使います。
一方、cut() は、数値を「低価格・中価格・高価格」や「20代・30代・40代」のような区間カテゴリに分けるために使います。抽出したいなら between()、分類したいなら cut() と考えるとわかりやすいです。

範囲抽出で欠損値があるとき、between()はどうなりますか？

NaN や NaT は、範囲内として扱われません。
たとえば、売上が欠損している行や、日付が変換できず NaT になった行は、between() の判定では False になります。

文字列の数字にbetween()を使ってもよいですか？

数値として範囲抽出したい場合は、文字列のまま使わないほうが安全です。
CSVから読み込んだデータでは、数字に見えても文字列になっていることがあります。pd.to_numeric() で数値型に変換してから between() を使うと、意図した範囲抽出になりやすいです。

The post pandas between()の使い方｜数値・日付を範囲で抽出する方法 first appeared on Python Data Lab（Pythonデータラボ）.

pandas select_dtypes()の使い方｜データ型で列を選ぶ方法を初心者向けに解説

coin_collector — Sat, 09 May 2026 08:16:35 +0000

CSVやExcelを読み込むと、DataFrameにはいろいろな種類の列が混ざっていることがあります。

たとえば、次のような列です。

商品名 や 地域 のような文字列の列
売上 や 数量 のような数値の列
注文日 のような日付の列
キャンペーン対象 のような True / False の列

このようなデータでは、列の種類によって次に行う処理が変わります。

数値列は平均・合計・統計量の確認に使いやすく、文字列やカテゴリ列は件数集計に使いやすく、日付列は月別・曜日別の分析に使いやすいです。

つまり、データ型ごとに列を分けておくと、その後の確認・集計・分析に進みやすくなります。

そこで便利なのが、Pandasの select_dtypes() です。

select_dtypes() を使うと、列名ではなく データ型 を基準にして、数値列・文字列が入っている列・日付列などをまとめて選べます。

たとえば、数値列だけを選びたい場合は、次のように書きます。

df.select_dtypes(include="number")

この記事では、pandas select_dtypes の基本を、Google Colabでそのまま試せるサンプルデータを使って解説します。

この記事でわかること
まずdtypesで型を確認してからselect_dtypes()を使う
select_dtypes()とは？
まずはサンプルデータを作る
まずは変換前のデータで数値列だけを選んでみる
売上を数値型に変換する
変換後に数値列だけを選ぶ：include=”number”
文字列が入っている列だけを選ぶ：include=[“object”, “string”]
object型を選ぶときの注意
日付列だけを選ぶ：include=”datetime”
補足：category列やbool列も選べる
excludeで特定の型を除外する
select_dtypes()で次の処理に進みやすくする
まとめ

この記事でわかること

この記事では、次の内容を学びます。

select_dtypes() でできること
データ型ごとに列を分けるメリット
dtypes や info() で型を確認してから列を選ぶ流れ
数値列だけを選ぶ方法
文字列が入っている列だけを選ぶ方法
日付列だけを選ぶ方法
category 型や bool 型も選べること
exclude で特定の型を除外する方法

この記事のゴールは、select_dtypes() を使って、DataFrameから数値列・文字列が入っている列・日付列をデータ型ごとに選び、その後の確認・集計・分析に進みやすくすることです。

まずdtypesで型を確認してからselect_dtypes()を使う

select_dtypes() は、Pandasの前処理で 型を確認したあと に使うと便利です。

いきなり select_dtypes() を使うのではなく、まず df.dtypes や df.info() で、各列がPandas上でどのデータ型として扱われているかを確認します。

df.dtypes は、列ごとのデータ型だけを簡単に確認したいときに使います。
一方、df.info() では、データ型に加えて、行数・欠損していない値の数・メモリ使用量などもまとめて確認できます。

たとえば、次のような流れです。

CSVやExcelを読み込む
head() でデータの中身を確認する
df.dtypes や df.info() で列ごとのデータ型を確認する
数字や日付に見える列が、Pandas上でどの型として扱われているか確認する
必要に応じて to_numeric()、to_datetime()、astype() で型を整える
select_dtypes() で、数値列・文字列が入っている列・日付列などをまとめて選ぶ

この流れにすると、「見た目は数字でも、Pandas上では文字列として扱われている」「日付に見えても、まだ日付型ではない」といった状態に気づきやすくなります。

上で確認したように、select_dtypes() のメリットは、データ型ごとに列を分けられることです。

数値列、文字列が入っている列、日付列では、次に行う処理が異なります。
そのため、先に select_dtypes() で列を種類ごとに整理しておくと、確認・集計・分析へ進みやすくなります。

ただし、型が違う列を混ぜたまま、同じ方法で集計・可視化できるわけではありません。
数値列なら統計量の確認、文字列やカテゴリ列なら件数集計、日付列なら月別・曜日別の分析のように、列の種類に合った処理を選ぶことが大切です。

この流れで出てくる基本操作が不安な場合は、以下の記事も参考になります。dtypes や info() による型の確認方法は、info()・describe()の記事で解説しています。

select_dtypes()とは？

select_dtypes() は、DataFrameの列を データ型（dtype）で選ぶ メソッドです。

dtype は、Pandasで使われる「データ型」を表す言葉です。この記事では、基本的には「データ型」として説明します。

基本形は次のとおりです。

df.select_dtypes(include=選びたい型)

または、特定の型を除外したい場合は次のように書きます。

df.select_dtypes(exclude=除外したい型)

まず、初心者が最初に覚えるなら、次の3つで十分です。

やりたいこと	書き方の例	使う場面
数値列だけ選ぶ	`df.select_dtypes(include="number")`	集計・統計量・グラフ化の前
文字列が入っている列だけ選ぶ	`df.select_dtypes(include=["object", "string"])`	カテゴリ名・地域名などの確認
日付列だけ選ぶ	`df.select_dtypes(include="datetime")`	月別・曜日別の分析の前

ポイントは、select_dtypes() は 型を変換するメソッドではない ということです。

見た目が数字や日付のように見えても、Pandas上のデータ型が違うと、期待した列として選ばれないことがあります。
そのため、select_dtypes() を使う前後では、df.dtypes やdf.info()でデータ型を確認することが大切です。

まずはサンプルデータを作る

今回は、ネットショップの注文データをイメージしたDataFrameを使います。

このデータには、数値・文字列・日付・真偽値が混ざっています。
実際のCSVやExcelデータでも、このようにいろいろな型の列が混ざっていることがよくあります。


import pandas as pd
raw_df = pd.DataFrame({
    "注文ID": [1001, 1002, 1003, 1004, 1005],
    "商品名": ["ノートPC", "マウス", "キーボード", "モニター", "USBメモリ"],
    "地域": ["東京", "大阪", "東京", "福岡", "大阪"],
    "売上": ["120000", "3000", "8000", "35000", "不明"],
    "数量": [1, 2, 1, 1, 3],
    "割引率": [0.10, 0.00, 0.05, 0.15, 0.00],
    "注文日": ["2026-05-01", "2026-05-02", "2026-05-03", "2026-05-04", "2026-05-05"],
    "キャンペーン対象": [True, False, True, True, False],
    "メモ": ["初回購入", "リピート", "法人", "初回購入", "リピート"]
})

raw_df

	注文ID	商品名	地域	売上	数量	割引率	注文日	キャンペーン対象	メモ
0	1001	ノートPC	東京	120000	1	0.10	2026-05-01	True	初回購入
1	1002	マウス	大阪	3000	2	0.00	2026-05-02	False	リピート
2	1003	キーボード	東京	8000	1	0.05	2026-05-03	True	法人
3	1004	モニター	福岡	35000	1	0.15	2026-05-04	True	初回購入
4	1005	USBメモリ	大阪	不明	3	0.00	2026-05-05	False	リピート

上のデータでは、売上 は数字のように見えます。
しかし、最後に "不明" という文字が入っているため、この時点では数値列として扱えない可能性があります。

まずは、dtypes で列ごとの型を確認してみましょう。


raw_df.dtypes

	dtype
注文ID	int64
商品名	object
地域	object
売上	object
数量	int64
割引率	float64
注文日	object
キャンペーン対象	bool
メモ	object

dtypes を見ると、列ごとのデータ型を確認できます。
同じように、info() でも各列のデータ型は Dtype として確認できます。

ここで大切なのは、見た目が数字かどうかではなく、Pandasがどの型として認識しているか です。

たとえば、売上 は数字に見えますが、"不明" が混ざっているため、数値ではなく object 型として扱われています。

では、この状態で数値列だけを選ぶとどうなるか確認してみましょう。

まずは変換前のデータで数値列だけを選んでみる

数値列だけを選びたい場合は、include="number" を指定します。

まずは、型を変換する前の raw_df で数値列だけを選んでみます。


raw_df.select_dtypes(include="number")

	注文ID	数量	割引率
0	1001	1	0.10
1	1002	2	0.00
2	1003	1	0.05
3	1004	1	0.15
4	1005	3	0.00

実行結果を見ると、注文ID、数量、割引率 は選ばれますが、売上 は含まれていません。

理由は、売上 がPandas上では数値型ではなく object 型として扱われているためです。
このように、数字に見える列でも、データ型が文字列系のままだと include="number" では選ばれません。

売上 を数値列として扱いたい場合は、先に to_numeric() で数値型に変換します。

売上を数値型に変換する

ここでは、売上 を数値列として扱えるようにします。

売上 には "不明" が混ざっているため、そのままでは数値型にできません。
そこで、pd.to_numeric() の errors="coerce" を使い、数値に変換できない値を NaN にします。

数値変換の詳しい使い方は、以下の記事で解説しています。

pandas to_numeric()の使い方｜文字列の数字を数値に変換する方法


df = raw_df.copy()

df["売上"] = pd.to_numeric(df["売上"], errors="coerce")

df

	注文ID	商品名	地域	売上	数量	割引率	注文日	キャンペーン対象	メモ
0	1001	ノートPC	東京	120000.0	1	0.10	2026-05-01	True	初回購入
1	1002	マウス	大阪	3000.0	2	0.00	2026-05-02	False	リピート
2	1003	キーボード	東京	8000.0	1	0.05	2026-05-03	True	法人
3	1004	モニター	福岡	35000.0	1	0.15	2026-05-04	True	初回購入
4	1005	USBメモリ	大阪	NaN	3	0.00	2026-05-05	False	リピート

売上 の "不明" は、errors="coerce" によって NaN になりました。
これは「数値に変換できない値を欠損値として扱う」という意味です。

今回は学習用の例として "不明" を NaN に変換しています。
実務では、"不明" が本当に欠損値として扱ってよい値なのかを確認してから処理しましょう。

次に、型がどう変わったか確認します。


df.dtypes

	dtype
注文ID	int64
商品名	object
地域	object
売上	float64
数量	int64
割引率	float64
注文日	object
キャンペーン対象	bool
メモ	object

これで、売上 は数値型として扱えるようになりました。

もう一度、select_dtypes(include="number") で数値列だけを選んでみましょう。

変換後に数値列だけを選ぶ：include=”number”

売上 を数値型に変換したあとであれば、include="number" で数値列として選ばれるようになります。


numeric_df = df.select_dtypes(include="number")
numeric_df

	注文ID	売上	数量	割引率
0	1001	120000.0	1	0.10
1	1002	3000.0	2	0.00
2	1003	8000.0	1	0.05
3	1004	35000.0	1	0.15
4	1005	NaN	3	0.00

この結果では、注文ID、売上、数量、割引率 のような数値型の列だけが残ります。

一方で、商品名、地域、注文日、メモ などは数値型ではないため、この結果には含まれません。
また、キャンペーン対象 のような True / False の列はbool型として扱われるため、ここでは数値列とは分けて考えるとわかりやすいです。

ただし、注文ID のようなID列も数値型なので、include="number" で選ばれます。
ここは初心者が特に注意したいポイントです。

数値型の列として選ばれること と、平均・合計などの分析対象として意味があること は同じではありません。
たとえば、注文ID は数値型ですが、平均値や合計を出しても分析上の意味は薄いです。

そのため、include="number" で数値列をまとめて選んだあとでも、ID列のように分析対象にしない列は、目的に応じて除外しましょう。


numeric_df.describe()

	注文ID	売上	数量	割引率
count	5.000000	4.000000	5.000000	5.000000
mean	1003.000000	41500.000000	1.600000	0.060000
std	1.581139	54187.944539	0.894427	0.065192
min	1001.000000	3000.000000	1.000000	0.000000
25%	1002.000000	6750.000000	1.000000	0.000000
50%	1003.000000	21500.000000	1.000000	0.050000
75%	1004.000000	56250.000000	2.000000	0.100000
max	1005.000000	120000.000000	3.000000	0.150000

describe() を使うと、数値列の件数、平均、最小値、最大値などを確認できます。

より詳しく describe() の見方を確認したい場合は、以下の記事も参考になります。

Pandas info()とdescribe()の違い｜欠損値・型・統計量の見方を例で解説

文字列が入っている列だけを選ぶ：include=[“object”, “string”]

文字列が入っている列だけを選びたい場合は、include=["object", "string"] のように指定します。

Pandasでは、文字列が object 型として扱われることもあれば、string 型として扱われることもあります。
初心者のうちは、厳密な違いまで深入りしすぎず、まずは 文字列っぽい列を選ぶときは object と string を意識する と覚えておくとよいです。

なお、pandasのバージョンによって、文字列が入っている列のデータ型の表示や選び方が少し変わる場合があります。
うまく選べないときは、まず df.dtypes で実際のデータ型を確認してください。


text_df = df.select_dtypes(include=["object", "string"])
text_df

	商品名	地域	注文日	メモ
0	ノートPC	東京	2026-05-01	初回購入
1	マウス	大阪	2026-05-02	リピート
2	キーボード	東京	2026-05-03	法人
3	モニター	福岡	2026-05-04	初回購入
4	USBメモリ	大阪	2026-05-05	リピート

この例では、商品名、地域、注文日、メモ などが選ばれます。

ここで 注文日 も選ばれるのは、まだ to_datetime() で日付型に変換していないためです。
見た目が日付でも、Pandas上で文字列として扱われていれば、文字列系の列として選ばれます。

文字列が入っている列だけを取り出すと、value_counts() で種類ごとの件数を確認しやすくなります。

object型を選ぶときの注意

文字列が入っている列を選びたいときは、次のように書けます。

df.select_dtypes(include=["object", "string"])

ただし、object 型は「文字列専用の型」ではありません。

CSVやExcelを読み込んだデータでは、商品名・地域名・メモのような文字列列が object 型になることが多いです。
しかし、object 型には、文字列だけでなく、リストや辞書などのPythonオブジェクトが入ることもあります。

そのため、文字列列だけを正確に扱いたい場合は、まず df.dtypes で型を確認し、必要に応じて astype("string") で文字列型に整えてから使うと安心です。

df["商品名"] = df["商品名"].astype("string")

select_dtypes() は便利ですが、最初に df.dtypes で列ごとの型を確認してから使うのが基本です。


df["メモ"].value_counts()

	count
初回購入	2
リピート	2
法人	1

value_counts() は、カテゴリ名や文字列の出現回数を数えるときに便利です。

たとえば、地域別、商品名別、メモの種類別などを確認したいときに使えます。

詳しくは、以下の記事で解説しています。

pandas value_counts()の使い方｜件数集計・割合表示・欠損値の数え方を解説

日付列だけを選ぶ：include=”datetime”

日付列だけを選びたい場合は、include="datetime" を指定します。

ただし、見た目が日付の文字列でも、Pandas上で日付型になっていなければ選ばれません。
今回の 注文日 も、ここまでは文字列のままです。

そのため、日付列として選ぶ前に、to_datetime() で日付型に変換します。
to_datetime() の詳しい使い方は、以下の記事で解説しています。

pandas to_datetime()の使い方｜文字列の日付変換と format・NaT 対処を初心者向けに解説


df["注文日"] = pd.to_datetime(df["注文日"])

date_df = df.select_dtypes(include="datetime")
date_df

	注文日
0	2026-05-01
1	2026-05-02
2	2026-05-03
3	2026-05-04
4	2026-05-05

日付列を選べるようになると、月別集計や曜日別集計などに進みやすくなります。

なお、日付列から年・月・曜日を取り出す方法は、以下の記事で詳しく解説しています。

pandas dtの使い方｜日付から年・月・曜日を取り出す方法を初心者向けに解説

補足：category列やbool列も選べる

select_dtypes() では、数値列・文字列が入っている列・日付列だけでなく、カテゴリ型や真偽値型の列も選べます。

たとえば、カテゴリ型の列を選ぶ場合は include="category"、True / False のような真偽値列を選ぶ場合は include="bool" を使います。

ただし、初心者のうちは、まず include="number"、include=["object", "string"]、include="datetime" の3つを優先して覚えれば十分です。
category や bool は、必要になったときに補足として使うくらいで問題ありません。

category 型への変換は astype("category") で行えますが、詳しい型変換は以下の記事で解説しています。

pandas astype()の使い方｜文字列・数値への型変換とエラー対処を初心者向けに解説

excludeで特定の型を除外する

include は「この型を選ぶ」という指定です。
一方で、exclude は「この型を除外する」という指定です。

たとえば、数値列以外を選びたい場合は、次のように書けます。


non_numeric_df = df.select_dtypes(exclude="number")
non_numeric_df

	商品名	地域	注文日	キャンペーン対象	メモ
0	ノートPC	東京	2026-05-01	True	初回購入
1	マウス	大阪	2026-05-02	False	リピート
2	キーボード	東京	2026-05-03	True	法人
3	モニター	福岡	2026-05-04	True	初回購入
4	USBメモリ	大阪	2026-05-05	False	リピート

exclude="number" を指定すると、数値型の列が除外されます。

ただし、初心者のうちは、まず include を中心に使うのがおすすめです。
exclude は、慣れてきてから「数値列以外をまとめて確認したい」ときに使うとよいでしょう。

select_dtypes()で次の処理に進みやすくする

select_dtypes() で列をデータ型ごとに分けておくと、その後の処理に進みやすくなります。

たとえば、数値列は統計量の確認、文字列やカテゴリ列は件数集計、日付列は日付を使った分析に向いています。
この記事では詳しい集計や可視化には深入りせず、「分析に使う列をデータ型ごとに整理する」ところまでを押さえます。

まとめ

この記事では、pandas select_dtypes の使い方を解説しました。

select_dtypes() は、DataFrameの中から データ型を基準に列を選ぶ メソッドです。

基本は、次のように覚えると十分です。

やりたいこと	書き方
数値列だけ選ぶ	`df.select_dtypes(include="number")`
文字列が入っている列だけ選ぶ	`df.select_dtypes(include=["object", "string"])`
日付列だけ選ぶ	`df.select_dtypes(include="datetime")`
真偽値列だけ選ぶ	`df.select_dtypes(include="bool")`
数値列以外を選ぶ	`df.select_dtypes(exclude="number")`

category 型の列を選びたい場合は、include="category" も使えます。
ただし、初心者のうちは、まず数値列・文字列が入っている列・日付列を選べれば十分です。

注意したいのは、select_dtypes() は 型を変換するメソッドではない という点です。
数字に見える列や日付に見える列でも、Pandas上のデータ型が違えば選ばれないことがあります。

うまく選べないときは、まず df.dtypes や df.info() で型を確認しましょう。

必要に応じて、数値なら to_numeric()、日付なら to_datetime()、文字列型やカテゴリ型への変換なら astype() で型を整えてから、select_dtypes() を使います。

データ型を確認し、必要に応じて型を整えたうえで select_dtypes() を使うと、列の種類に合った次の処理へ進みやすくなります。

▲ ページトップへ戻る

pandasで数値列だけ抽出するにはどうすればよいですか？

数値列だけ抽出したい場合は、次のように書きます。
df.select_dtypes(include="number")

数字に見える列でも object 型になっている場合は選ばれないため、必要に応じて to_numeric() で数値型に変換します。

pandasで文字列が入っている列だけ選ぶにはどうすればよいですか？

文字列が入っている列だけを選びたい場合は、次のように書きます。
df.select_dtypes(include=["object", "string"])

うまく選べないときは、まず df.dtypes で実際のデータ型を確認しましょう。

日付列だけを選ぶことはできますか？

できます。日付型の列だけを選ぶ場合は、次のように書きます。
df.select_dtypes(include="datetime")

見た目が日付でも文字列のままでは選ばれないため、必要に応じて to_datetime() で日付型に変換します。

select_dtypes()で型は変換できますか？

できません。
select_dtypes() は、データ型を基準に列を選ぶメソッドです。
型を変換したい場合は、to_numeric()、to_datetime()、astype() などを使います。

うまく列が選ばれないときは何を確認すればよいですか？

まずは、df.dtypes または df.info() でPandas上のデータ型を確認しましょう。
数字に見える列が object 型のままだと include="number" では選ばれません。
日付に見える列が文字列型のままだと include="datetime" では選ばれません。

includeとexcludeを同時に使うときの注意はありますか？

include と exclude は同時に使えます。
たとえば、数値列を選びつつ、整数型だけを除外したい場合は次のように書けます。
df.select_dtypes(include="number", exclude="int64")

ただし、include と exclude に同じ型を指定するとエラーになります。
df.select_dtypes(include="number", exclude="number")

初心者のうちは、まず include だけで必要な型を選ぶ使い方から覚えるのがおすすめです。
慣れてきたら、不要な型を外したい場面で exclude を使うとよいでしょう。

The post pandas select_dtypes()の使い方｜データ型で列を選ぶ方法を初心者向けに解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas to_numeric()の使い方｜文字列の数字を数値に変換する方法

coin_collector — Wed, 06 May 2026 11:27:53 +0000

CSVやExcelを読み込んだあと、画面上では「1000」「2500」のように数字に見えるのに、sum()やmean()でうまく計算できないことがあります。

その原因の1つが、数字に見える列が、pandas上では文字列（object型）として扱われていることです。

このようなときに役立つのが、pd.to_numeric()です。

pd.to_numeric()は、数字に見える文字列を、計算できる数値型に変換するための関数です。特に、列の中に「不明」「-」「空欄」など、数値に変換できない値が混ざっている場合は、errors="coerce"を使うと安全に確認しながら前処理できます。

この記事では、to_numeric()の基本から、astype()との違い、errors="coerce"でNaNになる理由、変換後に集計や可視化へつなげる流れまで、初心者向けに順番に解説します。

この記事でわかること
Pandas前処理の中での位置づけ
まず結論：to_numeric()は「計算できる数値」に変換するために使う
数字に見えるのに計算できない例
to_numeric()の基本的な使い方
1. 複数列をまとめて数値に変換したい場合
処理前後で見る：文字列の数字が数値になる
変換できない値が混ざるとエラーになる
errors=”coerce”で変換できない値をNaNにする
NaNになった行を確認する
errorsの違いを軽く整理する
to_numeric()とastype()の違い
カンマ入り数値や「円」付きの金額を数値化する
変換後のNaNをどう扱うか
数値化できると集計や可視化に進みやすくなる
1. 補足：グラフを日本語表示したい場合
すべてのobject型を数値化すればよいわけではない
よくあるミスと確認ポイント
まとめ
次に読みたい関連記事

この記事でわかること

この記事では、次の内容を学びます。

pd.to_numeric()で文字列の数字を数値に変換する方法
数字に見える列がobject型になってしまう理由
errors="coerce"で変換できない値をNaNにする考え方
to_numeric()とastype()の違い
カンマ入り数値や「円」付きの金額を数値化する基本
変換後にfillna()、dropna()、groupby()、グラフ化へつなげる流れ

この記事のゴールは、数字に見えるのに計算できない列を、to_numeric()で安全に数値化し、欠損確認・集計・可視化へ進める前処理の流れを理解することです。

Pandas前処理の中での位置づけ

to_numeric()は、Pandasの前処理の中では「型を整える」場面で使います。

データ分析では、次のような流れで作業することが多いです。

CSVやExcelを読み込む
head()やinfo()でデータの状態を確認する
文字列になっている数値列を数値型に変換する
欠損値や変換できなかった値を処理する
集計やグラフ化に進む

to_numeric()は、特に3番目の「文字列になっている数値列を数値型に変換する」場面で役立ちます。

Pandasの基本的な流れを先に確認したい場合は、以下の記事も参考になります。

まず結論：to_numeric()は「計算できる数値」に変換するために使う

pd.to_numeric()は、文字列として入っている数字を、計算できる数値型に変換するために使います。

たとえば、次のような列があるとします。

変換前の値	pandas上の見え方	問題
`"1000"`	文字列	見た目は数字だが、計算用の数値ではない
`"2500"`	文字列	合計や平均で意図しない結果になることがある
`"不明"`	文字列	数値に変換できない
`"-"`	文字列	欠損や未入力を表している可能性がある

このような列を扱うときは、まずinfo()やdtypesで型を確認し、必要に応じてpd.to_numeric()で数値化します。

判断基準：売上・数量・点数・金額のように「合計や平均を出したい列」はto_numeric()で数値化します。一方、商品コード・郵便番号・電話番号のような「識別のための列」は、数字に見えても文字列のまま扱うことがあります。

import pandas as pd

# サンプルデータ：売上が文字列として入っている例
df = pd.DataFrame({
    "商品": ["A", "B", "C", "D"],
    "売上": ["1000", "2500", "1800", "3200"],
    "数量": ["2", "5", "3", "4"]
})

display(df)
print(df.dtypes)

	商品	売上	数量
0	A	1000	2
1	B	2500	5
2	C	1800	3
3	D	3200	4

商品    object
売上    object
数量    object
dtype: object

上の例では、売上列も数量列も見た目は数字ですが、dtypesを見るとobject型になっています。

object型は、文字列などが入っているときによく見られる型です。つまり、この状態では「数字のように見える文字列」として扱われています。

数字に見えるのに計算できない例

文字列のまま集計しようとすると、思った結果にならないことがあります。

たとえば、文字列の列に対してsum()を使うと、数値の合計ではなく、文字列がつながってしまう場合があります。

# 文字列のままsum()すると、数値の合計ではなく文字列の連結になることがあります
print(df["売上"].sum())

# 平均は計算できないため、エラーになります
try:
    print(df["売上"].mean())
except Exception as e:
    print(type(e).__name__)
    print(e)

1000250018003200
TypeError
Could not convert string '1000250018003200' to numeric

このように、見た目が数字でも、pandas上で文字列として扱われていると、集計や平均計算で困ることがあります。

そのため、CSVやExcelを読み込んだあとに計算がうまくいかない場合は、まず次の順番で確認します。

info()またはdtypesで型を見る
数値として使いたい列がobject型になっていないか確認する
必要ならpd.to_numeric()で数値型に変換する

次に、実際にto_numeric()で変換してみます。

to_numeric()の基本的な使い方

pd.to_numeric()の基本形は、次のように書きます。

df["列名"] = pd.to_numeric(df["列名"])

ここでは、売上列と数量列を数値に変換します。

df_basic = df.copy()

df_basic["売上"] = pd.to_numeric(df_basic["売上"])
df_basic["数量"] = pd.to_numeric(df_basic["数量"])

display(df_basic)
print(df_basic.dtypes)

	商品	売上	数量
0	A	1000	2
1	B	2500	5
2	C	1800	3
3	D	3200	4

商品    object
売上     int64
数量     int64
dtype: object

変換後は、売上列と数量列が数値型になりました。

この状態になれば、合計や平均を自然に計算できます。

print("売上合計:", df_basic["売上"].sum())
print("売上平均:", df_basic["売上"].mean())
print("数量合計:", df_basic["数量"].sum())

売上合計: 8500
売上平均: 2125.0
数量合計: 14

複数列をまとめて数値に変換したい場合

慣れてきたら、複数の列をまとめてto_numeric()で変換することもできます。

ただし、初心者のうちは、まず1列ずつ変換して、どの列でNaNが出たか確認する方が安全です。ここでは、売上列と数量列をまとめて変換する最小例だけ確認します。

df_multi = df.copy()

cols = ["売上", "数量"]
df_multi[cols] = df_multi[cols].apply(pd.to_numeric, errors="coerce")

display(df_multi)
print(df_multi.dtypes)

	商品	売上	数量
0	A	1000	2
1	B	2500	5
2	C	1800	3
3	D	3200	4

商品    object
売上     int64
数量     int64
dtype: object

複数列をまとめて変換するとコードは短くなります。

一方で、どの列に変換できない値があったのか見落としやすくなることもあります。そのため、最初は1列ずつ確認し、慣れてきたら複数列の一括変換を使うのがおすすめです。

処理前後で見る：文字列の数字が数値になる

to_numeric()の役割を、処理前後で整理すると次のようになります。

状態	売上列の例	pandas上の型	できること
変換前	`"1000"`	object	見た目は数字でも、計算で困ることがある
変換後	`1000`	intまたはfloat	合計・平均・集計・グラフ化に使いやすい

ポイントは、表示されている見た目ではなく、pandas上の型を確認することです。

「数字に見えるから大丈夫」と判断せず、info()やdtypesで確認する習慣をつけると、前処理で迷いにくくなります。

変換できない値が混ざるとエラーになる

実際のCSVやExcelでは、数値列の中に「不明」「-」「空欄」「error」などが混ざっていることがあります。

たとえば、次のような売上データを考えます。

df_dirty = pd.DataFrame({
    "商品": ["A", "B", "C", "D", "E"],
    "カテゴリ": ["食品", "食品", "日用品", "日用品", "食品"],
    "売上": ["1000", "2500", "不明", "3000", "-"],
    "数量": ["2", "5", "3", "error", "1"]
})

display(df_dirty)
print(df_dirty.dtypes)

	商品	カテゴリ	売上	数量
0	A	食品	1000	2
1	B	食品	2500	5
2	C	日用品	不明	3
3	D	日用品	3000	error
4	E	食品	–	1

商品      object
カテゴリ    object
売上      object
数量      object
dtype: object

売上列には「不明」や「-」が含まれています。
数量列には「error」が含まれています。

このような列をそのままpd.to_numeric()で変換しようとすると、数値に変換できない値があるためエラーになります。

try:
    pd.to_numeric(df_dirty["売上"])
except Exception as e:
    print(type(e).__name__)
    print(e)

ValueError
Unable to parse string "不明" at position 2

エラーが出ること自体は悪いことではありません。
むしろ、「この列には数値に変換できない値が混ざっている」と気づくきっかけになります。

ただし、実務では、変換できない値をいったんNaNにして確認したいことがよくあります。そこで使うのが、errors="coerce"です。

errors=”coerce”で変換できない値をNaNにする

errors="coerce"を指定すると、数値に変換できない値をNaNにできます。

pd.to_numeric(df["列名"], errors="coerce")

coerceは「無理に変換する」という意味に近い指定です。
ただし、ここで大切なのは、エラーを隠すためではなく、変換できなかった値をNaNとして見つけるために使うという考え方です。

df_coerce = df_dirty.copy()

df_coerce["売上_数値"] = pd.to_numeric(df_coerce["売上"], errors="coerce")
df_coerce["数量_数値"] = pd.to_numeric(df_coerce["数量"], errors="coerce")

display(df_coerce)
print(df_coerce.dtypes)

	商品	カテゴリ	売上	数量	売上_数値	数量_数値
0	A	食品	1000	2	1000.0	2.0
1	B	食品	2500	5	2500.0	5.0
2	C	日用品	不明	3	NaN	3.0
3	D	日用品	3000	error	3000.0	NaN
4	E	食品	–	1	NaN	1.0

商品        object
カテゴリ      object
売上        object
数量        object
売上_数値    float64
数量_数値    float64
dtype: object

処理前後を表で見ると、次のようなイメージです。

変換前	`errors="coerce"`後	意味
`"1000"`	`1000.0`	数値に変換できた
`"2500"`	`2500.0`	数値に変換できた
`"不明"`	`NaN`	数値に変換できなかった
`"3000"`	`3000.0`	数値に変換できた
`"-"`	`NaN`	数値に変換できなかった

to_numeric()後にNaNが出た場合、それは元データに数値化できない値が混ざっていたサインです。

NaNになった行を確認する

errors="coerce"を使ったあとに大切なのは、NaNになった行を確認することです。

NaNになった値は、単なる欠損値ではなく、数値に変換できなかった値である可能性があります。

# 売上_数値がNaNになった行を確認
display(df_coerce[df_coerce["売上_数値"].isna()])

# 数量_数値がNaNになった行を確認
display(df_coerce[df_coerce["数量_数値"].isna()])

	商品	カテゴリ	売上	数量	売上_数値	数量_数値
2	C	日用品	不明	3	NaN	3.0
4	E	食品	–	1	NaN	1.0

	商品	カテゴリ	売上	数量	売上_数値	数量_数値
3	D	日用品	3000	error	3000.0	NaN

この確認を入れることで、次に何をすべきか判断しやすくなります。

たとえば、

「不明」は本当に欠損として扱ってよいのか
「-」は未入力を意味するのか
「error」は入力ミスなのか
行を除外するのか、0で埋めるのか、別途確認するのか

といった判断ができます。

to_numeric()は、数値化するだけでなく、データの汚れを見つける入口としても役立ちます。

errorsの違いを軽く整理する

pd.to_numeric()のerrorsでは、初心者のうちは次の2つを押さえれば十分です。

指定	動き	初心者向けの使いどころ
`errors="raise"`	変換できない値があるとエラーにする	どこで失敗するか厳密に確認したいとき
`errors="coerce"`	変換できない値を`NaN`にする	実務で混ざった不正値を見つけたいとき

まずは、変換できない値があるとエラーになるerrors="raise"で、データに問題があることを確認できます。

実務では、変換できない値をNaNにしてあとから確認したい場面が多いため、この記事では主にerrors="coerce"を使って説明します。

なお、古い記事や古いpandas環境ではerrors="ignore"を見かけることがあります。
ただし、初心者向けの記事では通常の選択肢として覚える必要はありません。変換できない値を曖昧に残すより、errors="coerce"でNaNにして確認する方が、前処理の流れを理解しやすくなります。

to_numeric()とastype()の違い

数値変換では、astype()もよく使われます。

どちらも型変換に関係しますが、使いどころが少し違います。

方法	向いている場面	注意点
`astype()`	値がきれいで、変換先の型を明示したいとき	変換できない値が混ざるとエラーになりやすい
`to_numeric()`	数字に見える文字列を数値化したいとき	`errors="coerce"`でNaNになる値を確認する必要がある
`to_datetime()`	日付文字列を日付型に変換したいとき	数値ではなく日付用
`replace()`	「不明」「-」「円」などを置換したいとき	置換だけでは数値型にはならないことがある

ざっくり言うと、きれいな値ならastype()、汚れた数値列を安全に扱うならto_numeric()と考えると分かりやすいです。

# astype()は、きれいな値なら分かりやすく変換できます
df_astype_ok = pd.DataFrame({
    "売上": ["1000", "2500", "1800"]
})

df_astype_ok["売上"] = df_astype_ok["売上"].astype(int)
display(df_astype_ok)
print(df_astype_ok.dtypes)

	売上
0	1000
1	2500
2	1800

売上    int64
dtype: object

# ただし、不明などが混ざるとastype()ではエラーになります
df_astype_ng = pd.DataFrame({
    "売上": ["1000", "2500", "不明", "3000"]
})

try:
    df_astype_ng["売上"].astype(int)
except Exception as e:
    print(type(e).__name__)
    print(e)

ValueError
invalid literal for int() with base 10: '不明'

このように、astype()は値がきれいなときには便利です。

一方で、実際のCSVやExcelでは「不明」「-」「空欄」などが混ざることがあります。
そのような場合は、pd.to_numeric(..., errors="coerce")で変換できない値をNaNにして確認する方が、前処理の流れを作りやすくなります。

astype()全体の使い方は、別記事のpandas astype()の使い方で詳しく扱っています。

カンマ入り数値や「円」付きの金額を数値化する

CSVやExcelでは、次のような値が入っていることがあります。

値の例	そのまま数値化できるか	対応の考え方
`"1,000"`	そのままでは変換しづらい	カンマを削除してから数値化
`"2,500円"`	そのままでは変換しづらい	カンマと「円」を削除してから数値化
`"3000円"`	そのままでは変換しづらい	「円」を削除してから数値化
`"不明"`	数値化できない	`errors="coerce"`でNaNにして確認

ここでは、複雑な正規表現には深入りせず、基本的な置換だけで考えます。

df_money = pd.DataFrame({
    "商品": ["A", "B", "C", "D"],
    "売上": ["1,000", "2,500円", "3000円", "不明"]
})

display(df_money)

	商品	売上
0	A	1,000
1	B	2,500円
2	C	3000円
3	D	不明

df_money_clean = df_money.copy()

# カンマと「円」を取り除く
df_money_clean["売上_整形後"] = (
    df_money_clean["売上"]
    .str.replace(",", "", regex=False)
    .str.replace("円", "", regex=False)
)

# 数値に変換する
df_money_clean["売上_数値"] = pd.to_numeric(df_money_clean["売上_整形後"], errors="coerce")

display(df_money_clean)
print(df_money_clean.dtypes)

	商品	売上	売上_整形後	売上_数値
0	A	1,000	1000	1000.0
1	B	2,500円	2500	2500.0
2	C	3000円	3000	3000.0
3	D	不明	不明	NaN

商品         object
売上         object
売上_整形後     object
売上_数値     float64
dtype: object

処理の流れを整理すると、次のようになります。

元の値	整形後	数値変換後
`"1,000"`	`"1000"`	`1000.0`
`"2,500円"`	`"2500"`	`2500.0`
`"3000円"`	`"3000"`	`3000.0`
`"不明"`	`"不明"`	`NaN`

ここでのポイントは、replace()やstr.replace()で文字を整えたあと、最後にto_numeric()で数値型にすることです。

置換処理そのものを詳しく学びたい場合は、pandas replace()の使い方も参考になります。

変換後のNaNをどう扱うか

to_numeric(errors="coerce")でNaNになった値は、次のどちらかで処理することが多いです。

方法	使う場面	例
`fillna()`	欠損値を0や平均値などで埋めたい	未入力の売上を0として扱う
`dropna()`	変換できなかった行を分析対象から外したい	不明な売上行を除いて平均を出す

ただし、どちらが正しいかはデータの意味によって変わります。

たとえば、売上の「不明」を0円とみなしてよいとは限りません。
0で埋める前に、NaNになった理由を確認することが大切です。

df_after = df_coerce.copy()

# 例1：売上_数値のNaNを0で埋める
df_fill = df_after.copy()
df_fill["売上_数値"] = df_fill["売上_数値"].fillna(0)

print("NaNを0で埋めた例")
display(df_fill)

# 例2：売上_数値がNaNの行を除外する
df_drop = df_after.dropna(subset=["売上_数値"])

print("売上_数値がNaNの行を除外した例")
display(df_drop)

NaNを0で埋めた例

	商品	カテゴリ	売上	数量	売上_数値	数量_数値
0	A	食品	1000	2	1000.0	2.0
1	B	食品	2500	5	2500.0	5.0
2	C	日用品	不明	3	0.0	3.0
3	D	日用品	3000	error	3000.0	NaN
4	E	食品	–	1	0.0	1.0

売上_数値がNaNの行を除外した例

	商品	カテゴリ	売上	数量	売上_数値	数量_数値
0	A	食品	1000	2	1000.0	2.0
1	B	食品	2500	5	2500.0	5.0
3	D	日用品	3000	error	3000.0	NaN

fillna()とdropna()は、どちらもよく使う欠損処理です。

欠損値を埋める処理を詳しく学びたい場合：
pandas fillna()の使い方
欠損行を削除する処理を詳しく学びたい場合：
pandas dropna()・drop_duplicates()・drop()の使い方

今回の記事では、to_numeric()で数値化したあとに、必要に応じて欠損処理へ進む流れだけ押さえれば十分です。

数値化できると集計や可視化に進みやすくなる

to_numeric()で数値化できると、合計・平均・グループ別集計・グラフ化に進みやすくなります。

ここでは、カテゴリ別に売上合計を出す例を見てみます。

# 集計用のデータを作る
# グラフの文字化けを避けるため、カテゴリ名は英語にしています
df_sales = pd.DataFrame({
    "商品": ["A", "B", "C", "D", "E", "F"],
    "カテゴリ": ["Food", "Food", "Daily goods", "Daily goods", "Food", "Daily goods"],
    "売上": ["1000", "2500", "不明", "3000", "1200", "1800"]
})

# 売上を数値化
df_sales["売上_数値"] = pd.to_numeric(df_sales["売上"], errors="coerce")

display(df_sales)

	商品	カテゴリ	売上	売上_数値
0	A	Food	1000	1000.0
1	B	Food	2500	2500.0
2	C	Daily goods	不明	NaN
3	D	Daily goods	3000	3000.0
4	E	Food	1200	1200.0
5	F	Daily goods	1800	1800.0

# NaNを除いてカテゴリ別に売上を集計
category_sales = (
    df_sales
    .dropna(subset=["売上_数値"])
    .groupby("カテゴリ")["売上_数値"]
    .sum()
    .reset_index()
)

display(category_sales)

	カテゴリ	売上_数値
0	Daily goods	4800.0
1	Food	4700.0

このように、文字列だった売上列を数値化すると、groupby()でカテゴリ別に集計できるようになります。

groupby()を詳しく学びたい場合は、Pandas groupby×aggの使い方も参考になります。

import matplotlib.pyplot as plt

# 数値化した結果を棒グラフで確認
category_sales.plot(kind="bar", x="カテゴリ", y="売上_数値", legend=False)
plt.title("Sales by Category")
plt.xlabel("Category")
plt.ylabel("Sales")
plt.show()

数値化した売上をカテゴリ別に集計した棒グラフ

Google Colabでは、日本語フォントの設定をしていないとグラフ内の日本語が文字化けすることがあります。

この記事ではto_numeric()で数値化したあとにグラフ化へ進める流れを確認することが目的なので、グラフ用のカテゴリ名とラベルは英語にしています。

グラフ化そのものはこの記事の主題ではありませんが、数値列が正しく数値型になっていると、Matplotlibで可視化しやすくなります。

棒グラフの作り方を詳しく学びたい場合は、Matplotlib 棒グラフ入門へ進むと理解がつながります。

補足：グラフを日本語表示したい場合

Google Colabでグラフ内の日本語を表示したい場合は、japanize-matplotlibを使う方法もあります。

!pip install japanize-matplotlib > /dev/null
import japanize_matplotlib

ただし、この記事の主題はto_numeric()で数値化する前処理です。
そのため、本文ではグラフの日本語表示設定には深入りせず、数値化後に集計・可視化へ進める流れの確認にとどめます。

Matplotlibの見やすいグラフ設定を詳しく学びたい場合は、関連記事のMatplotlib入門記事へ進んでください。

すべてのobject型を数値化すればよいわけではない

ここまで、object型の数値列をto_numeric()で変換する方法を見てきました。

ただし、すべてのobject型を数値化すればよいわけではありません。

たとえば、次のような列は、数字のように見えても文字列のまま扱った方がよいことがあります。

列の例	数値化しない方がよい理由
商品コード	合計や平均を出すものではない
会員番号	数値というより識別子として使う
郵便番号	先頭の0が消えると困る
電話番号	計算対象ではない

to_numeric()を使う前に、その列を計算に使うのかを確認することが大切です。

売上、数量、点数、金額のように合計や平均を出したい列なら数値化します。
一方で、IDやコードのように識別のための列は、文字列のまま扱うこともあります。

よくあるミスと確認ポイント

to_numeric()で初心者がつまずきやすいポイントを整理します。

よくあるミス	原因	確認すること
数字なのに合計できない	文字列として読み込まれている	`dtypes`や`info()`を見る
`astype(int)`でエラーになる	「不明」や空欄が混ざっている	`to_numeric(errors="coerce")`を使う
変換後に`NaN`が増える	数値に変換できない値がある	`isna()`で行を確認する
intではなくfloatになる	`NaN`が含まれている	欠損処理後に必要なら型を検討する
カンマ入り金額が変換できない	`,`や「円」が文字として含まれている	先に文字を整える
日付まで数値化しようとする	数値変換と日付変換を混同している	日付は`to_datetime()`を使う

日付変換については、pandas to_datetime()の使い方で詳しく解説しています。

まとめ

この記事では、pandas to_numeric()の使い方を解説しました。

ポイントを整理します。

pd.to_numeric()は、数字に見える文字列を計算できる数値型に変換する関数
CSVやExcelを読み込んだあと、数値列がobject型になることがある
変換前後はinfo()やdtypesで確認する
変換できない値が混ざる場合は、errors="coerce"でNaNにできる
NaNになった値は、変換できなかった値として確認する
きれいな値ならastype()、汚れた数値列を安全に扱うならto_numeric()が使いやすい
カンマや「円」付きの値は、文字を整えてから数値化する
まずは1列ずつ確認し、慣れてきたら複数列の一括変換も使える
数値化できると、sum()、mean()、groupby()、Matplotlibによる可視化へ進みやすくなる

to_numeric()は、派手な機能ではありませんが、データ分析の前処理ではとても重要です。

「数字に見えるのに計算できない」と感じたら、まずdtypesで型を確認し、必要に応じてpd.to_numeric()で数値化してみましょう。

次に読みたい関連記事

今回の記事とあわせて読むと、Pandasの前処理から集計・可視化までの流れがつながりやすくなります。

▲ ページトップへ戻る

to_numeric()とastype()は何が違いますか？

astype()は、値がきれいで変換先の型を明示したいときに使いやすい方法です。
一方、to_numeric()は、数字に見える文字列を数値化したいときに向いています。特に、「不明」「-」「空欄」などが混ざる可能性がある列では、errors="coerce"を使って、変換できない値をNaNとして確認できます。
ざっくり言うと、きれいな型変換はastype()、汚れた数値列の安全な数値化はto_numeric()と考えると分かりやすいです。

errors=”coerce”とは何ですか？

errors="coerce"は、数値に変換できない値をNaNにする指定です。
たとえば、"1000"は数値に変換できますが、"不明"や"-"はそのままでは数値にできません。
そのような値をNaNにして、あとで確認できるようにするのがerrors="coerce"です。

to_numeric()でNaNになるのはなぜですか？

元の値に、数値へ変換できない文字が含まれているためです。
たとえば、"不明"、"error"、"-"、"1,000"、"3000円"などは、そのままでは数値化できない場合があります。
NaNになった行は、isna()で確認して、置換するのか、0で埋めるのか、除外するのかを判断します。

カンマ入りの「1,000」はそのまま数値にできますか？

そのままでは変換できないことがあります。
基本的には、先にカンマを取り除いてからto_numeric()を使います。
df["売上"] = df["売上"].str.replace(",", "", regex=False)
df["売上"] = pd.to_numeric(df["売上"], errors="coerce")

「円」が付いた金額はどうすればよいですか？

カンマや「円」を取り除いてから、to_numeric()で数値化します。本文の例と同じく、最後にerrors="coerce"で変換できない値を確認すると安全です。
df["金額"] = (
　　df["金額"]
　　.str.replace(",", "", regex=False)
　　.str.replace("円", "", regex=False)
)
df["金額"] = pd.to_numeric(df["金額"], errors="coerce")

read_csvで読み込んだ列がobject型になるのはなぜですか？

列の中に、数値だけでなく文字や空欄、記号が混ざっていると、pandasがその列を文字列寄りのobject型として読み込むことがあります。
たとえば、売上列に"1000"、"2500"、"不明"が混ざっていると、数値列として扱いにくくなります。
その場合は、読み込んだあとにinfo()やdtypesで確認し、必要に応じてto_numeric()で変換します。

The post pandas to_numeric()の使い方｜文字列の数字を数値に変換する方法 first appeared on Python Data Lab（Pythonデータラボ）.

pandas read_excel()の使い方｜Excelファイル読み込み・sheet_name・usecolsを解説

coin_collector — Tue, 05 May 2026 15:37:12 +0000

Pythonでデータ分析を始めると、CSVファイルだけでなく、Excelファイルを読み込みたい場面もよくあります。

たとえば、次のような場面です。

会社や学校から配布されたデータが .xlsx 形式になっている
Excelファイルの中に複数のシートがある
必要な列だけ読み込みたい
1行目にタイトルや説明文があり、表の見出しがずれている
読み込んだあと、日付や数値の型が合っているか確認したい

結論からいうと、Excelファイルをpandasで読み込むには、まず pd.read_excel("ファイル名.xlsx") を使います。

そのうえで、必要に応じて次のように指定します。

やりたいこと	使う指定
複数シートから特定のシートを読み込みたい	`sheet_name`
必要な列だけ読み込みたい	`usecols`
見出し行がずれている	`header`
表の上に説明行がある	`skiprows`
特定の列をインデックスにしたい	`index_col`

この記事では、Google Colabで手元のExcelファイルをアップロードして読み込む方法にも軽く触れつつ、練習用のサンプルExcelファイルを作りながら、read_excel() の基本、sheet_name・usecols・header・skiprows の使いどころ、読み込み後に確認すべきポイントまでを初心者向けに整理します。

この記事でわかること
Excelファイルを読み込んだ後の流れ
read_excel()とは？
Google Colabで自分のExcelファイルを読み込む場合
練習用のExcelファイルを用意する
まずは基本形でExcelファイルを読み込む
sheet_nameで読み込むシートを指定する
usecolsで必要な列だけ読み込む
headerとskiprowsで見出し行のズレを調整する
1. headerで「列名として使う行」を指定する
2. skiprowsで「読み飛ばす行」を指定する
index_colは必要な場合だけ使う
read_excel()とread_csv()の違い
ExcelをCSVに変換してから扱ったほうがよい場合
よくあるミスとエラー対処
読み込んだ後は前処理につなげる
read_excel()で押さえるポイントを整理する
まとめ
次に読みたい関連記事

この記事でわかること

この記事では、次の内容を扱います。

Google Colabで手元のExcelファイルをアップロードして読み込む基本
pd.read_excel() でExcelファイルをDataFrameとして読み込む基本
sheet_name でシートを指定する方法
usecols で必要な列だけ読み込む方法
header・skiprows で見出し行や不要な説明行を調整する方法
read_excel() と read_csv() の違い
読み込んだあとに head()・info()・describe() で確認する流れ
Excel読み込み後に、列名変更・型変換・日付変換・欠損値処理へ進む考え方

Excelファイルを読むこと自体がゴールではありません。
読み込んだ表をDataFrameとして確認し、前処理・抽出・集計・可視化へ進める状態にすることが大切です。

Excelファイルを読み込んだ後の流れ

Excelファイルの読み込みは、データ分析の最初の入口です。
ただし、read_excel() で読み込んで終わりではありません。

読み込んだ表をDataFrameとして確認し、必要に応じて列名・型・日付・欠損値を整えてから、抽出・集計・可視化へ進む流れが大切です。

学習の流れとしては、次のように考えると自然です。

Google ColabでPythonを動かす
read_excel() でExcelファイルをDataFrameとして読み込む
head()・info()・describe() で中身を確認する
必要に応じて列名・型・日付・欠損値を整える
条件抽出・集計・可視化へ進む

CSVファイルを読み込む場合は read_csv()、Excelファイルを読み込む場合は read_excel() を使います。
この記事では、ExcelファイルをDataFrameとして読み込み、分析しやすい形に整える入口までを中心に説明します。

read_excel()とは？

read_excel() は、ExcelファイルをpandasのDataFrameとして読み込むための関数です。

基本形は次のとおりです。

pd.read_excel("ファイル名.xlsx")

シンプルなExcelファイルであれば、まずはこの形で読み込めます。

ただし、実際のExcelファイルでは、次のような調整が必要になることがあります。

困る場面	使う引数	考え方
シートが複数ある	`sheet_name`	どのシートを読むか指定する
列が多すぎる	`usecols`	必要な列だけ読む
1行目が見出しではない	`header`	どの行を列名として使うか指定する
表の上に説明行がある	`skiprows`	不要な行を読み飛ばす
ID列を行ラベルにしたい	`index_col`	特定の列をインデックスにする
見出しがない表に列名を付けたい	`names`	列名を自分で指定する

初心者のうちは、最初からすべての引数を覚える必要はありません。
まずは「何に困っているか」と「どの引数で調整するか」を対応させて理解しましょう。

なお、names は列名を自分で付けたいときに使える引数ですが、初心者のうちはまず header で見出し行を正しく読み込む方法を優先すると理解しやすいです。

Google Colabで自分のExcelファイルを読み込む場合

自分のパソコンにあるExcelファイルをGoogle Colabで読み込みたい場合は、まずファイルをアップロードします。

なお、この章の from google.colab import files は、Google Colabで実行する場合の方法です。ローカルのJupyter Notebookを使っている場合は、ExcelファイルをNotebookと同じフォルダに置いて読み込めば大丈夫です。

※この章は、自分のパソコンにあるExcelファイルをアップロードして読み込む場合の手順です。記事内で作成するサンプルExcelを使う場合は、この章のコードは実行せず、次の「練習用のExcelファイルを用意する」章から実行してください。

次のコードを実行すると、ファイル選択ボタンが表示されます。
読み込みたい .xlsx ファイルを選んでアップロードしてください。

from google.colab import files

uploaded = files.upload()

アップロードできたら、ファイル名を指定して read_excel() で読み込みます。

たとえば、アップロードしたファイル名が sales_sample.xlsx の場合は、次のように書きます。

import pandas as pd

df = pd.read_excel("sales_sample.xlsx")
df.head()

この記事では、読者が同じコードをそのまま試せるように、次の章で練習用のExcelファイルを作成してから読み込みます。
すでに自分のExcelファイルがある場合は、このあとのサンプル作成部分を飛ばして、自分のファイル名に置き換えて進めても大丈夫です。

練習用のExcelファイルを用意する

ここでは、記事内で同じ結果を再現できるように、練習用のExcelファイルを作成します。

このコードは「Excelファイルを用意するための準備」です。
自分のExcelファイルを使う場合は、この章を飛ばして、ファイル名だけ自分のものに置き換えて進めてください。

サンプルは、sheet_name・header・skiprows を説明できる最小限の内容にしています。

なお、Excelファイルの作成や読み込みでは、環境によって openpyxl が必要になることがあります。
Google Colabではそのまま使えることが多いですが、エラーが出た場合は後半の「openpyxlが必要というエラーが出る」を確認してください。

import pandas as pd

# 練習用の売上データ
sales_df = pd.DataFrame({
    "売上日": ["2025-04-01", "2025-04-02", "2025-04-03"],
    "店舗": ["東京店", "大阪店", "東京店"],
    "商品": ["ノートPC", "マウス", "キーボード"],
    "売上金額": [120000, 3000, 8000],
    "数量": [1, 2, 1]
})

# 複数シートの例に使う商品マスタ
master_df = pd.DataFrame({
    "商品": ["ノートPC", "マウス", "キーボード"],
    "カテゴリ": ["PC", "周辺機器", "周辺機器"]
})

file_path = "sales_sample.xlsx"

# 練習用のExcelファイルを作成
with pd.ExcelWriter(file_path, engine="openpyxl") as writer:
    sales_df.to_excel(writer, sheet_name="売上データ", index=False)
    master_df.to_excel(writer, sheet_name="商品マスタ", index=False)

    # 説明行が上にあるExcelを再現するため、3行目から表を書き込む
    sales_df.to_excel(writer, sheet_name="説明行あり", index=False, startrow=2)
    ws = writer.sheets["説明行あり"]
    ws["A1"] = "2025年4月 売上レポート"
    ws["A2"] = "※この行は説明行です。"

file_path

'sales_sample.xlsx'

まずは基本形でExcelファイルを読み込む

一番シンプルな読み込み方は、pd.read_excel() にExcelファイル名を指定する方法です。

次のコードでは、Excelファイルの先頭シートをDataFrameとして読み込みます。

df = pd.read_excel("sales_sample.xlsx")
df

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

Excelファイルを読み込むと、pandasではDataFrameとして扱えます。
ここで大切なのは、読み込んで終わりにしないことです。

読み込んだ直後は、まず次の3つを確認しましょう。

確認したいこと	使うメソッド	見るポイント
先頭の数行	`head()`	想定した表になっているか
列名・型・欠損値	`info()`	日付や数値の型が合っているか
数値列の統計量	`describe()`	極端な値がないか

Excelでは見た目が整っていても、pandasで読み込むと型や列名が想定と違うことがあります。
そのため、読み込み後の確認はとても重要です。

df.head()

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

df.info()


RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   売上日     3 non-null      object
 1   店舗      3 non-null      object
 2   商品      3 non-null      object
 3   売上金額    3 non-null      int64 
 4   数量      3 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 252.0+ bytes

df.describe()

	売上金額	数量
count	3.000000	3.000000
mean	43666.666667	1.333333
std	66153.861061	0.577350
min	3000.000000	1.000000
25%	5500.000000	1.000000
50%	8000.000000	1.000000
75%	64000.000000	1.500000
max	120000.000000	2.000000

sheet_nameで読み込むシートを指定する

Excelファイルには、複数のシートが入っていることがあります。
この場合は、sheet_name を使って、どのシートを読み込むか指定します。

sheet_name は列名ではなく、Excelの下部に表示される「シート名」を指定するための引数です。

sales = pd.read_excel("sales_sample.xlsx", sheet_name="売上データ")
sales

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

master = pd.read_excel("sales_sample.xlsx", sheet_name="商品マスタ")
master

	商品	カテゴリ
0	ノートPC	PC
1	マウス	周辺機器
2	キーボード	周辺機器

シート名ではなく、シート番号で指定することもできます。
ただし、初心者のうちはシート名で指定したほうが、あとから見返したときに意味がわかりやすいです。

pd.read_excel("sales_sample.xlsx", sheet_name=0)

複数シートをまとめて読み込む方法もありますが、この記事では深入りしません。
まずは「必要なシートを1つ選んで読み込む」ことを優先しましょう。

usecolsで必要な列だけ読み込む

Excelファイルには、分析に使わない列がたくさん入っていることがあります。
必要な列だけ読み込みたい場合は、usecols を使います。

たとえば、売上日の列、店舗の列、売上金額の列だけ読み込む場合は次のように書きます。

sales_selected = pd.read_excel(
    "sales_sample.xlsx",
    sheet_name="売上データ",
    usecols=["売上日", "店舗", "売上金額"]
)

sales_selected

	売上日	店舗	売上金額
0	2025-04-01	東京店	120000
1	2025-04-02	大阪店	3000
2	2025-04-03	東京店	8000

usecols は「列を絞る」ための指定です。
行を絞り込むための指定ではありません。

読み込んだあとに「東京店だけを見たい」「売上金額が1万円以上だけを見たい」という場合は、read_excel() ではなく、DataFrameの条件抽出で行います。

headerとskiprowsで見出し行のズレを調整する

Excelファイルでは、1行目にタイトルや説明文があり、実際の表が2行目以降から始まることがあります。

たとえば、次のようなExcelです。

Excel上の行	内容
1行目	2025年4月売上レポート
2行目	※この行は説明行です。読み込み時には飛ばします。
3行目	売上日、店舗、商品、売上金額、数量
4行目以降	実際のデータ

このようなファイルをそのまま読むと、表の列名が正しく読み込まれないことがあります。
まずは、説明行ありのシートをそのまま確認してみます。

raw = pd.read_excel("sales_sample.xlsx", sheet_name="説明行あり", header=None)
raw.head(7)

	0	1	2	3	4
0	2025年4月売上レポート	NaN	NaN	NaN	NaN
1	※この行は説明行です。	NaN	NaN	NaN	NaN
2	売上日	店舗	商品	売上金額	数量
3	2025-04-01	東京店	ノートPC	120000	1
4	2025-04-02	大阪店	マウス	3000	2
5	2025-04-03	東京店	キーボード	8000	1

上のように、表の前にタイトル行や説明行がある場合は、header または skiprows で調整します。

headerで「列名として使う行」を指定する

header=2 と指定すると、0から数えて3行目を列名として使います。

df_header = pd.read_excel(
    "sales_sample.xlsx",
    sheet_name="説明行あり",
    header=2
)

df_header

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

skiprowsで「読み飛ばす行」を指定する

同じ例では、先頭の2行を読み飛ばすために skiprows=2 と書くこともできます。

df_skiprows = pd.read_excel(
    "sales_sample.xlsx",
    sheet_name="説明行あり",
    skiprows=2
)

df_skiprows

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

header と skiprows は似ていますが、考え方が少し違います。

指定	役割	使いやすい場面
`header`	どの行を列名として使うか指定する	見出し行が何行目かはっきりしている
`skiprows`	指定した行を読み飛ばす	表の上に説明行やメモがある

初心者のうちは、「見出し行を指定したいなら header」「不要な行を飛ばしたいなら skiprows」と考えると理解しやすいです。

処理前後のイメージは次のとおりです。

状態	列名の見え方	データとして使いやすいか
説明行をそのまま読む	タイトルや説明文が列名・データに混ざる	使いにくい
`header=2` または `skiprows=2` を指定する	`売上日`・`店舗`・`商品` などが列名になる	使いやすい

index_colは必要な場合だけ使う

index_col は、特定の列をDataFrameのインデックスとして使うための引数です。

たとえば、売上日をインデックスにしたい場合は次のように書けます。

sales_index = pd.read_excel(
    "sales_sample.xlsx",
    sheet_name="売上データ",
    index_col="売上日"
)

sales_index

	店舗	商品	売上金額	数量
売上日
2025-04-01	東京店	ノートPC	120000	1
2025-04-02	大阪店	マウス	3000	2
2025-04-03	東京店	キーボード	8000	1

ただし、初心者のうちは index_col を無理に使う必要はありません。

普通の列として残しておいたほうが、あとから to_datetime() で日付型に変換したり、条件抽出したりしやすいことも多いです。

状況	おすすめ
まずDataFrameの中身を確認したい	`index_col` は指定しない
IDや日付を行ラベルとして使いたい理由がある	`index_col` を検討する
インデックスにして迷った	`reset_index()` で列に戻す

インデックスにした列を戻したい場合は、reset_index() が使えます。

sales_index.reset_index()

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

read_excel()とread_csv()の違い

pandasで外部ファイルを読み込む代表的な関数に、read_excel() と read_csv() があります。

どちらもDataFrameを作るための関数ですが、対象ファイルが違います。

比較項目	`read_excel()`	`read_csv()`
対象ファイル	Excelファイル	CSVファイル
代表的な拡張子	`.xlsx`, `.xls`	`.csv`
複数シート	扱える	基本的にない
よく使う引数	`sheet_name`, `usecols`, `header`, `skiprows`	`encoding`, `sep`, `usecols`, `header`
使う場面	Excelで配布された表を読む	CSVとして保存されたデータを読む

CSVファイルを読み込む場合は、pd.read_csv() を使います。
Excelファイルを読み込む場合は、pd.read_excel() を使います。

ここを混同すると、ファイルがうまく読めない原因になります。

ExcelをCSVに変換してから扱ったほうがよい場合

Excelファイルをpandasで読み込んだあと、毎回同じデータを分析するなら、CSVに変換して保存しておくと扱いやすくなります。

Excelは、複数シート、装飾、結合セル、説明行などを含められるため、人が見る資料としては便利です。
一方で、pandasで分析するデータとしては、1つの表に整理されたCSVのほうがシンプルです。

おすすめの流れは次のとおりです。

read_excel() でExcelファイルを読み込む
head()・info() で中身を確認する
必要なシート・列・見出し行を整える
分析しやすいDataFrameになったらCSVとして保存する
次回以降は read_csv() で読み込む

判断基準を整理すると、次のようになります。

状況	おすすめ
Excelの中身を初めて確認する	`read_excel()`
複数シートから必要な表を選びたい	`read_excel()`
毎回同じ整った表を分析する	CSVに変換して `read_csv()`
装飾や結合セルが多いExcel	必要な表だけ読み込み、CSV化を検討する
人に配る資料として使う	Excelのまま
pandasで繰り返し分析する	CSVのほうが扱いやすい

ただし、この記事の主役はあくまで read_excel() です。
CSV保存の細かい設定には深入りせず、「読み込んで整えたDataFrameを、必要に応じてCSVに保存できる」と理解しておけば十分です。

df = pd.read_excel("sales_sample.xlsx", sheet_name="売上データ")

# 分析しやすい形になったDataFrameをCSVとして保存する
df.to_csv("sales_sample.csv", index=False)

保存したCSVは、次回以降 read_csv() で読み込めます。
同じ整った表を繰り返し分析する場合は、この形にしておくと扱いやすくなります。

df_csv = pd.read_csv("sales_sample.csv")
df_csv.head()

	売上日	店舗	商品	売上金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

よくあるミスとエラー対処

Excelファイルの読み込みでは、初心者がつまずきやすいポイントがあります。

read_csv()でExcelファイルを読もうとしてしまう

Excelファイルは、基本的に read_csv() では読み込みません。

pd.read_csv("sales_sample.xlsx")

このように書くと、Excelファイルの形式とCSVの形式が違うため、うまく読み込めません。
Excelファイルには read_excel() を使いましょう。

sheet_nameを列名だと思ってしまう

sheet_name は、Excelのシート名を指定するための引数です。
読み込む列を指定したい場合は、usecols を使います。

usecolsで行を絞ろうとしてしまう

usecols は列を絞るための引数です。
行を絞りたい場合は、読み込んだあとに条件抽出を使います。

openpyxlが必要というエラーが出る

環境によっては、Excelファイルを読み込むときに openpyxl が必要になることがあります。
Google Colabでは使えることが多いですが、エラーが出る場合は次のようにインストールします。

# openpyxlが必要というエラーが出る場合のみ実行します
# Google Colabでは、すでに使える場合もあります

# !pip install openpyxl

このエラーは、pandasのコードの書き方が間違っているというより、Excelを読み込むためのエンジンが環境に不足している場合に起きます。

読み込んだ後は前処理につなげる

read_excel() は、ExcelファイルをDataFrameにする入口です。
読み込んだあとは、データ分析しやすい形になっているかを確認します。

たとえば、次のような流れです。

確認・前処理	使うメソッド	目的
先頭を確認	`head()`	読み込み結果を見る
型・欠損値を確認	`info()`	日付・数値・欠損を確認する
列名を整える	`rename()`	日本語列名や長い列名を扱いやすくする
日付型に変換	`to_datetime()`	日付として扱えるようにする
数値・文字列に変換	`astype()`	分析に合う型にする
欠損値を確認・処理	`isnull()`・`fillna()`	空欄を把握して補う

次の例では、Excelから読み込んだ売上データの列名を少し短くし、売上日を日付型に変換します。

sales_clean = pd.read_excel("sales_sample.xlsx", sheet_name="売上データ")

# 列名を扱いやすくする
sales_clean = sales_clean.rename(columns={
    "売上金額": "金額"
})

# 売上日を日付型に変換する
sales_clean["売上日"] = pd.to_datetime(sales_clean["売上日"])

sales_clean.head()

	売上日	店舗	商品	金額	数量
0	2025-04-01	東京店	ノートPC	120000	1
1	2025-04-02	大阪店	マウス	3000	2
2	2025-04-03	東京店	キーボード	8000	1

sales_clean.info()


RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   売上日     3 non-null      datetime64[ns]
 1   店舗      3 non-null      object        
 2   商品      3 non-null      object        
 3   金額      3 non-null      int64         
 4   数量      3 non-null      int64         
dtypes: datetime64[ns](1), int64(2), object(2)
memory usage: 252.0+ bytes

このように、Excelファイルを読み込んだら、次はDataFrameの確認と前処理に進みます。

read_excel() の役割は、ExcelをDataFrameに変えることです。
そのあとの列名変更、型変換、日付変換、欠損値処理は、それぞれ別の前処理として考えると整理しやすくなります。

read_excel()で押さえるポイントを整理する

ここまでで、ExcelファイルをDataFrameとして読み込む基本を確認しました。

read_excel() では、まず基本形で読み込み、必要に応じて引数を追加していくと迷いにくくなります。

目的	使うもの
Excelファイルを読み込む	`pd.read_excel()`
シートを指定する	`sheet_name`
必要な列だけ読む	`usecols`
見出し行を調整する	`header`
不要な説明行を飛ばす	`skiprows`
行ラベルにする列を指定する	`index_col`
列名を自分で付ける	`names`

最初からすべての引数を覚える必要はありません。
まずは pd.read_excel("ファイル名.xlsx") で読み込み、head() と info() で確認し、必要なところだけ調整していきましょう。

読み込んだ後は、列名変更・型変換・日付変換・欠損値処理などの前処理を行い、条件抽出・集計・可視化へ進みます。

まとめ

この記事では、pandasの read_excel() を使ってExcelファイルを読み込む方法を解説しました。

重要なポイントを整理します。

Excelファイルを読み込むには pd.read_excel("ファイル名.xlsx") を使う
複数シートから読み込む場合は sheet_name を使う
必要な列だけ読み込む場合は usecols を使う
見出し行がずれている場合は header を使う
表の上に説明行がある場合は skiprows を使う
index_col は必要な場合だけ使う
CSVファイルは read_csv()、Excelファイルは read_excel() と使い分ける
読み込んだあとは head()・info()・describe() で確認する
その後、列名変更・型変換・日付変換・欠損値処理へ進む
毎回同じ整った表を分析するなら、必要に応じてCSVに保存しておくと、次回以降は read_csv() で扱いやすい

まずは、シンプルなExcelファイルを read_excel() で読み込み、head() と info() で確認するところから始めるのがおすすめです。

次に読みたい関連記事

Excelファイルを読み込んだあとは、DataFrameの確認や前処理へ進むと理解が深まります。

Google Colab CSV 読み込み＆保存入門
CSVファイルの読み込みやGoogle Drive連携を確認したい場合におすすめです。
Pandas DataFrame入門
読み込んだ表がDataFrameとしてどう扱われるかを理解したい場合に役立ちます。
Pandas head()の使い方
読み込んだデータの先頭を確認する基本操作を学べます。
Pandas info()とdescribe()の違い
型・欠損値・統計量の確認方法を整理できます。
pandas rename()の使い方
Excelから読み込んだ列名を整えたいときに役立ちます。
pandas astype()の使い方
数値や文字列の型を整えたいときに使います。
pandas to_datetime()の使い方
Excelの日付列を日付型として扱いたいときにおすすめです。
pandas fillna()の使い方
Excelの空欄や欠損値を処理したいときに役立ちます。
pandas reset_index()の使い方
index_col で指定した列を戻したいときに参考になります。
Pandas concat完全ガイド
複数のファイルや複数のDataFrameを結合したい場合に役立ちます。

▲ ページトップへ戻る

pandasでExcelファイルを読み込むにはどうすればよいですか？

pd.read_excel("ファイル名.xlsx") を使います。
まずはこの基本形で読み込み、必要に応じて sheet_name・usecols・header・skiprows を指定します。

read_excel()とread_csv()の違いは何ですか？

read_excel() はExcelファイルを読み込む関数で、主に .xlsx や .xls を扱います。
read_csv() はCSVファイルを読み込む関数で、主に .csv を扱います。
Excelファイルを読む場合は read_excel()、CSVファイルを読む場合は read_csv() と使い分けます。

Excelの複数シートを読み込むにはどうすればよいですか？

特定のシートを読み込む場合は、sheet_name を使います。
pd.read_excel("sales_sample.xlsx", sheet_name="売上データ")

複数シートをまとめて読み込む方法もありますが、初心者のうちはまず必要なシートを1つずつ指定して読むのがおすすめです。

特定の列だけ読み込むにはどうすればよいですか？

usecols を使います。
pd.read_excel("sales_sample.xlsx", usecols=["売上日", "店舗", "売上金額"])

usecols は列を絞るための指定です。
行を絞りたい場合は、読み込んだあとに条件抽出を使います。

1行目が見出しではないExcelはどう読み込めばよいですか？

見出し行が何行目にあるか分かっている場合は、header を使います。
たとえば、3行目を見出しにしたい場合は header=2 と指定します。
pd.read_excel("sales_sample.xlsx", header=2)

先頭の説明行を読み飛ばしたい場合は、skiprows を使うこともあります。

列名を自分で付けたい場合はどうすればよいですか？

Excelに見出し行がない場合や、読み込み時に列名を自分で指定したい場合は、names を使う方法があります。
pd.read_excel("sales_sample.xlsx", header=None, names=["売上日", "店舗","商品", "売上金額", "数量"])

ただし、初心者のうちは、まず header で見出し行を正しく読み込む方法を覚えるのがおすすめです。
読み込んだあとに列名を整えたい場合は、rename() を使うと流れがわかりやすくなります。

openpyxlが必要というエラーが出たらどうすればよいですか？

環境にExcel読み込み用のエンジンが不足している可能性があります。
Google Colabでは最初から使えることも多いですが、ローカル環境や一部の環境でエラーが出る場合は、必要に応じて次のようにインストールします。
!pip install openpyxl

インストール後は、ランタイムやノートブックを再実行すると読み込めることがあります。

読み込んだExcelの日付や数値の型がおかしいときはどうすればよいですか？

まず info() で列の型を確認します。
日付列が文字列として読み込まれている場合は pd.to_datetime()、数値や文字列の型を整えたい場合は astype() を使います。

Excelに保存するにはto_excel()を使えばよいですか？

はい。DataFrameをExcelファイルとして保存する場合は to_excel() を使います。
ただし、この記事の中心は読み込み用の read_excel() です。
保存については、まず「読み込み」と「前処理」の流れに慣れてから学ぶと理解しやすいです。

ExcelはCSVに変換してから扱ったほうがよいですか？

繰り返し同じ表を分析するなら、CSVに変換しておくと扱いやすいことが多いです。
Excelは人が見る資料として便利ですが、pandasで繰り返し分析するなら、1つの表に整理されたCSVのほうがシンプルです。
ただし、複数シートから必要な表を選ぶ段階では read_excel() が便利です。
まず read_excel() で読み込み、必要なシート・列・見出し行を整えたあと、必要に応じて to_csv() で保存するとよいです。

The post pandas read_excel()の使い方｜Excelファイル読み込み・sheet_name・usecolsを解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas unique()とnunique()の使い方｜値の一覧・種類数・value_counts()との違いを解説

coin_collector — Tue, 05 May 2026 10:52:32 +0000

CSVを読み込んだあと、部署、商品カテゴリ、ステータス のような列を見て、次のように感じることがあります。

「この列には、どんな値が入っているのだろう？」
「カテゴリの種類はいくつあるのだろう？」
「unique()、nunique()、value_counts() のどれを使えばよいのだろう？」

このようなときに役立つのが、Pandasの unique() と nunique() です。

最初に結論を言うと、値の一覧を見たいときは unique()、値の種類数だけ知りたいときは nunique()、値ごとの件数まで見たいときは value_counts() を使います。

この記事では、unique() と nunique() の違い、欠損値の扱い、value_counts() との使い分け、表記ゆれを見つける流れを、Google Colabで試しやすい例で解説します。

特に、集計やグラフ化をする前にカテゴリ列の中身を確認しておくと、表記ゆれや欠損値に早く気づけます。

先に結論：3つのメソッドは目的で使い分ける
この記事でわかること
似たメソッドまで含めた使い分け
サンプルデータを用意する
unique()で重複を除いた値の一覧を確認する
1. unique()の結果はDataFrameではない
nunique()で値の種類数を確認する
unique()とnunique()の違い
value_counts()との違い
欠損値（NaN / ）がある場合の注意点
count()とnunique()の違い
unique()で表記ゆれを見つける
1. 表記ゆれを軽くそろえてから確認する例
groupby().nunique()でグループごとの種類数を確認する
duplicated()やdrop_duplicates()との違い
よくあるミスと注意点
データ分析の流れの中でunique()・nunique()を使うタイミング
まとめ
次に読みたい関連記事

先に結論：3つのメソッドは目的で使い分ける

unique()、nunique()、value_counts() は、どれも列の値を確認するときに使います。
ただし、見たいものが違います。

迷ったら、まずはこの基準で選びます。

知りたいこと	使うメソッド	結果のイメージ
値の一覧を見たい	`unique()`	営業部、企画部、営業、人事部
種類数だけ知りたい	`nunique()`	4種類
値ごとの件数を見たい	`value_counts()`	営業部が3件、企画部が2件

この記事では、この使い分けを実際のDataFrameで確認していきます。

この記事でわかること

この記事では、次の内容を扱います。

unique() で重複を除いた値の一覧を確認する方法
nunique() で値の種類数を確認する方法
unique() と nunique() の違い
value_counts() との使い分け
欠損値がある場合の注意点
count() と nunique() の違い
表記ゆれ確認での使い方
groupby().nunique() でグループごとの種類数を確認する考え方

この記事のゴールは、unique()・nunique()・value_counts() の違いを理解し、データの中身確認から表記ゆれ・欠損値・集計前の前処理へ進めるようになることです。

似たメソッドまで含めた使い分け

基本は、上の3つを押さえれば十分です。
ここでは、実務で一緒に迷いやすい groupby().nunique() や duplicated() も含めて、少しだけ整理しておきます。

やりたいこと	使うメソッド	例
値の一覧を見たい	`unique()`	部署名にどんな値があるか確認する
値の種類数だけ知りたい	`nunique()`	部署が何種類あるか数える
値ごとの件数まで知りたい	`value_counts()`	営業部が何件、企画部が何件あるか数える
グループごとに種類数を知りたい	`groupby().nunique()`	部署ごとに商品カテゴリが何種類あるか数える
重複している行そのものを確認したい	`duplicated()`	同じ注文行が重複していないか確認する

unique() と nunique() は、どちらも「重複を除いた値」に関係します。

ただし、返すものが違います。

メソッド	返すもの	使う場面
`unique()`	重複を除いた値の一覧	どんな値が入っているか見たいとき
`nunique()`	重複を除いた値の個数	種類数だけ知りたいとき

たとえば、部署 の中身を見て「営業部」と「営業」が混ざっていないか確認したいなら unique() が向いています。

一方で、部署が何種類あるかだけ知りたいなら nunique() が向いています。

このあと、まずは主役である unique() と nunique() を実際のDataFrameで確認し、その後で value_counts() や欠損値の扱いとの違いを見ていきます。

サンプルデータを用意する

ここでは、売上データを例にします。

部署、商品カテゴリ、ステータス のようなカテゴリ列を含むDataFrameです。実際のCSVを読み込んだあとにも、同じような確認をすることがよくあります。

このサンプルでは、欠損値を pd.NA で入れています。実際のデータでは、表示上 NaN やと出ることがありますが、どちらも「値が入っていない状態」として扱います。

import pandas as pd


df = pd.DataFrame({
    "注文ID": [101, 102, 103, 104, 105, 106, 107, 108],
    "部署": ["営業部", "営業部", "企画部", "営業", "人事部", "企画部", "営業部", pd.NA],
    "商品カテゴリ": ["PC", "マウス", "PC", "キーボード", "マウス", "PC", "モニター", "PC"],
    "ステータス": ["完了", "完了", "処理中", "完了", "キャンセル", "処理中", "完了", pd.NA],
    "売上": [120000, 3000, 150000, 8000, 2500, 140000, 32000, 110000]
})


df

	注文ID	部署	商品カテゴリ	ステータス	売上
0	101	営業部	PC	完了	120000
1	102	営業部	マウス	完了	3000
2	103	企画部	PC	処理中	150000
3	104	営業	キーボード	完了	8000
4	105	人事部	マウス	キャンセル	2500
5	106	企画部	PC	処理中	140000
6	107	営業部	モニター	完了	32000
7	108		PC		110000

このデータでは、部署 列に 営業部 と 営業 が混ざっています。

これは、同じ意味の値が別表記で入っている「表記ゆれ」の可能性があります。
このような状態を見つけるためにも、unique() は役立ちます。

unique()で重複を除いた値の一覧を確認する

unique() は、列に含まれる値を重複なしで確認するメソッドです。

まずは、部署 列に入っている値を一覧で確認します。
この結果を見ることで、表記ゆれや欠損値の有無に気づきやすくなります。

df["部署"].unique()

array(['営業部', '企画部', '営業', '人事部', ], dtype=object)

unique() を使うと、部署 列に含まれる値の一覧を確認できます。

この結果を見ると、営業部 と 営業 が別の値として入っていることがわかります。
実際には同じ意味で入力されているなら、あとで replace() などを使って表記をそろえる候補になります。

ここで大事なのは、unique() は元のDataFrameを書き換える処理ではないという点です。
あくまで、列の中にどんな値があるかを確認するためのメソッドです。

下の表では、実際の出力をそのまま貼るのではなく、初心者が読み取りやすいように値の部分だけを整理して示しています。

確認した列	`unique()`で見える値	気づけること
`部署`	`営業部`, `企画部`, `営業`, `人事部`,	`営業部` と `営業` が表記ゆれの可能性
`ステータス`	`完了`, `処理中`, `キャンセル`,	欠損値が含まれていることに気づける
`商品カテゴリ`	`PC`, `マウス`, `キーボード`, `モニター`	どの商品カテゴリがあるか確認できる

このように、unique() は「集計する前に、列の中身をざっと確認する」場面で便利です。

特に、Colab上では array([...], dtype=object) のように表示されることがあります。
これは「値の一覧が配列の形で返っている」という意味なので、初心者のうちは次のように読み替えると十分です。

Colabで出る表示の一部	初心者向けの読み方
`array([...], dtype=object)`	値の一覧が返っている
`営業部`, `企画部`, `営業`	`部署` 列に入っている値
	欠損値が含まれている
`dtype=object`	文字列などを含む列として扱われている

ここでは、dtype=object の細かい意味まで深掘りしなくて大丈夫です。
まずは「どんな値が入っているかを確認できた」と考えれば問題ありません。

unique()の結果はDataFrameではない

unique() の戻り値は、通常のDataFrameではなく、配列のような形で返ってきます。

そのため、表として整えて見たい場合は、必要に応じて pd.Series() に変換して確認することもできます。

pd.Series(df["部署"].unique(), name="部署の値")

	部署の値
0	営業部
1	企画部
2	営業
3	人事部
4

このようにすると、値の一覧を縦に並べて確認しやすくなります。

ただし、普段の確認では df["列名"].unique() だけでも十分なことが多いです。

nunique()で値の種類数を確認する

nunique() は、重複を除いた値の「個数」を数えるメソッドです。

unique() が「どんな値があるか」を見るのに対して、nunique() は「何種類あるか」を確認します。

次に、値そのものではなく「何種類あるか」だけを確認します。
このときに使うのが nunique() です。

df["部署"].nunique()

この結果は、部署 列に含まれる欠損値を除いた種類数です。

ここで注意したいのは、nunique() は標準では欠損値を数えないことです。
欠損値も1種類として数えたい場合は、dropna=False を指定します。

df["部署"].nunique(dropna=False)

欠損値を含めて種類数を見たい場合は、dropna=False を使います。

確認したいこと	書き方	欠損値の扱い
欠損値を除いて種類数を数える	`df["部署"].nunique()`	数えない
欠損値も含めて種類数を数える	`df["部署"].nunique(dropna=False)`	数える

データ確認の段階では、まず標準の nunique() で種類数を見て、欠損値も気になる場合に dropna=False を使うと考えるとわかりやすいです。

unique()とnunique()の違い

unique() と nunique() は名前が似ていますが、目的は違います。

比較項目	`unique()`	`nunique()`
確認できること	重複を除いた値の一覧	重複を除いた値の個数
返ってくるもの	値の並び	数値
向いている場面	表記ゆれや入力値を確認したいとき	種類数だけ知りたいとき
欠損値の扱い	結果に欠損値が出ることがある	標準では欠損値を数えない

たとえば、部署 の中身を見て「営業部」と「営業」が混ざっていないか確認したいなら unique() が向いています。

一方で、部署が何種類あるかだけ知りたいなら nunique() が向いています。

value_counts()との違い

unique() や nunique() と一緒に迷いやすいのが、value_counts() です。

value_counts() は、値ごとの件数を数えるメソッドです。

値ごとの件数まで見たい場合は、unique() ではなく value_counts() を使います。

df["部署"].value_counts(dropna=False)

	count
営業部	3
企画部	2
営業	1
人事部	1
	1

value_counts() を使うと、値の一覧だけでなく、それぞれの値が何件あるかまで確認できます。

やりたいこと	使うメソッド	結果のイメージ
値の一覧だけ見たい	`unique()`	`営業部`, `企画部`, `営業`, `人事部`,
値の種類数だけ知りたい	`nunique()`	`4` など
値ごとの件数を知りたい	`value_counts()`	`営業部: 3件`, `企画部: 2件` など

value_counts() はとても便利ですが、この記事では詳しく深掘りしません。
件数集計や割合表示まで確認したい場合は、value_counts() の記事に進むと理解しやすくなります。

欠損値（NaN / ）がある場合の注意点

unique() と nunique() では、欠損値の扱いが少し違います。

このサンプルでは pd.NA を使っているため、実行結果ではと表示されます。
CSVから読み込んだデータでは NaN と表示されることもありますが、ここではどちらも「欠損値」として考えます。

ステータス 列で確認してみましょう。

df["ステータス"].unique()

array(['完了', '処理中', 'キャンセル', ], dtype=object)

df["ステータス"].nunique()

df["ステータス"].nunique(dropna=False)

結果を見ると、unique() では欠損値が結果に出ることがあります。
一方で、nunique() は標準では欠損値を数えません。

メソッド	欠損値の扱い
`unique()`	結果に欠損値が含まれることがある
`nunique()`	標準では欠損値を数えない
`nunique(dropna=False)`	欠損値も1種類として数える
`value_counts(dropna=False)`	欠損値の件数も表示できる

欠損値そのものを詳しく確認したい場合は、isnull() や fillna() とあわせて考えるとよいです。

count()とnunique()の違い

ここは補足です。
nunique() と似て見えやすいものに、count() があります。

count() は、欠損値以外のデータ数を数えるメソッドです。
一方、nunique() は、重複を除いた値の種類数を数えます。

同じ 部署 列で、結果の違いだけ確認しておきましょう。

pd.DataFrame({
    "確認内容": ["欠損値以外の件数", "値の種類数"],
    "使うメソッド": ["count()", "nunique()"],
    "結果": [df["部署"].count(), df["部署"].nunique()]
})

	確認内容	使うメソッド	結果
0	欠損値以外の件数	count()	7
1	値の種類数	nunique()	4

count() は、部署 に値が入っている行数を数えます。
nunique() は、部署 に何種類の値があるかを数えます。

つまり、同じ「数える」でも、見ているものが違います。

メソッド	数えているもの
`count()`	欠損値以外のデータ数
`nunique()`	重複を除いた値の種類数

カテゴリ列の中身を確認したい場合は、unique() や nunique() の方が目的に合いやすいです。

unique()で表記ゆれを見つける

unique() は、表記ゆれを見つけるときにも役立ちます。

表記ゆれとは、同じ意味の値が少し違う表記で入っている状態です。

たとえば、今回の 部署 列には、次のような値があります。

df["部署"].unique()

array(['営業部', '企画部', '営業', '人事部', ], dtype=object)

この結果を見ると、営業部 と 営業 が別の値として扱われています。

もしこの2つが同じ部署を意味しているなら、集計前に表記をそろえた方がよいです。

元データの状態	`unique()`で気づけること	次に考える処理
`営業部` と `営業` が混在	表記ゆれの可能性	`replace()` で表記をそろえる
`完了` と `完了済み` が混在	ステータス名の表記ゆれ	ルールを決めて置換する
`PC` と `パソコン` が混在	商品カテゴリの表記ゆれ	カテゴリ名を統一する

ここでは、修正方法を深掘りしすぎないようにします。
表記ゆれを実際に置換する方法は、replace() の記事で詳しく扱うと自然です。

表記ゆれを軽くそろえてから確認する例

ここでは補足として、営業 を 営業部 にそろえる例だけ見ておきます。

この記事の中心は unique() と nunique() なので、置換処理そのものは深掘りしません。

df_clean = df.copy()


df_clean["部署"] = df_clean["部署"].replace({
    "営業": "営業部"
})


df_clean["部署"].unique()

array(['営業部', '企画部', '人事部', ], dtype=object)

表記をそろえたあとに unique() を使うと、営業 がなくなり、営業部 にまとまったことを確認できます。

このように、unique() は「修正する前の確認」と「修正した後の確認」の両方で使えます。

groupby().nunique()でグループごとの種類数を確認する

ここは応用ではなく、「こういう使い方もある」と軽く知っておく程度で大丈夫です。

nunique() は、groupby() と組み合わせることもできます。

たとえば、部署ごとに何種類の商品カテゴリを扱っているかを確認したい場合です。

df_clean.groupby("部署")["商品カテゴリ"].nunique()

	商品カテゴリ
人事部	1
企画部	1
営業部	4

このように、groupby().nunique() を使うと、グループごとの種類数を確認できます。

ただし、この記事では groupby() の詳しい使い方には深入りしません。
集計の考え方を詳しく学びたい場合は、groupby×agg の記事に進むとよいです。

duplicated()やdrop_duplicates()との違い

unique() と混同しやすいものに、duplicated() や drop_duplicates() があります。

メソッド	主な目的	今回のテーマとの違い
`unique()`	重複を除いた値の一覧を確認する	列の中にどんな値があるかを見る
`nunique()`	重複を除いた値の種類数を数える	種類数を知りたいときに使う
`duplicated()`	重複している行や値を判定する	値の一覧や種類数を見る目的ではない
`drop_duplicates()`	重複を除いたDataFrameやSeriesを作る	データの形を残して重複を取り除きたいときに使う

duplicated() は、重複している行を確認したいときに使います。
今回の記事の中心である unique()・nunique() は、列の値の種類を確認するためのものです。

よくあるミスと注意点

ここでは、初心者がつまずきやすいポイントを整理します。

unique()は元のDataFrameを書き換えない

unique() は、重複を除いた値の一覧を確認するメソッドです。
元のDataFrameから重複を削除する処理ではありません。

nunique()は値の一覧ではなく個数を返す

nunique() は、ユニークな値そのものではなく、種類数を返します。
値の中身を確認したい場合は、unique() を使います。

nunique()は標準では欠損値を数えない

欠損値も含めて種類数を確認したい場合は、nunique(dropna=False) を使います。

value_counts()とは目的が違う

value_counts() は、値ごとの件数を見るためのメソッドです。
「一覧」「種類数」「件数」のどれを知りたいかで使い分けましょう。

unique()で表記ゆれを見つけても自動では直らない

unique() は表記ゆれを見つけるために便利ですが、値を自動で修正するわけではありません。
修正が必要な場合は、replace() などの前処理につなげます。

データ分析の流れの中でunique()・nunique()を使うタイミング

unique() と nunique() は、データ確認から前処理へ進むタイミングで役立ちます。

たとえば、次のような流れです。

ステップ	使うメソッド	確認すること
1	`head()`	最初の数行を見る
2	`info()`	列名・データ型・欠損値を確認する
3	`describe()`	数値列の概要を見る
4	`unique()`・`nunique()`	カテゴリ列や文字列列の中身を確認する
5	`replace()`	表記ゆれがあればそろえる
6	`fillna()`	欠損値があれば対応する
7	`value_counts()`・`groupby()`	必要に応じて集計する
8	条件抽出・可視化	分析やグラフ化へ進む

文章で書くと長く見えますが、流れとしては次のイメージです。

データを見る → 値の中身を確認する → 必要なら直す → 集計や可視化へ進む

info() や describe() だけでは、文字列列にどんな値が入っているかまでは見えにくいことがあります。
そのため、カテゴリ列やステータス列では、unique() や nunique() を使って中身を確認することが大切です。

まとめ

この記事では、Pandasの unique() と nunique() を使って、重複なしの値と種類数を確認する方法を解説しました。

ポイントを整理します。

unique() は、重複を除いた値の一覧を確認する
nunique() は、重複を除いた値の種類数を確認する
値ごとの件数まで見たい場合は value_counts() を使う
count() は欠損値以外の件数、nunique() は値の種類数を数える
欠損値も種類数に含めたい場合は nunique(dropna=False) を使う
表記ゆれを見つけるときは、まず unique() で列の値を確認する
グループごとの種類数は groupby().nunique() で確認できる
duplicated() は重複行の確認が目的で、unique()・nunique() とは役割が違う

データ分析では、いきなり集計や可視化に進む前に、列の中にどんな値が入っているかを確認することが大切です。

unique() と nunique() を使えるようになると、表記ゆれ、カテゴリの種類、欠損値の扱いに気づきやすくなり、前処理の精度を上げやすくなります。

次に読みたい関連記事

今回の記事とあわせて読むと、Pandasのデータ確認から前処理・集計までの流れがつかみやすくなります。

Pandas DataFrame入門｜作り方・基本操作をわかりやすく解説
DataFrameの基本構造から確認したい方におすすめです。
Pandas info()とdescribe()の違い｜欠損値・型・統計量の見方を例で解説
データ全体の型・欠損値・統計量を確認したい方におすすめです。
pandas value_counts()の使い方｜件数集計・割合表示・欠損値の数え方を解説
値ごとの件数や割合まで見たい方におすすめです。
pandas replace()の使い方｜値の置換・表記ゆれ・欠損値変換を解説
unique() で見つけた表記ゆれを直したい方におすすめです。
Pandas groupby×aggの使い方｜基本の集計とaggの書き方を例で解説
グループごとの集計を詳しく学びたい方におすすめです。

必要に応じて、欠損値処理は fillna()の記事、重複行の確認は duplicated()の記事、特定の値だけ抽出したい場合は isin()の記事も参考にしてください。

▲ ページトップへ戻る

pandasのunique()は何をするメソッドですか？

unique() は、列に含まれる値を重複なしで確認するメソッドです。
たとえば、部署 列に 営業部、企画部、人事部 など、どんな値が入っているかを確認できます。

unique()とnunique()の違いは何ですか？

unique() は値の一覧を返します。
nunique() は値の種類数を返します。
値の中身を見たいときは unique()、何種類あるかだけ知りたいときは nunique() を使います。

unique()とvalue_counts()はどう使い分けますか？

値の一覧だけ見たいときは unique() を使います。
値ごとの件数まで知りたいときは value_counts() を使います。
たとえば、部署名の種類を確認するだけなら unique()、部署ごとの件数まで確認するなら value_counts() が向いています。

nunique()とcount()の違いは何ですか？

count() は、欠損値以外のデータ数を数えます。
nunique() は、重複を除いた値の種類数を数えます。
つまり、count() は「何件入っているか」、nunique() は「何種類あるか」を見るためのメソッドです。

nunique()は欠損値を数えますか？

標準の nunique() は、欠損値を数えません。
欠損値も1種類として数えたい場合は、nunique(dropna=False) を使います。

unique()の結果にNaNやが出るのはなぜですか？

列の中に欠損値が含まれているためです。
unique() は、列に含まれる値の一覧を返すため、欠損値が結果に出ることがあります。
CSVから読み込んだデータでは NaN、Pandasの欠損値ではのように表示されることがあります。

複数列に対してunique()は使えますか？

基本的には、まず1列ずつ df["列名"].unique() の形で確認するのがおすすめです。
複数列を一度に確認する方法もありますが、初心者のうちは、列ごとに中身を確認した方が理解しやすいです。

グループごとにユニーク数を数えるにはどうすればよいですか？

groupby().nunique() を使います。
たとえば、部署ごとに商品カテゴリの種類数を確認したい場合は、
df.groupby("部署")["商品カテゴリ"].nunique() のように書きます。

表記ゆれの確認にunique()は使えますか？

はい、使えます。
unique() で列の値を一覧表示すると、営業部 と 営業、完了 と 完了済み のような表記ゆれに気づきやすくなります。
ただし、unique() は確認するためのメソッドなので、自動で修正するわけではありません。
表記を直す場合は、replace() などの前処理につなげます。

DataFrame全体で列ごとの種類数を確認できますか？

はい、df.nunique() を使うと、各列のユニークな値の数をまとめて確認できます。
たとえば、部署、商品カテゴリ、ステータス など、複数の列について種類数を一度に見たいときに便利です。
ただし、初心者のうちは、まず df["列名"].unique() や df["列名"].nunique() のように、1列ずつ確認する方が理解しやすいです。
この記事では、まず基本として「1列の値を確認する」使い方を中心に扱っています。

The post pandas unique()とnunique()の使い方｜値の一覧・種類数・value_counts()との違いを解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas dtの使い方｜日付から年・月・曜日を取り出す方法を初心者向けに解説

coin_collector — Tue, 05 May 2026 06:58:00 +0000

CSVを読み込んだあと、pd.to_datetime()で日付列を日付型に変換できても、次のように迷うことがあります。

月別に売上を集計したい
曜日ごとの傾向を見たい
日付から年だけ、月だけを取り出したい
df["注文日"].dt.year のような .dt が何をしているのかわからない

結論からいうと、.dtは、日付型の列から「年・月・日・曜日」などを取り出すために使う書き方です。

たとえば、日付列から月を取り出して「月」列を作ると、月別集計がしやすくなります。曜日を取り出すと、曜日別の売上や注文数を確認しやすくなります。

この記事では、pandasの.dtの使い方を、日付列から年・月・曜日を取り出し、集計や可視化につなげる流れでやさしく解説します。

まずはこの3行：日付から年・月・曜日を取り出す基本形
この記事でわかること
やりたいこと別：.dtの使い分け早見表
.dtとは？日付列から年・月・曜日を取り出す書き方
to_datetime()と.dtの違い
この処理はどこで使う？日付変換の次に行う前処理
サンプルデータを用意する
まずは日付列の型を確認する
.dtを使う前にto_datetime()で日付型に変換する
.dt.yearで日付から年を取り出す
.dt.monthで日付から月を取り出す
.dt.dayで日付から日を取り出す
.dt.day_name()で曜日名を取り出す
.dt.weekdayで曜日番号を取り出す
処理前と処理後を比較する
よく使う.dtの取り出し項目
年月単位で集計したいときはdt.strftime("%Y-%m")も使う
月別売上を集計する
曜日別売上を集計する
月別・曜日別に何を見たいかで使い分ける
.dtでよくあるエラーと原因
NaTがある列に.dtを使うとどうなるか
.dtで作った列は新しい列として残すと分析しやすい
可視化につなげるときの考え方
軽く知っておくと便利な.dtの関連機能
まとめ：.dtは日付を分析に使いやすくする前処理
次に読みたい関連記事
1. 基礎・CSV読み込み
2. 型確認・日付変換
3. 列追加・集計
4. 可視化
5. カテゴリから探す
6. pandasの.dtとは何ですか？
7. .dtを使うとエラーになるのはなぜですか？
8. to_datetime()と.dtは何が違いますか？
9. 日付から年や月だけを取り出すにはどうすればよいですか？
10. 日付から曜日を取得するにはどうすればよいですか？
11. .dt.weekdayと.dt.day_name()は何が違いますか？
12. 月別集計をするには、.dt.monthだけでよいですか？
13. NaTがある列に.dtを使っても大丈夫ですか？

まずはこの3行：日付から年・月・曜日を取り出す基本形

急いで使い方だけ確認したい場合は、日付型に変換したあと、次のように書きます。


df["注文日"] = pd.to_datetime(df["注文日"], errors="coerce")
df["月"] = df["注文日"].dt.month
df["曜日"] = df["注文日"].dt.day_name()

この3行の意味は、次の通りです。

行	役割
`pd.to_datetime()`	文字列の日付を、Pandasで扱える日付型に変換する
`.dt.month`	日付から月だけを取り出す
`.dt.day_name()`	日付から曜日名を取り出す

年を取り出したい場合は、df["注文日"].dt.yearを使います。この記事では、この基本形をもとに、年・月・日・曜日の取り出し方と、月別集計・曜日別集計へのつなげ方を順番に見ていきます。

この記事でわかること

このあと、次の内容を順番に見ていきます。

pandasの.dtとは何か
.dtを使う前に日付型へ変換する理由
.dt.yearで年を取り出す方法
.dt.monthで月を取り出す方法
.dt.dayで日を取り出す方法
.dt.day_name()で曜日名を取り出す方法
.dt.weekdayで曜日番号を取り出す方法
英語の曜日名を日本語表示に整える基本
取り出した年・月・曜日を新しい列として追加する方法
月別集計・曜日別集計につなげる考え方
.dtでエラーになる原因と確認ポイント

この記事では、resample()を使った本格的な時系列分析や、タイムゾーン、移動平均、時系列予測までは深入りしません。まずは、日付列を分析しやすい形に分解する基本に絞って解説します。

やりたいこと別：.dtの使い分け早見表

日付データで迷ったときは、まず「何をしたいのか」から考えると選びやすくなります。

やりたいこと	使う書き方	使う場面
文字列の日付を日付型に変換したい	`pd.to_datetime()`	CSVで読み込んだ日付列を整えるとき
年を取り出したい	`.dt.year`	年別集計をしたいとき
月を取り出したい	`.dt.month`	月別集計をしたいとき
日を取り出したい	`.dt.day`	日付の「日」だけ確認したいとき
曜日名を取り出したい	`.dt.day_name()`	曜日別の傾向を見たいとき
曜日順に並べたい	`.dt.weekday`	月曜から日曜の順に並べたいとき
年月で集計したい	`.dt.strftime("%Y-%m")`	複数年データで月別推移を見たいとき

この表の中でも、この記事では特に使用頻度が高い、pd.to_datetime() → .dt.year / .dt.month / .dt.day_name() の流れを中心に解説します。

.dtとは？日付列から年・月・曜日を取り出す書き方

.dtは、Pandasで日付列から年・月・日・曜日などを取り出すときに使う書き方です。

専門的には「日付・時刻用のアクセサ」と呼ばれますが、最初から用語を覚える必要はありません。まずは、日付列から必要な情報を取り出すための入口と考えるとわかりやすいです。

たとえば、次のように使います。

やりたいこと	書き方の例	取り出せるもの
年を取り出す	`df["注文日"].dt.year`	2026などの年
月を取り出す	`df["注文日"].dt.month`	1〜12の月
日を取り出す	`df["注文日"].dt.day`	1〜31の日
曜日名を取り出す	`df["注文日"].dt.day_name()`	Mondayなどの曜日名
曜日番号を取り出す	`df["注文日"].dt.weekday`	月曜0〜日曜6の番号

ただし、ここで大切なのは、.dtは日付型の列に対して使うという点です。見た目が日付の文字列でも、型がobjectのままだと.dtを使えないことがあります。

to_datetime()と.dtの違い

.dtを理解する前に、pd.to_datetime()との違いを整理しておきましょう。

比較項目	`pd.to_datetime()`	`.dt`
主な役割	文字列などを日付型に変換する	日付型の列から年・月・曜日などを取り出す
使うタイミング	`.dt`を使う前	日付型に変換したあと
例	`pd.to_datetime(df["注文日"])`	`df["注文日"].dt.month`
初心者が迷いやすい点	変換できない値があると`NaT`になることがある	日付型でない列には使えない

つまり、流れとしては次のように考えるとわかりやすいです。

まず、pd.to_datetime()で日付列を日付型に変換する
そのあと、.dt.yearや.dt.monthで年・月・曜日を取り出す

日付変換そのものを詳しく確認したい場合は、以下の記事を参考にしてください。

pandas to_datetime()の使い方｜文字列の日付変換とformat・NaT対処を初心者向けに解説

この処理はどこで使う？日付変換の次に行う前処理

ここまでで見たように、.dtはpd.to_datetime()で日付型に変換したあとのステップで使います。

CSV読み込み → DataFrame確認 → 日付型への変換 → .dtで年・月・曜日を取り出す → 集計 → 可視化

という流れで考えると、今回の.dtは、日付列を集計や可視化に使いやすくするための前処理にあたります。

CSVの読み込みは、以下の記事で詳しく解説しています。

Google Colab CSV 読み込み＆保存入門｜pandasでread_csvとto_csvを解説

DataFrameの基本や、型・欠損値の確認は以下の記事も参考になります。

サンプルデータを用意する

ここでは、ECサイトの注文データを想定します。コードが長くなりすぎないよう、6行だけの小さなデータで確認します。

列は、初心者が理解しやすいように次の3つだけにします。

注文日
商品
売上

注文日は、最初は文字列として入っている想定です。 CSVを読み込んだ直後も、日付列が文字列のままになっていることはよくあります。


import pandas as pd

注文日 = ["2026-01-05", "2026-01-10", "2026-02-03", "2026-02-14", "2026-03-08", "2026-03-12"]
商品 = ["ノートPC", "マウス", "キーボード", "モニター", "マウス", "キーボード"]
売上 = [120000, 3000, 8000, 35000, 3200, 8500]

df = pd.DataFrame({"注文日": 注文日,"商品": 商品,"売上": 売上})

df

	注文日	商品	売上
0	2026-01-05	ノートPC	120000
1	2026-01-10	マウス	3000
2	2026-02-03	キーボード	8000
3	2026-02-14	モニター	35000
4	2026-03-08	マウス	3200
5	2026-03-12	キーボード	8500

まずは日付列の型を確認する

.dtを使う前に、まず注文日列の型を確認します。

日付のように見えても、Pandas上では文字列として扱われていることがあります。その場合、.dt.yearや.dt.monthをそのまま使うとエラーになる原因になります。


df.dtypes


注文日	object
商品	object
売上	int64

上のコードを実行すると、注文日がobject型になっていることを確認できます。

object型は、ざっくり言うと文字列として扱われている状態です。このままでは、日付の部品を取り出す.dtを使う準備ができていません。

.dtを使う前にto_datetime()で日付型に変換する

.dtを使うために、注文日列を日付型に変換します。

実務では、日付列の中に変換できない値が混ざることがあります。そのため、ここでは安全にerrors="coerce"を指定しています。

errors="coerce"を付けると、変換できない値があった場合にNaTになります。NaTは、日付データにおける欠損値のようなものです。


df["注文日"] = pd.to_datetime(df["注文日"], errors="coerce")

df

	注文日	商品	売上
0	2026-01-05	ノートPC	120000
1	2026-01-10	マウス	3000
2	2026-02-03	キーボード	8000
3	2026-02-14	モニター	35000
4	2026-03-08	マウス	3200
5	2026-03-12	キーボード	8500

型も確認してみましょう。


df.dtypes


注文日	datetime64[ns]
商品	object
売上	int64

注文日がdatetime64[ns]になっていれば、.dtを使う準備ができています。

ここまでが、.dtを使う前の大切な準備です。日付型への変換を深く学びたい場合は、format=やNaT対処も含めて、以下の記事で確認できます。

pandas to_datetime()の使い方｜文字列の日付変換とformat・NaT対処を初心者向けに解説

.dt.yearで日付から年を取り出す

年だけを取り出したいときは、.dt.yearを使います。

たとえば、注文日から「何年の注文か」を新しい列にしたい場合に使えます。


df["年"] = df["注文日"].dt.year

df[["注文日", "年"]]

	注文日	年
0	2026-01-05	2026
1	2026-01-10	2026
2	2026-02-03	2026
3	2026-02-14	2026
4	2026-03-08	2026
5	2026-03-12	2026

注文日から、2026のような年だけを取り出せました。

ここで注意したいのは、NaTになっている行では、取り出した年も欠損になることです。日付がない行から年を取り出すことはできないため、これは自然な結果です。

.dt.monthで日付から月を取り出す

月だけを取り出したいときは、.dt.monthを使います。

月別に売上を集計したい場合、まずは日付列から「月」列を作っておくとわかりやすくなります。


df["月"] = df["注文日"].dt.month

df[["注文日", "月"]]

	注文日	月
0	2026-01-05	1
1	2026-01-10	1
2	2026-02-03	2
3	2026-02-14	2
4	2026-03-08	3
5	2026-03-12	3

.dt.monthを使うと、1〜12の数値として月を取り出せます。

ただし、複数年のデータを扱う場合は注意が必要です。 .dt.monthだけで集計すると、たとえば「2025年1月」と「2026年1月」が同じ「1月」としてまとめられてしまいます。

複数年データで年月単位にしたい場合は、後ほど紹介するdt.strftime("%Y-%m")のように、年と月を組み合わせた列を作ると安全です。

.dt.dayで日付から日を取り出す

日付の「日」だけを取り出したいときは、.dt.dayを使います。

たとえば、月の前半・後半で傾向を見たい場合や、日単位の確認をしたい場合に使えます。


df["日"] = df["注文日"].dt.day

df[["注文日", "日"]]

	注文日	日
0	2026-01-05	5
1	2026-01-10	10
2	2026-02-03	3
3	2026-02-14	14
4	2026-03-08	8
5	2026-03-12	12

.dt.dayでは、1〜31の「日」を取り出せます。

ここでの「日」は日付の中の1日、2日、3日のような値です。曜日を取り出す処理とは別なので、混同しないようにしましょう。

.dt.day_name()で曜日名を取り出す

曜日名を取り出したいときは、.dt.day_name()を使います。

曜日別に売上や注文数を見たいときに役立ちます。


df["曜日"] = df["注文日"].dt.day_name()

df[["注文日", "曜日"]]

	注文日	曜日
0	2026-01-05	Monday
1	2026-01-10	Saturday
2	2026-02-03	Tuesday
3	2026-02-14	Saturday
4	2026-03-08	Sunday
5	2026-03-12	Thursday

.dt.day_name()を使うと、MondayやTuesdayのように英語の曜日名が取り出されます。

英語の曜日名のままでも集計はできます。ただし、ブログ記事やレポートで見せる場合は、日本語の曜日にしたいこともあります。

その場合は、.dt.day_name()で取り出した曜日名を、map()で日本語に置き換えるとわかりやすくなります。


weekday_map = {
    "Monday": "月曜日",
    "Tuesday": "火曜日",
    "Wednesday": "水曜日",
    "Thursday": "木曜日",
    "Friday": "金曜日",
    "Saturday": "土曜日",
    "Sunday": "日曜日"
}

df["曜日_日本語"] = df["曜日"].map(weekday_map)

df[["注文日", "曜日", "曜日_日本語"]]

	注文日	曜日	曜日_日本語
0	2026-01-05	Monday	月曜日
1	2026-01-10	Saturday	土曜日
2	2026-02-03	Tuesday	火曜日
3	2026-02-14	Saturday	土曜日
4	2026-03-08	Sunday	日曜日
5	2026-03-12	Thursday	木曜日

ここでは、.dt.day_name()で取り出した英語の曜日名を、日本語の曜日名に置き換えました。

ただし、この記事では.dtの基本を優先するため、以降の集計例では、先に作った曜日列と曜日番号列を使って説明します。曜日名の置き換え自体を詳しく学びたい場合は、map()やreplace()の記事とつなげて考えると理解しやすくなります。

.dt.weekdayで曜日番号を取り出す

曜日を番号で扱いたい場合は、.dt.weekdayを使います。

.dt.weekdayでは、曜日が次の番号で表されます。

曜日	番号
月曜日	0
火曜日	1
水曜日	2
木曜日	3
金曜日	4
土曜日	5
日曜日	6

曜日順に並べたいときは、曜日名だけでなく曜日番号も持っておくと便利です。


df["曜日番号"] = df["注文日"].dt.weekday

df[["注文日", "曜日", "曜日番号"]]

	注文日	曜日	曜日番号
0	2026-01-05	Monday	0
1	2026-01-10	Saturday	5
2	2026-02-03	Tuesday	1
3	2026-02-14	Saturday	5
4	2026-03-08	Sunday	6
5	2026-03-12	Thursday	3

曜日名だけで集計すると、表示順がアルファベット順になることがあります。曜日番号を一緒に持っておくと、月曜から日曜の順に並べやすくなります。

処理前と処理後を比較する

ここまでで、注文日から年・月・日・曜日を取り出して、新しい列として追加しました。

処理前と処理後のイメージを比較すると、.dtの役割がわかりやすくなります。

状態	列の例	できること
処理前	注文日、商品、売上	日付はあるが、月別・曜日別の集計には使いにくい
処理後	注文日、商品、売上、年、月、日、曜日、曜日番号	月別・曜日別の集計に使いやすい

.dtは、元の日付列を消すためのものではありません。 日付列から分析しやすい列を作るためのものと考えると理解しやすいです。

df

	注文日	商品	売上	年	月	日	曜日	曜日_日本語	曜日番号
0	2026-01-05	ノートPC	120000	2026	1	5	Monday	月曜日	0
1	2026-01-10	マウス	3000	2026	1	10	Saturday	土曜日	5
2	2026-02-03	キーボード	8000	2026	2	3	Tuesday	火曜日	1
3	2026-02-14	モニター	35000	2026	2	14	Saturday	土曜日	5
4	2026-03-08	マウス	3200	2026	3	8	Sunday	日曜日	6
5	2026-03-12	キーボード	8500	2026	3	12	Thursday	木曜日	3

よく使う.dtの取り出し項目

.dtには多くの機能がありますが、初心者が最初に覚えるなら、まずは次の項目で十分です。

取り出したいもの	書き方	用途の例
年	`.dt.year`	年別集計、年度確認
月	`.dt.month`	月別集計
日	`.dt.day`	日単位の確認
曜日名	`.dt.day_name()`	曜日別の傾向確認
曜日番号	`.dt.weekday`	曜日順に並べる
四半期	`.dt.quarter`	1〜4四半期で見る
日付部分	`.dt.date`	時刻を除いた日付を確認する

.dt.quarterや.dt.dateも便利ですが、この記事では深掘りしません。まずは、年・月・日・曜日を取り出せるようになることを優先しましょう。

年月単位で集計したいときはdt.strftime("%Y-%m")も使う

.dt.monthは、1〜12の月だけを取り出します。

そのため、複数年のデータで月別集計をするときは、2026-01のような年月列を作ると便利です。このように表示形式を整えたいときは、.dt.strftime("%Y-%m")を使えます。


df["年月"] = df["注文日"].dt.strftime("%Y-%m")

df[["注文日", "年", "月", "年月"]]

	注文日	年	月	年月
0	2026-01-05	2026	1	2026-01
1	2026-01-10	2026	1	2026-01
2	2026-02-03	2026	2	2026-02
3	2026-02-14	2026	2	2026-02
4	2026-03-08	2026	3	2026-03
5	2026-03-12	2026	3	2026-03

dt.strftime("%Y-%m")を使うと、2026-01のような年月の文字列を作れます。

ここでは軽く紹介するだけにします。表示形式を自由に整える処理は便利ですが、最初から細かく覚えすぎるより、まずは.dt.year、.dt.month、.dt.day_name()の基本を押さえるのがおすすめです。

月別売上を集計する

.dtで月や年月の列を作ると、groupby()で月別集計がしやすくなります。

ここでは、年月ごとに売上合計を集計してみます。

なお、今回のサンプルには、日付に変換できなかったNaTの行があります。月別集計では、まずは初心者が読みやすいように、注文日が欠損していない行だけを対象にします。


monthly_sales = (
    df.dropna(subset=["注文日"])
      .groupby("年月", as_index=False)["売上"]
      .sum()
)

monthly_sales

	年月	売上
0	2026-01	123000
1	2026-02	43000
2	2026-03	11700

年月ごとに売上を合計できました。

このように、.dtで取り出した値は、集計のキーとして使えます。 groupby()の基本を詳しく学びたい場合は、以下の記事も参考になります。

Pandas groupby×aggの使い方｜基本の集計とaggの書き方を例で解説

曜日別売上を集計する

次に、曜日別に売上を集計してみます。

曜日名だけだと並び順がわかりにくくなるため、ここでは曜日番号も使って並べます。


weekday_sales = (
    df.dropna(subset=["注文日"])
      .groupby(["曜日番号", "曜日"], as_index=False)["売上"]
      .sum()
      .sort_values("曜日番号")
)

weekday_sales

	曜日番号	曜日	売上
0	0	Monday	120000
1	1	Tuesday	8000
2	3	Thursday	8500
3	5	Saturday	38000
4	6	Sunday	3200

曜日ごとの売上合計を確認できました。

曜日名だけでなく曜日番号も作っておくと、月曜から日曜の順に並べやすくなります。曜日別の件数だけを確認したい場合は、value_counts()を使う方法もあります。


df.dropna(subset=["注文日"])["曜日"].value_counts()

	count
Saturday	2
Monday	1
Tuesday	1
Sunday	1
Thursday	1

value_counts()は、曜日ごとの件数を数えたいときに便利です。

ここでも、日付がない行は曜日を判断できないため、dropna(subset=["注文日"])で除外してから数えています。

合計や平均を出したい → groupby()
件数を数えたい → value_counts()

このように使い分けると、日付データを分析に使いやすくなります。

value_counts()について詳しく知りたい場合は、以下の記事も参考になります。

pandas value_counts()の使い方｜件数集計・割合表示・欠損値の数え方を解説

月別・曜日別に何を見たいかで使い分ける

.dtで日付を分解するときは、「何を見たいのか」から逆算すると迷いにくくなります。

見たいこと	使う列・処理の例	次につなげる処理
年ごとの売上を見たい	`.dt.year`で年列を作る	`groupby("年")`
月ごとの売上を見たい	`.dt.month`または年月列を作る	`groupby("月")`または`groupby("年月")`
曜日ごとの傾向を見たい	`.dt.day_name()`や`.dt.weekday`を使う	曜日別の`groupby()`
件数だけを見たい	月列・曜日列を作る	`value_counts()`
グラフにしたい	集計結果を作る	Matplotlibの棒グラフ・折れ線グラフ

.dtは最終目的ではなく、集計や可視化をしやすくするための前処理です。

.dtでよくあるエラーと原因

.dtで初心者がつまずきやすいのは、日付型に変換する前に使ってしまうケースです。

たとえば、次のように文字列のまま.dt.yearを使うと、エラーになります。


df_error = pd.DataFrame({
    "注文日": ["2026-01-01", "2026-01-02"]
})

try:
    df_error["注文日"].dt.year
except Exception as e:
    print(type(e).__name__)
    print(e)

AttributeError
Can only use .dt accessor with datetimelike values

このエラーは、注文日列がまだ日付型ではないことが原因です。

対処法は、次の流れです。

df.dtypesやdf.info()で型を確認する
pd.to_datetime()で日付型へ変換する
そのあとに.dt.yearや.dt.monthを使う

型の確認方法は、以下の記事でも詳しく解説しています。

Pandas info()とdescribe()の違い｜欠損値・型・統計量の見方を例で解説

NaTがある列に.dtを使うとどうなるか

日付に変換できない値があると、pd.to_datetime()でNaTになることがあります。

ここでは、本文のメインデータとは別に、未入力を含む小さなデータで確認します。


df_nat = pd.DataFrame({
    "注文日": ["2026-01-05", "未入力"]
})

df_nat["注文日"] = pd.to_datetime(df_nat["注文日"], errors="coerce")
df_nat["年"] = df_nat["注文日"].dt.year
df_nat["月"] = df_nat["注文日"].dt.month
df_nat["曜日"] = df_nat["注文日"].dt.day_name()

df_nat

	注文日	年	月	曜日
0	2026-01-05	2026	1	Monday
1	NaT	NaT	NaT	NaT

未入力は日付に変換できないため、NaTになりました。

NaTの行では、年・月・曜日も欠損になります。日付がない行から、年や曜日を取り出すことはできないためです。

NaTが多い場合は、まず日付列の欠損や変換できない値を確認することが大切です。欠損値の確認や処理は、以下の記事ともつながります。

.dtで作った列は新しい列として残すと分析しやすい

.dt.yearや.dt.monthで取り出した値は、その場で見るだけでなく、新しい列として残しておくと便利です。

たとえば、次のような列があると、後から集計や抽出をしやすくなります。

追加する列	使いどころ
年	年別の比較
月	月別の傾向確認
年月	複数年データの月別推移
曜日	曜日別の傾向確認
曜日番号	曜日順に並べる

新しい列の追加そのものを詳しく知りたい場合は、以下の記事も参考になります。

[pandasで新しい列を追加する方法｜df['列名']・assign・条件付き列追加を初心者向けに解説](https://pythondatalab.com/pandas-add-column/)

可視化につなげるときの考え方

.dtで月や曜日を取り出したら、そのままグラフ化するのではなく、まず集計表を作ると流れが整理しやすくなります。

たとえば、次のような流れです。

注文日を日付型に変換する
.dtで年月や曜日列を作る
groupby()で月別・曜日別に集計する
Matplotlibで棒グラフや折れ線グラフにする

この記事では可視化の細かい設定までは扱いません。グラフ化を学びたい場合は、以下の記事へ進むと理解がつながります。

軽く知っておくと便利な.dtの関連機能

最後に、発展的ですが、名前だけ知っておくと便利な機能を軽く紹介します。

機能	できること	この記事での扱い
`.dt.strftime()`	日付の表示形式を整える	年月列の作成で軽く使用
`.dt.quarter`	四半期を取り出す	名前だけ知っておけばOK
`.dt.date`	日付部分だけ取り出す	必要になったら調べる
`resample()`	時系列データを期間ごとに集計する	別記事向けの発展内容

最初から全部を覚える必要はありません。まずは、.dt.year、.dt.month、.dt.day_name()を使って、日付列を分析しやすい列に分けられるようになることを優先しましょう。

まとめ：.dtは日付を分析に使いやすくする前処理

この記事では、pandasの.dtアクセサを使って、日付から年・月・日・曜日を取り出す方法を解説しました。

ポイントを整理します。

.dtは、日付型の列から年・月・曜日などを取り出すために使う
.dtを使う前に、pd.to_datetime()で日付型へ変換する
.dt.yearで年を取り出せる
.dt.monthで月を取り出せる
.dt.dayで日を取り出せる
.dt.day_name()で曜日名を取り出せる
.dt.weekdayで曜日番号を取り出せる
複数年データの月別集計では、dt.strftime("%Y-%m")で年月列を作ると便利
取り出した値は、新しい列として追加すると集計や可視化に使いやすい
.dtでエラーになるときは、まず日付列の型を確認する

.dtは、日付データ分析のゴールではありません。 日付列を、集計や可視化に使える形へ整えるための前処理です。

日付型への変換はto_datetime()、集計はgroupby()やvalue_counts()、グラフ化はMatplotlibへ進むと、データ分析の流れが自然につながります。

次に読みたい関連記事

今回の記事とあわせて読むと、Pandasの日付データ分析の流れが理解しやすくなります。

基礎・CSV読み込み

型確認・日付変換

列追加・集計

可視化

▲ ページトップへ戻る

pandasの.dtとは何ですか？

.dtは、日付型の列から年・月・日・曜日などを取り出すための書き方です。
たとえば、df["注文日"].dt.yearで年、df["注文日"].dt.monthで月を取り出せます。

.dtを使うとエラーになるのはなぜですか？

多くの場合、対象の列が日付型ではなくobject型の文字列になっていることが原因です。まずdf.dtypesやdf.info()で型を確認し、必要に応じてpd.to_datetime()で日付型に変換してから.dtを使います。

to_datetime()と.dtは何が違いますか？

to_datetime()は、文字列などを日付型に変換するために使います。 .dtは、日付型に変換したあと、その日付から年・月・曜日などを取り出すために使います。

日付から年や月だけを取り出すにはどうすればよいですか？

年だけを取り出す場合は、df["注文日"].dt.yearを使います。月だけを取り出す場合は、df["注文日"].dt.monthを使います。
取り出した年や月を分析に使いたい場合は、
df["年"] = df["注文日"].dt.year、df["月"] = df["注文日"].dt.monthのように新しい列として追加すると便利です。

日付から曜日を取得するにはどうすればよいですか？

曜日名を取り出したい場合は、df["注文日"].dt.day_name()を使います。曜日順に並べたい場合は、df["注文日"].dt.weekdayで曜日番号も作っておくと便利です。
.dt.day_name()で取り出した曜日名は英語になるため、日本語で見せたい場合は、map()で「Monday → 月曜日」のように置き換える方法があります。

.dt.weekdayと.dt.day_name()は何が違いますか？

.dt.day_name()は、MondayやTuesdayのような曜日名を返します。 .dt.weekdayは、月曜日を0、日曜日を6とする曜日番号を返します。見やすく表示したいなら曜日名、曜日順に並べたいなら曜日番号が便利です。

月別集計をするには、.dt.monthだけでよいですか？

同じ年のデータだけなら、.dt.monthで月列を作って集計してもわかりやすいです。ただし、複数年のデータでは、2025年1月と2026年1月が同じ1月として混ざる可能性があります。その場合は、dt.strftime("%Y-%m")で年月列を作ると安全です。

NaTがある列に.dtを使っても大丈夫ですか？

NaTがある列にも.dtを使える場合があります。ただし、NaTの行では、年・月・曜日などの結果も欠損になります。集計に使うときは、必要に応じてdropna(subset=["注文日"])で日付がない行を除外してから集計すると、結果を読みやすくできます。

The post pandas dtの使い方｜日付から年・月・曜日を取り出す方法を初心者向けに解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas apply()の使い方｜axis=1で行ごとに処理・lambda・mapとの違いを解説

coin_collector — Mon, 04 May 2026 09:43:38 +0000

CSVを読み込んで前処理をしていると、次のような場面がよく出てきます。

点数から「合格」「再確認」の列を作りたい
購入金額から「通常顧客」「見込み顧客」「重点顧客」のような区分を作りたい
複数の列を見て、1行ずつ判定したい
自分で作った関数を、DataFrameの列や行にまとめて使いたい

このようなときに使えるのが、Pandasの apply() です。

ただし、apply() は便利な一方で、何でも apply() で書けばよいわけではありません。 1列の値を対応表で変換するだけなら map()、値の置換なら replace()、型を変えるだけなら astype() や to_datetime() の方がわかりやすいこともあります。

この記事では、apply() を「何となく使う」のではなく、どの場面で使うべきか、axis=1 は何を意味するのか、lambda と自作関数をどう使い分けるかを、初心者向けに順番に解説します。

この記事を読むと、apply() の書き方を覚えるだけでなく、「map() で十分な場面」「apply(axis=1) を使うべき場面」「lambda ではなく自作関数に分けた方がよい場面」を判断できるようになります。

そのため、CSV読み込み後の前処理で、列を整えたり、複数列から判定列を作ったり、集計しやすいデータに変換したりする流れが理解しやすくなります。

この記事でわかること
データ分析の流れの中でのapply()の位置づけ
先に結論：apply()は「関数を列や行に適用する」ときに使う
サンプルデータを用意する
1. Series.apply()で1列に処理を適用する
2. 自作関数をapply()に渡す
3. map()との違い：対応表があるならmap()が読みやすい
4. replace()・astype()・np.where()との使い分け
5. np.where()との違い：2択だけならnp.where()も使える
6. DataFrame.apply()とaxis=0・axis=1の違い
1. axisのイメージ
7. apply(axis=1)で複数列を見て新しい列を作る
8. 処理前→処理後で変化を確認する
9. 購入金額と年齢から顧客区分を作る
10. apply()の結果が反映されないように見える理由
11. 欠損値があるときの注意点
12. apply()でよくあるミス
13. apply()は遅い？初心者が知っておきたい範囲
まとめ
次に読みたい関連記事

この記事でわかること

この記事では、次の内容を扱います。

apply() がどんな場面で役立つか
Series.apply() と DataFrame.apply() の違い
lambda を使った基本的な書き方
axis=0 と axis=1 の違い
複数列を使って新しい列を作る方法
apply()、map()、replace()、astype()、np.where() の使い分け
apply() でよくあるミスと注意点
apply() で作った列を、集計や可視化の前処理につなげる考え方

この記事のゴールは、apply() を、map() や replace() では足りないときに使う「関数適用の道具」として理解し、1列処理・行ごとの処理・新しい列作成を安全に使い分けられるようになることです。

データ分析の流れの中でのapply()の位置づけ

apply() は、DataFrameを読み込んだ直後に最初に使う機能というより、データを確認したあとに、分析しやすい形へ整える前処理でよく使います。

たとえば、次のような流れです。

head()、info()、describe() でデータの中身を確認する
rename()、replace()、astype()、to_datetime() などで列名・値・型を整える
map() や apply() で、分析しやすい列を作る
value_counts() や groupby() で集計する
Matplotlibで可視化する

つまり apply() は、前処理から集計・可視化へ進むために、必要な列を作る道具として考えるとわかりやすいです。

先に結論：apply()は「関数を列や行に適用する」ときに使う

apply() は、Pandasの列や行に対して、同じ処理をまとめて適用するためのメソッドです。

たとえば、次のような処理に向いています。

1列の値をもとに、判定結果を作る
複数列を見て、1行ごとに区分を作る
自作関数をDataFrameに適用する
短い処理を lambda で書く

特に、次のように判断すると迷いにくくなります。

1列の対応表変換なら map()、値の置換なら replace()、型変換なら astype()、複数列を見て1行ずつ判定するなら apply(axis=1) を検討します。

apply() は、単純な置換や型変換よりも、自分で作った判定ルールや関数を列・行に適用したいときに向いています。

一方で、apply() は万能ではありません。まずは、次の表で使い分けを押さえておきましょう。

やりたいこと	まず検討したい方法	理由
1列を辞書で変換したい	`map()`	対応表がある変換は読みやすい
値を別の値に置き換えたい	`replace()`	表記ゆれ修正や値の置換に向く
文字列を数値型に変えたい	`astype()`	型変換の目的が明確
日付文字列を日付型にしたい	`to_datetime()`	日付変換に特化している
単純な条件で2択に分けたい	`np.where()`	短い条件分岐を簡潔に書ける
関数を列に適用したい	`apply()`	計算や判定を関数として使える
複数列を見て1行ずつ判定したい	`apply(axis=1)`	行ごとの処理を書きやすい

なお、この記事では「新しい列を作る方法全体」ではなく、apply()を使って関数の結果を列として追加する場面に絞って解説します。 df["新しい列"] = ... や assign() など、列追加そのものの基本は、別記事の「pandasで新しい列を追加する方法」で整理すると理解しやすいです。

初心者のうちは、単純な処理まで何でも apply() にしないことが大切です。

💡 ポイント apply() は便利ですが、何でも apply() で書く必要はありません。まずは map()・replace()・astype() で書けないかを確認し、それでも関数を適用したいときに apply() を使うと整理しやすくなります。

apply() は、「ほかの方法では書きにくい処理を、関数として適用したいとき」に使うと考えると整理しやすくなります。

サンプルデータを用意する

この記事では、Google Colabでそのまま試せるように、小さなサンプルDataFrameを使います。

学習データと購買データが混ざったような例にして、apply() で「合否」「税込金額」「顧客区分」などを作っていきます。

import pandas as pd

df = pd.DataFrame({
    "名前": ["田中", "佐藤", "鈴木", "高橋", "伊藤", "渡辺"],
    "年齢": [22, 35, 41, 29, 52, 38],
    "点数": [82, 59, 74, 91, 66, 88],
    "出席率": [0.95, 0.70, 0.82, 0.98, 0.60, 0.90],
    "購入金額": [12000, 45000, 28000, 62000, 8000, 37000],
    "地域": ["東京", "大阪", "東京", "福岡", "札幌", "大阪"]
})

df

	名前	年齢	点数	出席率	購入金額	地域
0	田中	22	82	0.95	12000	東京
1	佐藤	35	59	0.7	45000	大阪
2	鈴木	41	74	0.82	28000	東京
3	高橋	29	91	0.98	62000	福岡
4	伊藤	52	66	0.6	8000	札幌
5	渡辺	38	88	0.9	37000	大阪

1. Series.apply()で1列に処理を適用する

まずは、1列だけに apply() を使う基本形です。

1列に対して使う場合は、df["列名"].apply(関数) のように書きます。これは Series.apply() と呼ばれる使い方です。

次の例では、点数 列をもとに、80点以上なら「合格」、それ以外なら「再確認」とする列を作ります。

df["判定"] = df["点数"].apply(lambda x: "合格" if x >= 80 else "再確認")

df[["名前", "点数", "判定"]]

	名前	点数	判定
0	田中	82	合格
1	佐藤	59	再確認
2	鈴木	74	再確認
3	高橋	91	合格
4	伊藤	66	再確認
5	渡辺	88	合格

lambda x: は、「列の値を1つずつ受け取って処理する短い関数」と考えるとわかりやすいです。

上の例では、点数 列の値が1つずつ x に入り、条件に応じて「合格」または「再確認」が返されます。

ただし、条件が長くなる場合は、lambda に無理やり詰め込まない方が読みやすくなります。その場合は、次のように自作関数に分けるのがおすすめです。

2. 自作関数をapply()に渡す

apply() には、lambda だけでなく、自分で定義した関数も渡せます。

条件が2つ以上ある場合や、あとで読み返したい処理は、自作関数に分けると見通しがよくなります。

def score_label(score):
    if score >= 80:
        return "高得点"
    elif score >= 70:
        return "標準"
    else:
        return "要復習"

df["点数区分"] = df["点数"].apply(score_label)

df[["名前", "点数", "点数区分"]]

	名前	点数	点数区分
0	田中	82	高得点
1	佐藤	59	要復習
2	鈴木	74	標準
3	高橋	91	高得点
4	伊藤	66	要復習
5	渡辺	88	高得点

このように、自作関数を使うと、処理の意味が見出しや本文と対応しやすくなります。

書き方	向いている場面
`lambda`	1行で読める短い処理
自作関数	条件が複数ある処理
自作関数	あとで読み返したい処理
自作関数	ブログ記事やチーム共有で説明しやすくしたい処理

lambda は便利ですが、初心者向けの記事では、複雑な条件ほど自作関数の方が理解しやすいことが多いです。

3. map()との違い：対応表があるならmap()が読みやすい

apply() とよく比較されるのが map() です。

map() は、1列の値を辞書などの対応表で変換するときに向いています。たとえば、地域名からエリア名を作るような処理です。

area_map = {
    "東京": "関東",
    "大阪": "関西",
    "福岡": "九州",
    "札幌": "北海道"
}

df["エリア"] = df["地域"].map(area_map)

df[["名前", "地域", "エリア"]]

	名前	地域	エリア
0	田中	東京	関東
1	佐藤	大阪	関西
2	鈴木	東京	関東
3	高橋	福岡	九州
4	伊藤	札幌	北海道
5	渡辺	大阪	関西

このように、「東京なら関東、大阪なら関西」のように対応表がはっきりしている変換では、apply() より map() の方が読みやすくなります。

一方で、次のように条件や計算が入る場合は、apply() の方が自然に書けることがあります。

点数に応じてラベルを分ける
購入金額に応じてランクを作る
複数列を見て判定する

apply() と map() の違いは、次のように考えると整理しやすいです。

比較	向いている処理
`map()`	1列の値を対応表で変換する
`apply()`	1列に関数を適用する
`apply(axis=1)`	複数列を見て1行ずつ判定する

辞書で値を変換する基本は、別記事の「pandas map()の使い方」で詳しく学ぶと理解しやすいです。

4. replace()・astype()・np.where()との使い分け

apply() は便利ですが、値の置換や型変換まで全部 apply() で書く必要はありません。

次の表のように、目的に合ったメソッドを選ぶと、コードが読みやすくなります。

やりたいこと	例	向いている方法
表記ゆれを直す	`"Tokyo"` を `"東京"` にする	`replace()`
型を変える	文字列の数値を `int` にする	`astype()`
日付に変換する	`"2026-05-04"` を日付型にする	`to_datetime()`
2択の条件分岐	80点以上なら合格	`np.where()` または `apply()`
複数条件で区分する	点数と出席率を見て判定	`apply(axis=1)`
自作関数を使う	独自ルールでランク付け	`apply()`

ここで大切なのは、apply() を「何でもできる道具」として使いすぎないことです。処理の目的がはっきりしている場合は、専用のメソッドを優先すると、あとで読み返しやすくなります。

5. np.where()との違い：2択だけならnp.where()も使える

単純な2択の条件分岐なら、apply() だけでなく np.where() でも書けます。

たとえば、80点以上なら「合格」、それ以外なら「再確認」とするだけなら、次のように書けます。

import numpy as np

df["判定_npwhere"] = np.where(df["点数"] >= 80, "合格", "再確認")

df[["名前", "点数", "判定", "判定_npwhere"]]

	名前	点数	判定	判定_npwhere
0	田中	82	合格	合格
1	佐藤	59	再確認	再確認
2	鈴木	74	再確認	再確認
3	高橋	91	合格	合格
4	伊藤	66	再確認	再確認
5	渡辺	88	合格	合格

np.where() は、条件が1つで結果が2択のときに短く書けます。

一方で、条件が複数ある場合や、処理の意味を関数名として残したい場合は、自作関数と apply() を組み合わせた方が読みやすくなります。

書き方	向いている場面
`np.where()`	条件が1つで、結果が2択のとき
`apply()`	関数を使って処理したいとき
`apply(axis=1)`	複数列を見て1行ずつ判定したいとき

この記事では、np.where() を深く扱いすぎず、apply() を使う判断材料として軽く押さえます。

6. DataFrame.apply()とaxis=0・axis=1の違い

ここからは、DataFrame.apply() を見ていきます。

DataFrame.apply() では、axis の指定が重要です。

指定	意味	初心者向けの考え方
`axis=0`	列ごとに処理する	各列を縦に見て処理する
`axis=1`	行ごとに処理する	1行ずつ見て処理する

特に axis=1 は、初心者がつまずきやすいポイントです。「横方向に処理する」と覚えるより、1行ずつ処理すると考える方がわかりやすいです。

axisのイメージ

axis は、DataFrameをどの向きで処理するかを指定する引数です。最初は少し混乱しやすいので、次のようにイメージすると整理しやすくなります。

指定	見る方向	イメージ	よく使う場面
`axis=0`	列ごと	各列を上から下に見る	各列の平均・合計を出す
`axis=1`	行ごと	各行を左から右に見る	複数列を見て1行ずつ判定する

たとえば、axis=0 は「国語列」「数学列」のように列単位で処理します。一方、axis=1 は「1人目の国語と数学」「2人目の国語と数学」のように、1行分の複数列をまとめて見ます。

つまり、複数列を使って新しい列を作りたいときは apply(axis=1) が候補になります。

まずは、小さな点数表で確認します。

scores = pd.DataFrame({
    "国語": [80, 60, 90],
    "数学": [70, 75, 85]
})

scores

	国語	数学
0	80	70
1	60	75
2	90	85

axis=0 を指定すると、列ごとに処理します。次の例では、各科目の平均点を計算しています。

scores.apply(lambda col: col.mean(), axis=0)


国語	76.66666666666667
数学	76.66666666666667

一方、axis=1 を指定すると、行ごとに処理します。次の例では、各人の平均点を計算しています。

scores.apply(lambda row: row.mean(), axis=1)


0	75.0
1	67.5
2	87.5

この違いを理解すると、apply(axis=1) がなぜ複数列を使う処理で登場するのかが見えてきます。

列ごとに処理したい → axis=0
1行ずつ複数列を見たい → axis=1

実務では、axis=1 は「年齢と購入金額を見て顧客区分を作る」「点数と出席率を見てフォロー対象を判定する」ような場面で使います。

7. apply(axis=1)で複数列を見て新しい列を作る

次に、複数列を見て1行ずつ判定する例です。

ここでは、点数 と 出席率 を見て、学習フォローの区分を作ります。

点数が80点以上、かつ出席率が0.8以上なら「順調」
点数が70点未満、または出席率が0.75未満なら「要フォロー」
それ以外は「通常」

このように、複数列を見て判定したい場合は、apply(axis=1) が候補になります。

def follow_status(row):
    if row["点数"] >= 80 and row["出席率"] >= 0.8:
        return "順調"
    elif row["点数"] < 70 or row["出席率"] < 0.75:
        return "要フォロー"
    else:
        return "通常"

df["学習フォロー"] = df.apply(follow_status, axis=1)

df[["名前", "点数", "出席率", "学習フォロー"]]

	名前	点数	出席率	学習フォロー
0	田中	82	0.95	順調
1	佐藤	59	0.7	要フォロー
2	鈴木	74	0.82	通常
3	高橋	91	0.98	順調
4	伊藤	66	0.6	要フォロー
5	渡辺	88	0.9	順調

この例では、関数の引数 row に、DataFrameの1行分のデータが入ります。そのため、row["点数"] や row["出席率"] のように、同じ行の複数列を参照できます。

これが、Series.apply() と DataFrame.apply(axis=1) の大きな違いです。

使い方	処理対象	例
`df["点数"].apply(...)`	1列の値	点数から合否を作る
`df.apply(..., axis=1)`	1行分のデータ	点数と出席率を見て判定する

8. 処理前→処理後で変化を確認する

apply() で新しい列を作るときは、処理前と処理後を確認すると理解しやすくなります。

今回の例では、もともと 点数 と 出席率 だけがありました。そこに、apply(axis=1) で 学習フォロー 列を追加しました。

処理前	処理内容	処理後
`点数`、`出席率`	2つの列を1行ずつ見て判定	`学習フォロー` 列を追加
82、0.95	条件を満たす	順調
59、0.70	点数または出席率が低い	要フォロー

apply() の結果を新しい列として保存すると、あとで value_counts() や groupby() にもつなげやすくなります。

df["学習フォロー"].value_counts()

	count
順調	3
要フォロー	2
通常	1

このように、apply() は列を作って終わりではありません。作成した列を使って件数を数えたり、グループ別に集計したりすることで、分析に進みやすくなります。

9. 購入金額と年齢から顧客区分を作る

もう1つ、前処理らしい例を見てみましょう。

ここでは、購入金額 と 年齢 を使って、顧客区分を作ります。

購入金額が50,000円以上、かつ年齢が30歳以上なら「重点顧客」
購入金額が30,000円以上なら「見込み顧客」
それ以外は「通常顧客」

このような独自ルールは、replace() や astype() では書きにくいため、apply(axis=1) が向いています。

def customer_type(row):
    if row["購入金額"] >= 50000 and row["年齢"] >= 30:
        return "重点顧客"
    elif row["購入金額"] >= 30000:
        return "見込み顧客"
    else:
        return "通常顧客"

df["顧客区分"] = df.apply(customer_type, axis=1)

df[["名前", "年齢", "購入金額", "顧客区分"]]

	名前	年齢	購入金額	顧客区分
0	田中	22	12000	通常顧客
1	佐藤	35	45000	見込み顧客
2	鈴木	41	28000	通常顧客
3	高橋	29	62000	見込み顧客
4	伊藤	52	8000	通常顧客
5	渡辺	38	37000	見込み顧客

作成した 顧客区分 は、そのまま集計に使えます。

df.groupby("顧客区分")["購入金額"].mean()

	購入金額
見込み顧客	48000.0
通常顧客	16000.0

この流れは、実際のデータ分析でもよく使います。

元データを確認する
必要なルールを決める
apply() で区分列を作る
value_counts() や groupby() で集計する
必要に応じてグラフ化する

apply() は、前処理と集計をつなぐ中間の役割を持っています。

10. apply()の結果が反映されないように見える理由

初心者がよく迷うのが、apply() を実行したのにDataFrameが変わっていないように見えるケースです。

apply() は、処理結果を返します。新しい列として残したい場合は、結果を df["新しい列"] に代入する必要があります。

⚠️ 注意 apply() の結果を新しい列として残したい場合は、必ず df["新しい列"] = ... の形で代入します。結果が表示されただけでは、元のDataFrameに保存されたわけではありません。

まずは、代入しない例を見てみます。

df["購入金額"].apply(lambda x: int(x * 1.1))

	購入金額
0	13200
1	49500
2	30800
3	68200
4	8800
5	40700

上のコードを実行すると、税込金額の結果は表示されます。しかし、これだけでは df に新しい列は追加されません。

新しい列として保存したい場合は、次のように代入します。

df["税込金額"] = df["購入金額"].apply(lambda x: int(x * 1.1))

df[["名前", "購入金額", "税込金額"]]

	名前	購入金額	税込金額
0	田中	12000	13200
1	佐藤	45000	49500
2	鈴木	28000	30800
3	高橋	62000	68200
4	伊藤	8000	8800
5	渡辺	37000	40700

このように、apply() の結果をあとで使いたい場合は、必ず列に保存しましょう。

状況	書き方
結果を一時的に確認したい	`df["列"].apply(...)`
新しい列として残したい	`df["新しい列"] = df["列"].apply(...)`

なお、税込金額のような単純な四則演算だけなら、実務では apply() を使わずに列同士の計算で書く方がシンプルな場合もあります。

df["税込金額_直接計算"] = (df["購入金額"] * 1.1).astype(int)

df[["名前", "購入金額", "税込金額", "税込金額_直接計算"]]

	名前	購入金額	税込金額	税込金額_直接計算
0	田中	12000	13200	13200
1	佐藤	45000	49500	49500
2	鈴木	28000	30800	30800
3	高橋	62000	68200	68200
4	伊藤	8000	8800	8800
5	渡辺	37000	40700	40700

この例のように、単純な計算なら apply() より列同士の直接計算の方が読みやすいことがあります。 apply() は便利ですが、常に最初の選択肢にする必要はありません。

11. 欠損値があるときの注意点

apply() では、欠損値がある列を処理するときにも注意が必要です。

たとえば、点数が未入力のデータがあるとします。このような場合に、何も考えずに比較処理を書くと、意図しない結果になることがあります。

ここでは、点数が未入力の場合は「未確認」と返すようにします。

df_missing = pd.DataFrame({
    "名前": ["田中", "佐藤", "鈴木"],
    "点数": [82, None, 68]
})

def safe_score_label(score):
    if pd.isna(score):
        return "未確認"
    elif score >= 80:
        return "高得点"
    elif score >= 70:
        return "標準"
    else:
        return "要復習"

df_missing["点数区分"] = df_missing["点数"].apply(safe_score_label)

df_missing

	名前	点数	点数区分
0	田中	82.0	高得点
1	佐藤	nan	未確認
2	鈴木	68.0	要復習

欠損値を含む列では、pd.isna() で未入力を確認してから処理すると安全です。

ただし、欠損値をどう扱うべきかはデータの意味によって変わります。単純に0で埋めればよいとは限らないため、欠損値処理は fillna() や dropna() の考え方と合わせて整理するとよいです。

12. apply()でよくあるミス

ここでは、初心者がつまずきやすいポイントを整理します。

ミス1：axis=1を付け忘れる

複数列を見て1行ずつ処理したいのに、axis=1 を付け忘れると、想定通りに動かないことがあります。

# 複数列を1行ずつ見たいなら axis=1 が必要
df.apply(customer_type, axis=1)

axis=1 は、「1行ずつ処理する」と覚えると迷いにくいです。

ミス2：apply()の結果を代入していない

次のように書くと、結果は表示されますが、DataFrameには保存されません。

df["購入金額"].apply(lambda x: int(x * 1.1))

列として残したい場合は、次のように代入します。

df["税込金額"] = df["購入金額"].apply(lambda x: int(x * 1.1))

ミス3：lambdaに条件を書きすぎる

lambda は短い処理には便利ですが、条件が長くなると読みにくくなります。

# 読みにくくなりやすい例
df["区分"] = df["点数"].apply(lambda x: "高得点" if x >= 80 else "標準" if x >= 70 else "要復習")

このような場合は、自作関数に分ける方が読みやすくなります。

ミス4：apply()を何でも使ってしまう

apply() は便利ですが、単純な計算や型変換まで apply() にすると、かえって読みづらくなることがあります。

単純な計算 → 列同士の計算
辞書で変換 → map()
値の置換 → replace()
型変換 → astype() や to_datetime()

このように、処理の目的に合う方法を選びましょう。

13. apply()は遅い？初心者が知っておきたい範囲

apply() は便利ですが、大量データでは処理が遅くなることがあります。

ただし、初心者の段階では、最初から速度ばかり気にしすぎる必要はありません。まずは、次の順番で考えるとよいです。

処理の意味が自分で説明できるか
map()、replace()、astype() など、より目的に合う方法がないか
単純な計算なら、列同士の計算で書けないか
それでも関数適用が必要なら apply() を使う

たとえば、税込金額のように df["購入金額"] * 1.1 で書ける処理は、apply() よりも列同士の計算で書く方がシンプルです。まずは「列同士の計算で書けないか」を確認し、それでも自作関数が必要なときに apply() を使うと整理しやすくなります。

巨大データの高速化、NumPyを使った最適化、groupby.apply() の高度な使い方は、この記事では深入りしません。まずは、apply() の基本と使いどころを理解することを優先しましょう。

まとめ

この記事では、pandas apply() の使い方を、初心者向けに解説しました。

大切なポイントは次の通りです。

apply() は、関数を列や行にまとめて適用したいときに使う
1列だけに使う場合は df["列"].apply(...)
複数列を見て1行ずつ処理したい場合は df.apply(..., axis=1)
axis=1 は「1行ずつ処理する」と考えるとわかりやすい
短い処理は lambda、複雑な条件は自作関数に分けると読みやすい
1列の対応表変換なら map()、値の置換なら replace()、型変換なら astype() を優先する
単純な2択の条件分岐なら np.where()、複数条件や自作ルールなら apply() を検討する
apply() の結果を列として残したい場合は、df["新しい列"] = ... のように代入する
apply() で作った列は、value_counts() や groupby() による集計につなげやすい

apply() は、Pandasの前処理でよく使う便利な道具です。ただし、この記事の中心は「列追加そのもの」ではなく、関数の結果を列や行に適用する考え方です。ただし、何でも apply() にするのではなく、「関数を適用する必要があるか」「ほかのメソッドの方が自然ではないか」を考えながら使うと、読みやすいコードになります。

次に読みたい関連記事

この記事とあわせて読むと、Pandasの前処理から集計までの流れが理解しやすくなります。

▲ ページトップへ戻る

pandas apply()は何に使いますか？

apply() は、Pandasの列や行に関数をまとめて適用したいときに使います。たとえば、点数から判定列を作る、購入金額から顧客区分を作る、複数列を見て1行ずつ判定する、といった場面で役立ちます。

apply()とmap()の違いは何ですか？

map() は、主に1列の値を対応表で変換するときに使います。一方、apply() は、関数を使って値を加工したいときや、複数列を見て行ごとに判定したいときに使います。

apply(axis=1)とはどういう意味ですか？

apply(axis=1) は、DataFrameを1行ずつ処理する指定です。複数列を見て新しい列を作りたいときに使います。たとえば、点数 と 出席率 を見て「順調」「要フォロー」を判定するような場面です。

lambdaを使わずにapply()は使えますか？

使えます。 lambda の代わりに、自分で定義した関数を apply() に渡せます。条件が複数ある場合や、あとで読み返しやすくしたい場合は、自作関数に分けるのがおすすめです。

apply()で新しい列を作れますか？

作れます。たとえば、df["新しい列"] = df["元の列"].apply(関数) のように書くと、処理結果を新しい列として保存できます。複数列を使う場合は、df["新しい列"] = df.apply(関数, axis=1) のように書きます。

apply()の結果が元のDataFrameに反映されないのはなぜですか？

apply() の結果を表示しただけでは、元のDataFrameには保存されません。新しい列として残したい場合は、df["新しい列"] = ... のように代入する必要があります。

apply()とnp.where()はどちらを使えばよいですか？

単純な2択の条件分岐なら np.where() が簡潔です。たとえば、80点以上なら「合格」、それ以外なら「再確認」のような処理です。一方で、条件が複数ある場合や、自作関数で処理を整理したい場合は apply() が向いています。初心者のうちは、短く書くことよりも、あとで読んで意味がわかることを優先して選ぶとよいです。

apply()が遅いと言われるのはなぜですか？

apply() は、行や値を1つずつ関数に渡して処理するため、大量データでは遅くなることがあります。単純な計算なら列同士の計算、辞書変換なら map()、値の置換なら replace() のように、目的に合った方法を選ぶと読みやすさと効率の両方を保ちやすくなります。

applymap()やDataFrame.map()もこの記事で扱うべきですか？

この記事では、初心者がまず迷いやすい apply()、axis=1、lambda、map() との違いに絞って解説しています。 applymap() や DataFrame.map() は、DataFrame内の各要素に処理を適用する場面で使われますが、最初から広げると混乱しやすいため、この記事では深入りしません。

The post pandas apply()の使い方｜axis=1で行ごとに処理・lambda・mapとの違いを解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas duplicated()の使い方｜重複行の確認・subset・keepを初心者向けに解説

coin_collector — Mon, 04 May 2026 07:09:59 +0000

CSVファイルを読み込んだあとに、同じ顧客IDや同じ注文番号が何度も出てくることがあります。

そのときに、いきなり重複行を削除してしまうと、本当は残すべき注文データまで消してしまうことがあります。

そこで使うのが、Pandasの duplicated() です。

duplicated() は、重複している行を True / False で確認するためのメソッドです。
drop_duplicates() のように重複を削除する前に、「どの行が重複と判定されているのか」を確認するために使います。

この記事では、duplicated() を使って重複行を安全に確認し、削除・集計・結合に進む前に「どのデータを残すべきか」を判断できるようにします。

先に結論
この記事でわかること
Pandas DataFrame入門シリーズでの位置づけ
1. duplicated()とは何か
2. サンプルデータを用意する
3. 行全体の重複を確認する
1. 処理前→duplicated()結果→重複行だけ抽出の見方
4. 重複行だけを抽出する
5. duplicated().sum()で重複件数を確認する
6. subsetで特定の列だけを基準にする
7. keepの違いを理解する
1. 同じデータでkeepの3パターンを比較する
8. duplicated()とdrop_duplicates()の違い
1. 削除する前に、まず確認する
9. value_counts()やgroupby()との使い分け
削除前チェックリスト：重複行を消す前に確認すること
11. よくあるミスと注意点
12. 前処理の流れの中でduplicated()を使うタイミング
13. まとめ
次に読みたい関連記事

先に結論

duplicated() は、重複行を削除するメソッドではなく、重複している行を確認するためのメソッドです。

迷ったら、まず次の流れで確認すると安全です。

df.duplicated() で重複の有無を見る
df[df.duplicated(keep=False)] で重複グループ全体を確認する
subset で「どの列を基準に重複と見るか」を決める
本当に削除してよいと判断できたら drop_duplicates() を使う

特に初心者のうちは、重複を見つけることと重複を削除することを分けて考えるのが大切です。

この記事でわかること

この記事では、次の内容を初心者向けに解説します。

duplicated() で重複行を確認する方法
True / False の意味
重複行だけを抽出する方法
duplicated().sum() で重複件数を確認する方法
subset で特定の列だけを基準にする方法
keep='first'、keep='last'、keep=False の違い
duplicated() と drop_duplicates() の違い
重複行を削除する前に確認すべきポイント

ポイントは、重複を見つけることと、重複を削除することを分けて考えることです。

Pandas DataFrame入門シリーズでの位置づけ

このテーマは、Pandasの前処理の中でも「データ品質チェック」に近い内容です。

基本的な流れとしては、次のように考えると自然です。

CSVを読み込む
head()、info()、describe() で全体を確認する
isnull() で欠損値を確認する
duplicated() で重複行を確認する
必要に応じて drop_duplicates() で削除する
value_counts()、groupby()、pivot_table() などで集計する

つまり、duplicated() は「削除するためのメソッド」というより、削除してよいか判断する前の確認メソッドとして使うのが大切です。

1. duplicated()とは何か

duplicated() は、DataFrameの行が重複しているかどうかを確認するメソッドです。

基本形は次のとおりです。

df.duplicated()

実行すると、各行について True または False が返ります。

結果	意味
`False`	その時点では重複扱いされていない行
`True`	前に同じ行があり、重複と判定された行

ここで注意したいのは、duplicated() は重複行を削除しないという点です。
あくまで「この行は重複ですか？」を確認するためのメソッドです。

重複を削除したい場合は、あとで drop_duplicates() を使います。

2. サンプルデータを用意する

ここでは、注文データを例にします。

同じ注文番号が2回出てくる行もあれば、同じ顧客が別の商品を注文している行もあります。
初心者が迷いやすいのは、同じ値があるからといって、必ず削除してよいとは限らない点です。

import pandas as pd

df = pd.DataFrame({
    "注文番号": ["A001", "A002", "A003", "A003", "A004", "A005", "A006", "A006", "A007"],
    "顧客ID": ["C001", "C002", "C003", "C003", "C001", "C004", "C005", "C005", "C006"],
    "氏名": ["佐藤", "鈴木", "田中", "田中", "佐藤", "高橋", "伊藤", "伊藤", "山田"],
    "商品": ["ノートPC", "マウス", "キーボード", "キーボード", "モニター", "マウス", "USBメモリ", "USBメモリ", "マウス"],
    "金額": [120000, 2500, 8000, 8000, 30000, 2500, 1500, 1500, 2500],
    "注文日": ["2026-04-01", "2026-04-02", "2026-04-03", "2026-04-03", "2026-04-05", "2026-04-06", "2026-04-07", "2026-04-07", "2026-04-08"]
})

df

	注文番号	顧客ID	氏名	商品	金額	注文日
0	A001	C001	佐藤	ノートPC	120000	2026-04-01
1	A002	C002	鈴木	マウス	2500	2026-04-02
2	A003	C003	田中	キーボード	8000	2026-04-03
3	A003	C003	田中	キーボード	8000	2026-04-03
4	A004	C001	佐藤	モニター	30000	2026-04-05
5	A005	C004	高橋	マウス	2500	2026-04-06
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07
8	A007	C006	山田	マウス	2500	2026-04-08

このデータでは、次のような状態があります。

A003 の注文が2回出ている
A006 の注文が2回出ている
C001 の顧客は2回出ているが、注文番号と商品が違う
佐藤 という名前も2回出ているが、同じ人の別注文として残す可能性がある

このように、重複確認では「どの列を基準に重複と見るか」がとても重要です。

3. 行全体の重複を確認する

まずは、行全体が同じかどうかを確認します。

df.duplicated() を使うと、前に同じ行がある場合に True が返ります。

df.duplicated()


0	False
1	False
2	False
3	True
4	False
5	False
6	False
7	True
8	False

この結果だけだと少し見づらいので、元のDataFrameに「重複判定」列を一時的に追加して確認してみましょう。

df_check = df.copy()
df_check["重複判定"] = df_check.duplicated()

df_check

	注文番号	顧客ID	氏名	商品	金額	注文日	重複判定
0	A001	C001	佐藤	ノートPC	120000	2026-04-01	False
1	A002	C002	鈴木	マウス	2500	2026-04-02	False
2	A003	C003	田中	キーボード	8000	2026-04-03	False
3	A003	C003	田中	キーボード	8000	2026-04-03	True
4	A004	C001	佐藤	モニター	30000	2026-04-05	False
5	A005	C004	高橋	マウス	2500	2026-04-06	False
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07	False
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07	True
8	A007	C006	山田	マウス	2500	2026-04-08	False

処理前→duplicated()結果→重複行だけ抽出の見方

duplicated() を理解するときは、次の3段階で見ると分かりやすいです。

段階	確認すること	使うコード
処理前	元データに重複候補があるか	`df`
duplicated()結果	各行が重複扱いかどうか	`df.duplicated()`
重複行だけ抽出	`True` になった行だけを見る	`df[df.duplicated()]`

この記事では、いきなり削除せず、まずこの流れで「どの行が重複と判定されているか」を確認します。

特に True は「削除する行」と決めつけるのではなく、重複候補として確認すべき行と考えるのが安全です。

True になっている行は、前に同じ内容の行があるため「重複」と判定された行です。

ここで大切なのは、False が「絶対に重複していない」という意味ではないことです。
初期設定では、最初に出てきた行は残す前提で False になります。

判定	初心者向けの考え方
`False`	最初に出てきた行、または重複していない行
`True`	すでに前に同じ行がある行

この仕組みは、後で説明する keep='first' と関係しています。

4. 重複行だけを抽出する

重複している行だけを見たい場合は、df.duplicated() の結果を条件として使います。

これは条件抽出と同じ考え方です。

df[df.duplicated()]

	注文番号	顧客ID	氏名	商品	金額	注文日
3	A003	C003	田中	キーボード	8000	2026-04-03
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07

このコードでは、duplicated() が True になった行だけを取り出しています。

つまり、次のような意味です。

df[重複している行だけ]

削除する前に、まずこのように重複行だけを表示して確認すると安全です。

5. duplicated().sum()で重複件数を確認する

重複行が何件あるかだけを知りたい場合は、duplicated().sum() を使います。

df.duplicated().sum()

duplicated() は True / False を返します。
Pandasでは、True は 1、False は 0 のように数えられるため、.sum() を付けると True の数、つまり重複と判定された行数を確認できます。

コード	意味
`df.duplicated()`	各行が重複かどうかを確認する
`df.duplicated().sum()`	重複と判定された行数を数える

ただし、この件数は「削除すべき件数」とは限りません。
まずは中身を確認してから判断しましょう。

重複グループ全体を確認したい場合は、後で説明する keep=False を使うと、最初の行も含めてまとめて確認できます。

6. subsetで特定の列だけを基準にする

ここまでの duplicated() は、行全体が同じかどうかを見ていました。

しかし実務では、行全体ではなく、特定の列だけを基準に重複を確認したいことが多いです。

たとえば、注文データなら次のように考えられます。

見たいこと	基準にする列
同じ注文が重複していないか	`注文番号`
同じ顧客が複数回出ているか	`顧客ID`
同じ顧客の同じ注文が重複していないか	`顧客ID` と `注文番号`

このようなときに使うのが subset です。

注文番号だけを基準に重複を確認する

注文番号が同じなら、同じ注文が二重に入っている可能性があります。
そこで、subset=["注文番号"] を指定します。

df_order_check = df.copy()
df_order_check["注文番号の重複"] = df_order_check.duplicated(subset=["注文番号"])

df_order_check[["注文番号", "顧客ID", "氏名", "商品", "金額", "注文日", "注文番号の重複"]]

	注文番号	顧客ID	氏名	商品	金額	注文日	注文番号の重複
0	A001	C001	佐藤	ノートPC	120000	2026-04-01	False
1	A002	C002	鈴木	マウス	2500	2026-04-02	False
2	A003	C003	田中	キーボード	8000	2026-04-03	False
3	A003	C003	田中	キーボード	8000	2026-04-03	True
4	A004	C001	佐藤	モニター	30000	2026-04-05	False
5	A005	C004	高橋	マウス	2500	2026-04-06	False
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07	False
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07	True
8	A007	C006	山田	マウス	2500	2026-04-08	False

このように、subset を使うと「行全体」ではなく「指定した列」だけを基準に重複を確認できます。

今回の例では、注文番号 が同じ行を重複候補として確認できます。

顧客IDだけを見ると、削除してはいけないデータまで重複に見えることがある

次に、顧客ID だけを基準にしてみます。

df_customer_check = df.copy()
df_customer_check["顧客IDの重複"] = df_customer_check.duplicated(subset=["顧客ID"], keep=False)

df_customer_check[["注文番号", "顧客ID", "氏名", "商品", "金額", "注文日", "顧客IDの重複"]]

	注文番号	顧客ID	氏名	商品	金額	注文日	顧客IDの重複
0	A001	C001	佐藤	ノートPC	120000	2026-04-01	True
1	A002	C002	鈴木	マウス	2500	2026-04-02	False
2	A003	C003	田中	キーボード	8000	2026-04-03	True
3	A003	C003	田中	キーボード	8000	2026-04-03	True
4	A004	C001	佐藤	モニター	30000	2026-04-05	True
5	A005	C004	高橋	マウス	2500	2026-04-06	False
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07	True
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07	True
8	A007	C006	山田	マウス	2500	2026-04-08	False

C001 は2回出てきますが、注文番号も商品も違います。
これは同じ顧客が別の商品を注文しているだけかもしれません。

そのため、顧客ID が重複しているからといって、すぐ削除するのは危険です。

重複確認では、次のように考えることが大切です。

状況	判断
同じ注文番号が2回ある	二重登録の可能性があるため確認する
同じ顧客IDが2回ある	同じ顧客の複数注文かもしれない
同じ氏名が2回ある	同姓同名や同じ顧客の別注文かもしれない
行全体が完全に同じ	重複登録の可能性が高い

subset は便利ですが、何を基準にするかを間違えると、必要なデータまで削除してしまうことがあります。

顧客IDと注文番号の組み合わせで確認する

より安全に確認したい場合は、複数列を subset に指定します。

たとえば、同じ顧客IDで、同じ注文番号の行があるかを確認してみます。

df_pair_check = df.copy()
df_pair_check["顧客IDと注文番号の重複"] = df_pair_check.duplicated(subset=["顧客ID", "注文番号"], keep=False)

df_pair_check[["注文番号", "顧客ID", "氏名", "商品", "金額", "注文日", "顧客IDと注文番号の重複"]]

	注文番号	顧客ID	氏名	商品	金額	注文日	顧客IDと注文番号の重複
0	A001	C001	佐藤	ノートPC	120000	2026-04-01	False
1	A002	C002	鈴木	マウス	2500	2026-04-02	False
2	A003	C003	田中	キーボード	8000	2026-04-03	True
3	A003	C003	田中	キーボード	8000	2026-04-03	True
4	A004	C001	佐藤	モニター	30000	2026-04-05	False
5	A005	C004	高橋	マウス	2500	2026-04-06	False
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07	True
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07	True
8	A007	C006	山田	マウス	2500	2026-04-08	False

このように、subset=["顧客ID", "注文番号"] とすると、2つの列の組み合わせで重複を確認できます。

初心者のうちは、次の順番で考えると迷いにくいです。

まず行全体の重複を見る
次に、注文番号やIDなど、重複の基準になりそうな列を見る
必要なら複数列の組み合わせで確認する
中身を見てから削除するか判断する

7. keepの違いを理解する

duplicated() で初心者が迷いやすいのが、keep です。

keep は、重複しているデータのうち、どの行を False として残す扱いにするかを決める引数です。

指定	意味
`keep='first'`	最初の行を `False` にし、2回目以降を `True` にする
`keep='last'`	最後の行を `False` にし、それより前を `True` にする
`keep=False`	重複している行をすべて `True` にする

初期設定は keep='first' です。

同じデータでkeepの3パターンを比較する

注文番号を基準にして、keep='first'、keep='last'、keep=False の違いを見てみましょう。

df_keep = df.copy()

df_keep["keep_first"] = df_keep.duplicated(subset=["注文番号"], keep="first")
df_keep["keep_last"] = df_keep.duplicated(subset=["注文番号"], keep="last")
df_keep["keep_false"] = df_keep.duplicated(subset=["注文番号"], keep=False)

df_keep[["注文番号", "顧客ID", "氏名", "商品", "keep_first", "keep_last", "keep_false"]]

	注文番号	顧客ID	氏名	商品	keep_first	keep_last	keep_false
0	A001	C001	佐藤	ノートPC	False	False	False
1	A002	C002	鈴木	マウス	False	False	False
2	A003	C003	田中	キーボード	False	True	True
3	A003	C003	田中	キーボード	True	False	True
4	A004	C001	佐藤	モニター	False	False	False
5	A005	C004	高橋	マウス	False	False	False
6	A006	C005	伊藤	USBメモリ	False	True	True
7	A006	C005	伊藤	USBメモリ	True	False	True
8	A007	C006	山田	マウス	False	False	False

結果を見ると、同じ注文番号でも keep の指定によって True になる行が変わることが分かります。

初心者におすすめなのは、重複グループ全体を見たいときに keep=False を使うことです。

df[df.duplicated(subset=["注文番号"], keep=False)]

	注文番号	顧客ID	氏名	商品	金額	注文日
2	A003	C003	田中	キーボード	8000	2026-04-03
3	A003	C003	田中	キーボード	8000	2026-04-03
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07

keep=False を使うと、重複している注文番号の行をまとめて確認できます。

削除する前に、

どちらを残すべきか
本当に完全な二重登録なのか
金額や注文日が違っていないか

を確認しやすくなります。

8. duplicated()とdrop_duplicates()の違い

duplicated() とよく似た名前のメソッドに、drop_duplicates() があります。

この2つは役割が違います。

メソッド	役割	使う場面
`duplicated()`	重複している行を `True` / `False` で確認する	削除前に確認したいとき
`drop_duplicates()`	重複行を削除したDataFrameを返す	確認後に削除したいとき

この記事の中心は、duplicated() による確認です。
drop_duplicates() は、重複を確認したあとに必要なら使います。

削除する前に、まず確認する

たとえば、注文番号が重複している行を確認するなら、まず次のようにします。

df[df.duplicated(subset=["注文番号"], keep=False)]

	注文番号	顧客ID	氏名	商品	金額	注文日
2	A003	C003	田中	キーボード	8000	2026-04-03
3	A003	C003	田中	キーボード	8000	2026-04-03
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07

中身を確認して、本当に削除してよいと判断できたら、次に drop_duplicates() を検討します。

df.drop_duplicates(subset=["注文番号"], keep="first")

	注文番号	顧客ID	氏名	商品	金額	注文日
0	A001	C001	佐藤	ノートPC	120000	2026-04-01
1	A002	C002	鈴木	マウス	2500	2026-04-02
2	A003	C003	田中	キーボード	8000	2026-04-03
4	A004	C001	佐藤	モニター	30000	2026-04-05
5	A005	C004	高橋	マウス	2500	2026-04-06
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07
8	A007	C006	山田	マウス	2500	2026-04-08

ただし、この記事では drop_duplicates() の詳しい削除パターンには深入りしません。
詳しく学ぶ場合は、重複削除を扱う記事で確認するのがおすすめです。

大切なのは、次の順番です。

duplicated() で重複を確認する
keep=False などで重複グループ全体を見る
削除してよいか判断する
必要な場合だけ drop_duplicates() を使う

9. value_counts()やgroupby()との使い分け

重複確認では、value_counts() や groupby() も使えます。

ただし、それぞれ得意なことが少し違います。

方法	得意なこと
`duplicated()`	どの行が重複しているか確認する
`value_counts()`	列ごとの値が何回出ているか確認する
`groupby().size()`	グループごとの件数を確認する
`drop_duplicates()`	重複行を削除する

たとえば、注文番号ごとの出現回数を見たいだけなら、value_counts() が便利です。

df["注文番号"].value_counts()

	count
A003	2
A006	2
A001	1
A002	1
A004	1
A005	1
A007	1

groupby().size() を使っても、注文番号ごとの件数を確認できます。

df.groupby("注文番号").size()


A001	1
A002	1
A003	2
A004	1
A005	1
A006	2
A007	1

ただし、value_counts() や groupby().size() は「何件あるか」を見るのに向いています。
一方で、duplicated() は「どの行が重複として扱われるか」を見るのに向いています。

行そのものを確認したいときは、duplicated() を使うと分かりやすいです。

削除前チェックリスト：重複行を消す前に確認すること

duplicated() で重複が見つかっても、すぐに削除する必要はありません。

削除前には、次の表で確認すると安全です。

確認すること	見るポイント	判断の例
行全体が完全に同じか	すべての列が同じか	完全一致なら二重登録の可能性が高い
IDや注文番号だけが同じか	商品・日付・金額が違わないか	同じ顧客の別注文なら残す
どの列を基準にするか	`subset` に指定する列	注文番号、顧客ID、顧客ID＋注文番号など
重複グループ全体を見たか	`keep=False` で確認したか	最初の行も含めて確認できる
削除後の影響はあるか	集計や売上合計が変わるか	集計前に確認しておく

このチェックを入れることで、drop_duplicates() で必要なデータまで消してしまうリスクを減らせます。

11. よくあるミスと注意点

ここでは、初心者がつまずきやすいポイントを整理します。

ミス1：duplicated()で重複が削除されると思ってしまう

duplicated() は重複を削除しません。
True / False で確認するだけです。

# duplicated()は削除ではなく、True / False の確認です
df.duplicated()


0	False
1	False
2	False
3	True
4	False
5	False
6	False
7	True
8	False

削除したい場合は drop_duplicates() を使います。
ただし、削除する前に必ず中身を確認しましょう。

ミス2：Trueを「残す行」だと思ってしまう

duplicated() の True は、「重複と判定された行」という意味です。
「残す行」という意味ではありません。

結果	意味
`False`	最初に出てきた行、または重複していない行
`True`	重複と判定された行

特に初期設定の keep='first' では、最初の行は False になります。

ミス3：名前だけで重複削除しようとする

同じ名前があるからといって、同じ人とは限りません。
また、同じ人でも別の商品を注文している可能性があります。

名前だけで確認すると、削除してはいけないデータまで重複に見えることがあります。

df[df.duplicated(subset=["氏名"], keep=False)]

	注文番号	顧客ID	氏名	商品	金額	注文日
0	A001	C001	佐藤	ノートPC	120000	2026-04-01
2	A003	C003	田中	キーボード	8000	2026-04-03
3	A003	C003	田中	キーボード	8000	2026-04-03
4	A004	C001	佐藤	モニター	30000	2026-04-05
6	A006	C005	伊藤	USBメモリ	1500	2026-04-07
7	A006	C005	伊藤	USBメモリ	1500	2026-04-07

この例では、佐藤 さんが2回出ています。
しかし、注文番号と商品が違うため、単純に削除してよいとは言えません。

重複確認では、名前だけではなく、顧客ID、注文番号、注文日 なども合わせて確認しましょう。

ミス4：subsetを指定せずに「重複がない」と判断してしまう

subset を指定しない場合、行全体が同じかどうかを見ます。

そのため、注文番号は同じでも、どこか1列だけ違うと、行全体としては重複にならないことがあります。

「注文番号だけを見たい」「顧客IDだけを見たい」という目的がある場合は、subset を使いましょう。

ミス5：重複は必ず悪いデータだと思ってしまう

重複しているように見えるデータでも、実際には意味のあるデータの場合があります。

重複して見える例	削除してよいか
同じ顧客IDが複数回出る	同じ顧客の複数注文なら残す
同じ商品名が複数回出る	商品別集計では普通にありえる
同じ注文番号が完全に同じ内容で2回出る	二重登録の可能性があるため確認する
行全体が完全に同じ	重複登録の可能性が高い

重複確認の目的は、機械的に消すことではありません。
「残すべきか、削除すべきか」を判断することです。

12. 前処理の流れの中でduplicated()を使うタイミング

duplicated() は、Pandasの前処理の中で早めに使うと便利です。

おすすめの流れは次のとおりです。

順番	確認内容	使うメソッド例
1	データの先頭を見る	`head()`
2	列名・型・欠損数を見る	`info()`
3	統計量を見る	`describe()`
4	欠損値を確認する	`isnull()`
5	重複行を確認する	`duplicated()`
6	必要に応じて重複を削除する	`drop_duplicates()`
7	件数やグループごとに確認する	`value_counts()`、`groupby()`
8	表形式に集計する	`pivot_table()`

重複確認をせずに集計へ進むと、件数や合計金額が二重に数えられることがあります。

そのため、集計や可視化の前に、duplicated() で重複の有無を確認しておくと安心です。

13. まとめ

この記事では、Pandasの duplicated() を使って重複行を確認する方法を解説しました。

重要なポイントを整理します。

duplicated() は、重複行を True / False で確認するメソッド
duplicated() は重複を削除しない
重複行だけを見たいときは df[df.duplicated()] を使う
重複件数を見たいときは df.duplicated().sum() を使う
特定列を基準にしたいときは subset を使う
keep='first'、keep='last'、keep=False で重複判定のされ方が変わる
重複を削除したいときは、確認後に drop_duplicates() を使う
重複は必ずしも悪いデータではないため、削除前に中身を確認する

初心者のうちは、次の順番で考えるのがおすすめです。

まず duplicated() で重複を確認する
keep=False で重複グループ全体を見る
subset で重複の基準列を決める
削除してよいと判断できたら drop_duplicates() に進む

duplicated() を使えるようになると、データを削除する前に安全に確認できるようになります。

次に読みたい関連記事

この記事とあわせて読むと、Pandasの前処理の流れがつながりやすくなります。

Pandas DataFrame入門｜作り方・基本操作をわかりやすく解説
DataFrameの基本構造を確認したい方におすすめです。
Pandas info()とdescribe()の違い｜欠損値・型・統計量の見方を例で解説
重複確認の前に、データ全体の型や欠損数を確認したいときに役立ちます。
欠損値を可視化して攻略！Pandas isnullとヒートマップ活用術
重複確認とあわせて、欠損値も確認したいときにおすすめです。
Pandas dropna()・drop_duplicates()の使い方｜欠損/重複の削除とdrop()基本
重複を確認したあと、実際に削除する方法を学びたい場合はこちらです。
pandas value_counts()の使い方｜件数集計・割合表示・欠損値の数え方を解説
値の出現回数や表記ゆれを確認したいときに役立ちます。
Pandas groupby×aggの使い方｜基本の集計とaggの書き方を例で解説
重複確認後に、グループごとの集計へ進みたい方におすすめです。
Pandas pivotとpivot_tableの違い｜重複データ対応と集計方法
重複データがあるときに、pivotとpivot_tableをどう使い分けるかを学べます。
pandas reset_index()の使い方｜インデックスを振り直す・drop=Trueを初心者向けに解説
重複削除後にインデックスを整えたいときに役立ちます。
Pandas concat完全ガイド｜複数CSVからDataFrameを縦横結合する方法
複数データを結合したあとに重複が出る場面を理解しやすくなります。

▲ ページトップへ戻る

pandas duplicated()は何をするメソッドですか？

duplicated() は、DataFrameの行が重複しているかどうかを True / False で確認するメソッドです。
重複を削除するのではなく、削除前にどの行が重複と判定されるかを確認するために使います。

duplicated()とdrop_duplicates()の違いは何ですか？

duplicated() は重複行を True / False で確認します。
drop_duplicates() は重複行を削除したDataFrameを返します。
削除前の確認には duplicated()、削除には drop_duplicates() と考えると分かりやすいです。

重複行だけを表示するにはどうすればよいですか？

次のように書きます。
df[df.duplicated()]

特定の列を基準にしたい場合は、次のように subset を指定します。
df[df.duplicated(subset=["注文番号"], keep=False)]

keep=False を使うと、重複しているグループ全体を確認しやすくなります。

duplicated().sum()は何を数えていますか？

keep=False を使うと、重複しているグループ全体を確認しやすくなります。

duplicated().sum()は何を数えていますか？

duplicated() で True になった行数を数えています。
つまり、重複と判定された行が何件あるかを確認できます。
ただし、この件数は「削除すべき件数」とは限りません。削除前に、実際の行の中身を確認しましょう。

subsetは何のために使いますか？

subset は、重複判定に使う列を指定するための引数です。
たとえば、注文番号だけを基準にしたい場合は次のように書きます。
df.duplicated(subset=["注文番号"])

行全体ではなく、特定列だけを基準に重複確認したいときに使います。

keep=’first’、keep=’last’、keep=Falseの違いは何ですか？

keep='first' は最初の行を残す扱いにし、2回目以降を True にします。
keep='last' は最後の行を残す扱いにし、それより前を True にします。
keep=False は、重複している行をすべて True にします。
重複グループ全体を確認したいときは、keep=False が便利です。

重複行は必ず削除したほうがよいですか？

必ず削除する必要はありません。
同じ顧客が複数回注文している場合や、同じ商品が複数回売れている場合は、意味のあるデータです。
削除する前に、何を基準に重複と見るのかを確認しましょう。

value_counts()とduplicated()はどう使い分けますか？

value_counts() は、値が何回出ているかを確認するのに向いています。
duplicated() は、どの行が重複として判定されるかを確認するのに向いています。
件数を見たいときは value_counts()、行を確認したいときは duplicated() と考えると分かりやすいです。

The post pandas duplicated()の使い方｜重複行の確認・subset・keepを初心者向けに解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas map()の使い方｜辞書で値を変換・新しい列を作る方法を初心者向けに解説

coin_collector — Sat, 02 May 2026 10:16:54 +0000

CSVを読み込んだあと、列の値が 1、2、A、B のようなコードで入っていて、「この数字や記号が何を意味しているのか分かりにくい」と感じることがあります。

たとえば、次のようなデータです。

gender_code	member_rank	意味
1	A	男性・通常会員
2	B	女性・優良会員
3	D	対応表にまだ登録していないコード

このまま value_counts() や groupby() で集計することもできますが、結果が 1 や A のままだと読み取りにくくなります。

そこで使いやすいのが、Pandasの map() です。
map() は、1列の値を、辞書などの対応表に従って別の値へ変換したいときに使います。

この記事では、pandas map()の使い方を、辞書で値を変換する基本から、新しい列を作る方法、辞書にない値が NaN になる注意点まで、初心者向けに整理します。

まず結論：map()は「対応表で1列を変換する」ときに使う
この記事でわかること
Pandas DataFrame入門シリーズでの位置づけ
map()はどんな場面で使うのか
map()と似た機能の使い分け
サンプルデータを作成する
変換前に値の種類を確認する
辞書を使って数値コードをラベルに変換する
map()で新しい列を作る
辞書にない値がNaNになる例
fillna()で未対応コードを補う
文字列のコードをカテゴリ名に変換する
map()とreplace()の違い
map()とastype()・merge()・apply()の違い
文字列の「1」と数値の1は別物として扱われる
map()後に集計へ進む
よくあるつまずきと確認ポイント
まとめ
次に読みたい関連記事

まず結論：map()は「対応表で1列を変換する」ときに使う

結論
pandasの map() は、DataFrameの1列に入っている値を、辞書などの対応表に従って別の値へ変換したいときに使います。
たとえば、1 を 男性、2 を 女性、A を 通常会員 のように、コード値を人が読めるラベルへ変換するときに便利です。

この記事では、まず辞書を使った基本形に絞って説明します。
難しい関数処理や速度比較には深入りせず、CSVを読み込んだあとに実際によく使う前処理として、map() の使いどころを整理します。

この記事でわかること

map() がどんな場面で役立つか
辞書を使って値を変換する基本
数値コードや文字列コードをラベルに変換する方法
map() で新しい列を作る方法
辞書にない値が NaN になる理由と確認方法
map() と replace()、astype()、merge() の違い
集計前の前処理として map() を使う流れ

Pandas DataFrame入門シリーズでの位置づけ

map() は、DataFrameを集計・可視化する前に、値を読みやすく整えるための前処理でよく使います。

流れとしては、次の位置づけです。

流れ	よく使う処理	役割
読み込み	`read_csv()`	CSVをDataFrameとして読み込む
確認	`head()` / `info()`	データの中身や型を確認する
値の確認	`value_counts()`	どんな値が入っているか確認する
値の変換	`map()` / `replace()`	コード値や表記ゆれを整える
欠損値処理	`fillna()`	足りない値を補う
型変換	`astype()`	数値・文字列などの型を整える
集計	`groupby()`	整えた列を使って集計する

DataFrameの基本から確認したい場合は、Pandas DataFrame入門もあわせて確認すると流れがつかみやすくなります。

map()はどんな場面で使うのか

結論からいうと、map() は 1列の値を、対応表に従って別の値へ変換したいときに使います。

たとえば、次のような変換です。

変換前	変換後
`1`	`男性`
`2`	`女性`
`A`	`通常会員`
`B`	`優良会員`
`C`	`VIP`

map() は、特に次のような場面で便利です。

数値コードをわかりやすいラベルに変換したい
A、B、C のようなランクコードを名前に変えたい
既存列をもとに、新しい説明用の列を作りたい
groupby() やグラフ化の前に、集計結果を読みやすくしたい

ここで大事なのは、map() は基本的に DataFrame全体ではなく、1列、つまりSeriesに使うという点です。

map()と似た機能の使い分け

Pandasには、値を変える処理がいくつかあります。
ここで先に整理しておくと、map() を使う場面がわかりやすくなります。

やりたいこと	向いている方法	例	初心者向けの判断基準
1列の値を対応表どおりに変換したい	`map()`	`1 → 男性`、`A → 通常会員`	コード値をラベルに変えたいとき
表記ゆれを置換したい	`replace()`	`Tokyo` と `tokyo` を `東京` にそろえる	既存値の表記をそろえたいとき
欠損値を埋めたい	`fillna()`	`NaN → 未分類`	足りない値を補いたいとき
データ型を変えたい	`astype()`	文字列の `"100"` を数値の `100` にする	値の意味ではなく型を変えたいとき
別DataFrameの対応表と結合したい	`merge()`	商品マスタと売上データを結合する	対応表が別の表としてあるとき
複雑な条件や関数を使いたい	`apply()`	複数条件で判定する	単純な対応表では足りないとき

この記事では、まず初心者が使いやすい 辞書を使った map() に絞って説明します。

表記ゆれの置換を詳しく知りたい場合は、pandas replace()の使い方を参考にしてください。
型変換を確認したい場合は、pandas astype()の使い方が近い内容です。

サンプルデータを作成する

ここでは、会員データを例にします。

gender_code には性別コード、member_rank には会員ランクのコードが入っているとします。
また、あえて対応表にない値も入れて、map() でよくあるつまずきを確認できるようにします。

import pandas as pd

data = {
    "customer_id": [101, 102, 103, 104, 105, 106],
    "gender_code": [1, 2, 1, 3, 2, 1],
    "member_rank": ["A", "B", "C", "A", "D", "B"],
    "purchase_amount": [1200, 3500, 5800, 900, 1500, 4200]
}

df = pd.DataFrame(data)
df

	customer_id	gender_code	member_rank	purchase_amount
0	101	1	A	1200
1	102	2	B	3500
2	103	1	C	5800
3	104	3	A	900
4	105	2	D	1500
5	106	1	B	4200

このデータでは、gender_code の 1 や 2、member_rank の A や B は、そのままだと意味が伝わりにくい状態です。

列名	今の状態	変換したい内容
`gender_code`	`1`、`2`、`3`	`男性`、`女性`、未対応など
`member_rank`	`A`、`B`、`C`、`D`	`通常会員`、`優良会員`、`VIP`、未分類など

このようなときに、map() で対応表を使って変換します。

変換前に値の種類を確認する

map() を使う前に、まずどんな値が入っているかを確認しておくと安全です。

特に、辞書にない値があると NaN になることがあるため、変換前に value_counts() で確認しておくと失敗に気づきやすくなります。

print("gender_code の値の種類")
display(df["gender_code"].value_counts(dropna=False))

print("member_rank の値の種類")
display(df["member_rank"].value_counts(dropna=False))

gender_code の値の種類

	count
1	3
2	2
3	1

member_rank の値の種類

	count
A	2
B	2
C	1
D	1

ここで、gender_code には 1、2、3 があり、member_rank には A、B、C、D があることがわかります。

この確認をせずに変換すると、「辞書に入れ忘れた値」があとから NaN として出てきて、原因がわかりにくくなることがあります。

value_counts() の基本は、pandas value_counts()の使い方でも詳しく解説しています。

辞書を使って数値コードをラベルに変換する

まずは、gender_code の 1 と 2 を、それぞれ 男性、女性 に変換します。

map() では、次のように「変換前の値」と「変換後の値」を辞書で用意します。

gender_map = {
    1: "男性",
    2: "女性"
}

df["gender_code"].map(gender_map)

	gender_code
0	男性
1	女性
2	男性
3	NaN
4	女性
5	男性

結果を見ると、1 は 男性、2 は 女性 に変換されています。

一方で、3 は辞書に含まれていないため、NaN になっています。
ここが map() で初心者がつまずきやすいポイントです。

元の値	辞書にあるか	`map()`後の値
`1`	ある	`男性`
`2`	ある	`女性`
`3`	ない	`NaN`

NaN は必ずしもエラーではありません。
「対応表にない値があった」というサインとして確認することが大切です。

map()で新しい列を作る

初心者のうちは、元の列をいきなり上書きするより、新しい列として追加するほうが安全です。

たとえば、gender_code はそのまま残し、変換後の値を gender_label という新しい列に入れます。

df["gender_label"] = df["gender_code"].map(gender_map)
df

	customer_id	gender_code	member_rank	purchase_amount	gender_label
0	101	1	A	1200	男性
1	102	2	B	3500	女性
2	103	1	C	5800	男性
3	104	3	A	900	NaN
4	105	2	D	1500	女性
5	106	1	B	4200	男性

新しい列に入れると、変換前と変換後を横に並べて確認できます。

方法	元データを残せるか	初心者におすすめか	確認しやすさ
既存列を上書きする	残らない	慣れてから	変換前を確認しにくい
新しい列を追加する	残る	おすすめ	変換前後を比べやすい

上書き自体が悪いわけではありません。
ただし、最初は gender_label のような新しい列を作るほうが、ミスに気づきやすくなります。

新しい列の作り方を広く確認したい場合は、pandasで新しい列を追加する方法も参考になります。

辞書にない値がNaNになる例

map() では、辞書にない値は元の値のまま残るのではなく、NaN になることがあります。

この性質は便利でもあります。
なぜなら、「対応表に入っていない値がある」と気づけるからです。

print("gender_label の欠損数")
display(df["gender_label"].isnull().sum())

print("gender_label の値の種類")
display(df["gender_label"].value_counts(dropna=False))

gender_label の欠損数

np.int64(1)

gender_label の値の種類

	count
男性	3
女性	2
NaN	1

この結果から、gender_label に NaN があることが確認できます。

今回のサンプルでは、gender_code の 3 を辞書に入れていないため、NaN になっています。
つまり、3 は「欠損値そのもの」ではなく、対応表にまだ登録していないコードとして扱います。

このように、map() 後は次の確認をすると安心です。

isnull().sum() で NaN の数を確認する
value_counts(dropna=False) で変換後の値を確認する
必要に応じて、辞書に値を追加するか、fillna() で補う

欠損値の確認や考え方は、Pandas info()とdescribe()の違いや pandas fillna()の使い方ともつながります。

fillna()で未対応コードを補う

辞書にない値を NaN のままにしたくない場合は、fillna() で補う方法があります。

今回は、gender_code の 3 を「未対応」として表示します。

df["gender_label"] = df["gender_code"].map(gender_map).fillna("未対応")
df

	customer_id	gender_code	member_rank	purchase_amount	gender_label
0	101	1	A	1200	男性
1	102	2	B	3500	女性
2	103	1	C	5800	男性
3	104	3	A	900	未対応
4	105	2	D	1500	女性
5	106	1	B	4200	男性

fillna("未対応") を使うことで、辞書にない値をわかりやすく表示できました。

ただし、すべての NaN を機械的に「未対応」にしてよいとは限りません。
本当に未対応コードなのか、入力ミスなのか、欠損値なのかは、データの意味を確認して判断する必要があります。

文字列のコードをカテゴリ名に変換する

次に、member_rank の A、B、C を会員ランク名に変換します。

ここでも、元の member_rank を残し、変換後の値を rank_label という新しい列にします。

rank_map = {
    "A": "通常会員",
    "B": "優良会員",
    "C": "VIP"
}

df["rank_label"] = df["member_rank"].map(rank_map)
df

	customer_id	gender_code	member_rank	purchase_amount	gender_label	rank_label
0	101	1	A	1200	男性	通常会員
1	102	2	B	3500	女性	優良会員
2	103	1	C	5800	男性	VIP
3	104	3	A	900	未対応	通常会員
4	105	2	D	1500	女性	NaN
5	106	1	B	4200	男性	優良会員

A、B、C は変換できましたが、D は辞書にないため NaN になっています。

ここでも、変換前後を確認しておきます。

print("rank_label の値の種類")
display(df["rank_label"].value_counts(dropna=False))

print("rank_label の欠損数")
display(df["rank_label"].isnull().sum())

rank_label の値の種類

	count
通常会員	2
優良会員	2
VIP	1
NaN	1

rank_label の欠損数

np.int64(1)

D を未分類として扱うなら、fillna("未分類") のように補うことができます。

df["rank_label"] = df["member_rank"].map(rank_map).fillna("未分類")
df

	customer_id	gender_code	member_rank	purchase_amount	gender_label	rank_label
0	101	1	A	1200	男性	通常会員
1	102	2	B	3500	女性	優良会員
2	103	1	C	5800	男性	VIP
3	104	3	A	900	未対応	通常会員
4	105	2	D	1500	女性	未分類
5	106	1	B	4200	男性	優良会員

これで、会員ランクのコードを読みやすいラベルに変換できました。

変換前の列	変換後の列	役割
`gender_code`	`gender_label`	性別コードをラベルに変換
`member_rank`	`rank_label`	会員ランクコードをラベルに変換

このように、map() は「コードの意味を人が読める形にする」前処理で役立ちます。

map()とreplace()の違い

迷ったら、コード値をラベルに変えるなら map()、表記ゆれを直すなら replace() と考えるとわかりやすいです。

map() と replace() はどちらも値を変える処理なので、混同しやすいです。

大きく分けると、次のように考えるとわかりやすいです。

比較	`map()`	`replace()`
主な使いどころ	対応表に従って1列を変換する	表記ゆれや特定の値を置換する
辞書にない値	`NaN` になりやすい	元の値が残ることが多い
例	`1 → 男性`、`A → 通常会員`	`tokyo → 東京`、`なし → NaN`
初心者向けの判断	コード値をラベルにしたいならこちら	表記ゆれを直したいならこちら

違いを確認するために、簡単な例を見てみます。

s = pd.Series([1, 2, 3])

mapping = {
    1: "男性",
    2: "女性"
}

print("map() の結果")
display(s.map(mapping))

print("replace() の結果")
display(s.replace(mapping))

map() の結果

	0
0	男性
1	女性
2	NaN

replace() の結果

	0
0	男性
1	女性
2	3

この例では、3 が辞書にありません。

map() では、3 が NaN になります
replace() では、3 がそのまま残ります

そのため、対応表にない値を見つけたい場合は map() が気づきやすいことがあります。
一方で、表記ゆれを一部だけ直したい場合は replace() のほうが自然なこともあります。

replace() の詳しい使い方は、pandas replace()の使い方で確認できます。

map()とastype()・merge()・apply()の違い

map() と似て見える処理も、目的が違います。

map()とastype()の違い

astype() は、値の意味を変えるのではなく、データ型を変えるためのメソッドです。

たとえば、文字列の "100" を数値の 100 に変えるような場面では astype() を使います。
一方、1 を 男性 に変えるように、値の意味をラベルへ変えるなら map() が向いています。

map()とmerge()の違い

小さな対応表を辞書で持てるなら、map() がシンプルです。

一方で、商品マスタ、店舗マスタ、顧客マスタのように、対応表が別のDataFrameとしてある場合は merge() が向いています。
本格的な表結合を学ぶ場合は、pandas mergeの使い方が近い内容です。

map()とapply()の違い

単純な対応変換なら、まずは map() で十分なことが多いです。

apply() は、複雑な関数を使いたいときに便利ですが、この記事では深入りしません。
初心者のうちは、まず「辞書で対応変換するなら map()」と覚えると迷いにくくなります。

文字列の「1」と数値の1は別物として扱われる

map() では、辞書のキーと列の値が一致している必要があります。

たとえば、列の値が文字列の "1" なのに、辞書のキーが数値の 1 だと、うまく変換されないことがあります。

df_type = pd.DataFrame({
    "gender_code": ["1", "2", "1", "3"]
})

gender_map_number_key = {
    1: "男性",
    2: "女性"
}

df_type["label_ng"] = df_type["gender_code"].map(gender_map_number_key)
df_type

	gender_code	label_ng
0	1	NaN
1	2	NaN
2	1	NaN
3	3	NaN

gender_code は見た目は 1 や 2 ですが、実際には文字列です。
そのため、数値の 1、2 をキーにした辞書では対応できず、NaN になります。

この場合は、辞書のキーを文字列にそろえるか、列の型を変換します。

gender_map_string_key = {
    "1": "男性",
    "2": "女性"
}

df_type["label_ok"] = df_type["gender_code"].map(gender_map_string_key).fillna("未対応")
df_type

	gender_code	label_ng	label_ok
0	1	NaN	男性
1	2	NaN	女性
2	1	NaN	男性
3	3	NaN	未対応

このように、map() でうまく変換できないときは、次の点を確認しましょう。

列の値が数値なのか文字列なのか
辞書のキーと列の値の型が合っているか
辞書にない値が含まれていないか
変換後に NaN が増えていないか

型の確認や変換は、pandas astype()の使い方とつながります。

map()後に集計へ進む

map() は、変換して終わりではありません。
読みやすいラベルに整えたあと、groupby() や可視化につなげると、分析結果がわかりやすくなります。

たとえば、会員ランク別に購入金額を集計してみます。

rank_summary = (
    df.groupby("rank_label", as_index=False)["purchase_amount"]
      .sum()
      .rename(columns={"purchase_amount": "total_purchase_amount"})
)

rank_summary

	rank_label	total_purchase_amount
0	VIP	5800
1	優良会員	7700
2	未分類	1500
3	通常会員	2100

member_rank の A、B、C、D のまま集計するより、通常会員、優良会員、VIP、未分類 のように表示されたほうが、結果を読み取りやすくなります。

このように、map() は次の流れの中で役立ちます。

CSVを読み込む
head() や info() で確認する
value_counts() で値の種類を見る
map() でコード値をラベルに変換する
必要に応じて fillna() や astype() で整える
groupby() やグラフで集計・可視化する

集計の基本は Pandas groupby×aggの使い方に進むと理解しやすくなります。
グラフ化まで進めたい場合は、Matplotlib 棒グラフ入門も関連します。

よくあるつまずきと確認ポイント

map() でうまく変換できないときは、次のポイントを確認してください。

つまずき	原因になりやすいこと	確認方法
変換後に`NaN`が出る	辞書にない値がある	`value_counts(dropna=False)`
すべて`NaN`になる	値の型と辞書のキーの型が違う	`info()` や `astype()`
元の値を残したい	既存列を上書きしている	新しい列に追加する
表記ゆれ修正をしたい	`map()`より`replace()`が向く場合がある	変換目的を確認する
別表の情報を付けたい	`map()`より`merge()`が向く場合がある	対応表がDataFrameか確認する

特に大切なのは、変換前と変換後の確認です。
map() のコードだけを見るのではなく、変換前後の表を見比べるとミスに気づきやすくなります。

まとめ

この記事では、pandas map() の使い方を、辞書で値を変換する前処理として解説しました。

重要なポイントは、次のとおりです。

map() は、1列の値を対応表に従って変換するときに使う
数値コードや文字列コードを、読みやすいラベルへ変換できる
初心者のうちは、元の列を上書きせず、新しい列として追加すると安全
辞書にない値は NaN になりやすい
NaN が出たら、エラーと決めつけず、対応表にない値があるサインとして確認する
map() 前後では、value_counts() や isnull().sum() で確認するとよい
表記ゆれ修正は replace()、型変換は astype()、別表との結合は merge() と使い分ける
map() で値を整えると、groupby() やグラフ化の結果が読みやすくなる

map() は派手な機能ではありませんが、CSVを読み込んだあとに「コード値を人が読める形に整える」ための大切な前処理です。
まずは、対応表で1列を変換する、コード値を辞書でラベルに変換するという使い方から覚えておくと、DataFrameの集計や可視化へ進みやすくなります。

次に読みたい関連記事

この記事の内容は、次の記事とつながっています。

▲ ページトップへ戻る

pandasのmap()は何をするメソッドですか？

map() は、Series、つまりDataFrameの1列の値を、辞書や関数などに従って別の値へ変換するメソッドです。
初心者向けには、まず「1列のコード値を対応表でラベルに変換する方法」と考えるとわかりやすいです。

map()とreplace()は何が違いますか？

map() は、対応表に従って1列を変換したいときに向いています。
replace() は、表記ゆれや特定の値を置換したいときに向いています。
たとえば、1 → 男性、2 → 女性 のようなコード変換なら map() が自然です。
一方、tokyo、Tokyo、TOKYO を 東京 にそろえるような表記ゆれ修正なら replace() が向いています。

map()で辞書にない値がNaNになるのはなぜですか？

map() は、辞書にあるキーを使って値を変換します。
そのため、辞書にない値は対応先が見つからず、NaN になることがあります。
これはエラーとは限らず、「対応表に登録していない値がある」というサインです。
value_counts(dropna=False) や isnull().sum() で確認しましょう。

map()で新しい列を作るにはどうすればよいですか？

次のように、変換結果を新しい列に代入します。
df["gender_label"] = df["gender_code"].map(gender_map)
初心者のうちは、元の列を上書きするより、新しい列を作って変換前後を確認する方法がおすすめです。

数値の1と文字列の”1″でmap()の結果は変わりますか？

変わることがあります。
map() では、列の値と辞書のキーが一致している必要があります。
列の値が文字列の "1" なら、辞書のキーも "1" にする必要があります。
数値の 1 をキーにした辞書では対応できず、NaN になることがあります。

map()とastype()は何が違いますか？

map() は、値の意味を別の値へ変換するために使います。
astype() は、データ型を変えるために使います。
たとえば、1 → 男性 は map()、"100" → 100 のような型変換は astype() と考えるとわかりやすいです。

map()とmerge()はどう使い分けますか？

小さな対応表を辞書で書けるなら、map() がシンプルです。
一方、対応表が別のDataFrameとしてある場合や、複数列をもとに結合したい場合は merge() が向いています。

map()したあとに結果を確認するにはどうすればよいですか？

次のような方法で確認できます。
df.head() で変換前後の列を確認する
value_counts(dropna=False) で変換後の値の種類を確認する
isnull().sum() で NaN の数を確認する
map() は変換して終わりではなく、変換後の確認までセットで行うと安全です。

The post pandas map()の使い方｜辞書で値を変換・新しい列を作る方法を初心者向けに解説 first appeared on Python Data Lab（Pythonデータラボ）.

pandas cut()の使い方｜bins・labelsで数値を区間分けする方法を解説

coin_collector — Fri, 01 May 2026 17:34:33 +0000

年齢、売上金額、点数のような数値データは、そのまま集計すると細かくなりすぎることがあります。

たとえば、年齢を1歳ごとに集計するよりも、10代・20代・30代のように分けた方が、全体の傾向を見やすい場面があります。売上金額も、1円単位で見るより、低価格・中価格・高価格のように価格帯で見た方が、分析しやすいことがあります。

このように、連続した数値を分析しやすい区間に分けたいときに使うのが、Pandasのpd.cut()です。

先に結論を言うと、pd.cut()は数値を「年代」「価格帯」「ランク」のようなカテゴリに分け、集計や可視化につなげるための前処理です。

たとえば、次のように考えると使いどころが分かりやすくなります。

元の数値列	`pd.cut()`で作る列	その後にできること
年齢	年代	年代別に人数や平均値を見る
点数	点数ランク	ランク別に人数を数える
購入金額	価格帯	価格帯ごとに集計する

pd.cut()は、数値をただ文字列に変える関数ではありません。細かい数値を、分析で使いやすいまとまりに変える関数です。

この記事でわかること
Pandas DataFrame入門シリーズの中での位置づけ
pd.cut()とは何か
pd.cut()の主な引数一覧
サンプルデータを作成する
年齢を年代に分ける基本例
binsとlabelsの対応関係
bins=3のように区間数だけ指定することもできる
自動分割の境界値を確認したいときはretbins=True
区間表示の小数が長いときはprecisionで見やすくできる
処理前→処理後で見るcut()の結果
value_counts()でカテゴリごとの件数を数える
pd.cut()で区間分けした結果を棒グラフで可視化する
groupby()でカテゴリ別に集計する
点数をランクに分ける例
売上金額・購入金額を価格帯に分ける例
cut()・qcut()・np.where()の使い分け
1. qcut()は「個数をなるべく均等に分ける」
2. np.where()は2択なら分かりやすい
境界値・NaN・よくあるミス
1. 境界値はどちらの区間に入るのか
2. right=Falseにすると左側の境界を含める
3. 最小値を含めたいときはinclude_lowest=True
4. NaNが出る主な理由
5. labelsの数が合わないとエラーになる
ヒストグラムのbinsとpd.cut()のbinsは同じですか？
データ分析の流れの中でのpd.cut()の位置づけ
まとめ：pd.cut()は数値を集計しやすいカテゴリに変える前処理
関連記事：次に読むと理解しやすい記事
1. カテゴリから探す
2. pandasのcut()は何をする関数ですか？
3. binsとlabelsは何を指定するものですか？
4. labelsの数はいくつにすればよいですか？
5. bins=3とは何ですか？
6. include_lowest=Trueはいつ使いますか？
7. pd.cut()でNaNが出るのはなぜですか？
8. 境界値の20や30はどちらの区間に入りますか？
9. right=Falseはいつ使いますか？
10. retbins=Trueはいつ使いますか？
11. precisionは何を指定するものですか？
12. cut()とqcut()の違いは何ですか？
13. np.where()とcut()はどう使い分けますか？
14. cut()で作ったカテゴリをvalue_counts()やgroupby()で使えますか？
15. cut()で作ったカテゴリをグラフで確認できますか？
16. ヒストグラムのbinsとpd.cut()のbinsは同じですか？

この記事でわかること

この記事では、pandas cut()の使い方を、初心者が迷いやすいポイントに絞って解説します。

pd.cut()がどんな場面で役立つか
binsとlabelsの意味
bins=3のように、区間数だけ指定して分ける方法
bins=3で区間表示に端数が出る理由
pd.cut()でよく使う主な引数一覧
retbins=Trueで自動分割された境界値を確認する方法
precisionで区間表示を見やすくするときの注意点
include_lowest=Trueやright=Falseで境界値を調整する方法
cut()、qcut()、np.where()の使い分け
pd.cut()で作ったカテゴリを棒グラフで確認する方法
NaNが出る理由と確認ポイント

最初に結論を言うと、pd.cut()は数値を分析しやすいカテゴリに変える前処理です。
年齢、点数、購入金額のような数値を、年代・ランク・価格帯として集計したいときに役立ちます。

Pandas DataFrame入門シリーズの中での位置づけ

このテーマは、Pandasの前処理と集計をつなぐ内容です。

まずhead()、info()、describe()でデータを確認し、必要に応じてastype()やfillna()で整えます。その後、年齢や売上のような数値列をpd.cut()でカテゴリ化すると、value_counts()やgroupby()で集計しやすくなります。

つまり、pd.cut()は次のような流れの中で使うと理解しやすいです。

DataFrameの確認 → 型・欠損値の確認 → 数値列を区間分け → 件数集計・グループ集計 → 可視化

pd.cut()とは何か

pd.cut()は、数値データを指定した区間ごとに分けるための関数です。

たとえば、次のような使い方ができます。

元の数値	`pd.cut()`で作るカテゴリ
18	10代以下
25	20代
34	30代
47	40代
62	50代以上

このように、細かい数値をそのまま使うのではなく、分析しやすいまとまりに変換するのがpd.cut()の役割です。

最初に判断基準を整理すると、次のようになります。

やりたいこと	向いている方法
数値を決まった範囲で分けたい	`pd.cut()`
データ数がなるべく均等になるように分けたい	`pd.qcut()`
2択の条件分岐をしたい	`np.where()`
条件に合う行だけ値を入れたい	`loc`
作ったカテゴリの件数を数えたい	`value_counts()`
作ったカテゴリごとに平均や合計を出したい	`groupby()`

この記事では、特に「年齢を年代に分ける」「点数をランクに分ける」「価格帯ごとに集計する」といった、初心者が実際に使いやすい例に絞って解説します。

pd.cut()の主な引数一覧

pd.cut()にはいくつかの引数がありますが、初心者が最初にすべてを暗記する必要はありません。

まずは、binsで区切り位置を決め、labelsで分かりやすい名前を付けると覚えると十分です。
そのうえで、境界値や自動分割で迷ったときに、right、include_lowest、retbins、precisionを確認します。

引数	意味	初心者がまず見るポイント
`x`	区間分けする数値データ	DataFrameの列を指定することが多い
`bins`	区切り位置、または区間数	最重要。`[0, 19, 29]`のようなリストや、`3`のような区間数を指定できる
`labels`	区間につける名前	「10代以下」「20代」など、読者に伝わる名前にする
`right`	右側の境界を含めるか	初期設定は`True`。境界値で迷うときに確認する
`include_lowest`	最初の区間の下限を含めるか	0点、0円、最小値を含めたいときに役立つ
`retbins`	実際に使われた境界値を返すか	`bins=3`のような自動分割で、境界値を確認したいときに使う
`precision`	区間ラベルに表示される境界値の桁数	自動分割の区間表示が長いときに見やすくする。元データを丸める指定ではない

この記事では、まず実務で使いやすいbinsとlabelsを中心に説明します。
その後で、必要に応じてright、include_lowest、retbins、precisionも確認します。

サンプルデータを作成する

まずは、Google Colabでそのまま実行できる小さなDataFrameを作ります。

今回は、名前、年齢、点数、購入金額を持つデータを使います。
年齢は年代分け、点数はランク分け、購入金額は価格帯分けに使います。

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "名前": ["佐藤", "田中", "鈴木", "高橋", "伊藤", "渡辺", "山本", "中村", "小林", "加藤"],
    "年齢": [18, 20, 24, 29, 30, 35, 42, 49, 55, 68],
    "点数": [45, 62, 78, 88, 91, 55, 73, 69, 82, 96],
    "購入金額": [800, 1500, 2400, 3200, 4800, 5200, 7600, 9100, 12000, 15000]
})

df

	名前	年齢	点数	購入金額
0	佐藤	18	45	800
1	田中	20	62	1500
2	鈴木	24	78	2400
3	高橋	29	88	3200
4	伊藤	30	91	4800
5	渡辺	35	55	5200
6	山本	42	73	7600
7	中村	49	69	9100
8	小林	55	82	12000
9	加藤	68	96	15000

このデータには、次の3つの数値列があります。

列名	この記事での使い方
年齢	年代に分ける
点数	ランクに分ける
購入金額	価格帯に分ける

数値列の型や欠損値を先に確認したい場合は、info()やdescribe()を使います。
型変換が必要な場合は、astype()で整えてからcut()を使うと安全です。

df.info()


RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   名前      10 non-null     object
 1   年齢      10 non-null     int64 
 2   点数      10 non-null     int64 
 3   購入金額    10 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 452.0+ bytes

df.describe()

	年齢	点数	購入金額
count	10.000000	10.000000	10.000000
mean	37.000000	73.900000	6160.000000
std	16.295875	16.400881	4703.237656
min	18.000000	45.000000	800.000000
25%	25.250000	63.750000	2600.000000
50%	32.500000	75.500000	5000.000000
75%	47.250000	86.500000	8725.000000
max	68.000000	96.000000	15000.000000

年齢を年代に分ける基本例

まずは、pd.cut()で年齢を年代に分けます。

基本形は次のように考えます。

pd.cut(分けたい数値列, bins=区切り位置, labels=区間名)

ここでは、年齢を次のように分けます。

年齢の範囲	ラベル
0〜19歳	10代以下
20〜29歳	20代
30〜39歳	30代
40〜49歳	40代
50〜100歳	50代以上

このように「自分で決めた範囲」で分けたいときに、pd.cut()が役立ちます。

age_bins = [0, 19, 29, 39, 49, 100]
age_labels = ["10代以下", "20代", "30代", "40代", "50代以上"]

df["年代"] = pd.cut(
    df["年齢"],
    bins=age_bins,
    labels=age_labels,
    include_lowest=True
)

df[["名前", "年齢", "年代"]]

	名前	年齢	年代
0	佐藤	18	10代以下
1	田中	20	20代
2	鈴木	24	20代
3	高橋	29	20代
4	伊藤	30	30代
5	渡辺	35	30代
6	山本	42	40代
7	中村	49	40代
8	小林	55	50代以上
9	加藤	68	50代以上

年齢列をもとに、年代列が新しく作られました。

ここでは、最初の区間の下限も含めるためにinclude_lowest=Trueを指定しています。今回のサンプルでは0歳はありませんが、実データでは最小値が区間から外れてNaNになるのを防ぎやすくなります。

ここで大切なのは、pd.cut()が「新しい列を作る関数」そのものではないことです。
実際には、pd.cut()で作った結果を、df["年代"] = ...のようにDataFrameへ保存しています。

新しい列を追加する基本を詳しく確認したい場合は、df['列名']やassign()を扱う記事とあわせて読むと理解しやすくなります。

binsとlabelsの対応関係

pd.cut()で初心者が迷いやすいのが、binsとlabelsの数です。

binsは区切り位置、labelsは区間につける名前です。
binsの数とlabelsの数は同じではありません。

たとえば、次のように指定した場合を考えます。

bins = [0, 19, 29, 39, 49, 100]
labels = ["10代以下", "20代", "30代", "40代", "50代以上"]

対応関係は次のようになります。

`bins`で作られる区間	`labels`
0以上19以下	10代以下
19より大きく29以下	20代
29より大きく39以下	30代
39より大きく49以下	40代
49より大きく100以下	50代以上

区切り点が6個あると、区間は5個できます。
そのため、labelsも5個必要です。

今回のように最初の区間の下限も含めたい場合は、include_lowest=Trueを指定しておくと安全です。たとえば、0歳や0点のような最小値を区間に含めたいときに役立ちます。

bins=3のように区間数だけ指定することもできる

binsには、区切り位置のリストだけでなく、区間の数を指定することもできます。

たとえば、次のように書くと、点数列を3つの区間に分けられます。

pd.cut(df["点数"], bins=3)

この書き方では、Pandasがデータの最小値と最大値をもとに、ほぼ同じ幅の区間を自動で作ります。
まず大まかに分布を分けて確認したいときには便利です。

ただし、自動分割では「60点以上は合格」「80点以上は高得点」のような意味のある基準になるとは限りません。
そのため、読者やチームに説明する列を作る場合は、自分でbins=[0, 59, 79, 100]のように区切り位置を指定し、labelsで名前を付ける方が分かりやすいです。

df["点数_3分割"] = pd.cut(df["点数"], bins=3)

df[["名前", "点数", "点数_3分割"]]

	名前	点数	点数_3分割
0	佐藤	45	(44.949, 62.0]
1	田中	62	(44.949, 62.0]
2	鈴木	78	(62.0, 79.0]
3	高橋	88	(79.0, 96.0]
4	伊藤	91	(79.0, 96.0]
5	渡辺	55	(44.949, 62.0]
6	山本	73	(62.0, 79.0]
7	中村	69	(62.0, 79.0]
8	小林	82	(79.0, 96.0]
9	加藤	96	(79.0, 96.0]

bins=3では、Pandasが最小値から最大値までをもとに、ほぼ同じ幅の区間へ分けます。

このとき、最小値や最大値をきちんと含めるために、区間の端が少し調整されることがあります。
そのため、表示される区間名が (44.949, 62.0] のように端数を含む形になり、初心者には少し読みづらく見える場合があります。

ここで大事なのは、bins=3は自動でざっくり3分割する指定だということです。
「要復習」「標準」「高得点」のように意味を持たせたい場合は、labelsを指定して分かりやすい名前を付けると読みやすくなります。

自動分割の境界値を確認したいときはretbins=True

bins=3のように区間数だけを指定した場合、Pandasが自動で区切り位置を決めます。

ただ、表示される区間だけを見ても、実際にどこで区切られているのか分かりにくいことがあります。
特に、区間表示に小数が出ている場合は、「なぜこの数字になったのか」が気になりやすいです。

その場合は、retbins=Trueを使うと、実際に使われた境界値を確認できます。

score_categories, score_bins = pd.cut(
    df["点数"],
    bins=3,
    retbins=True
)

score_bins

array([44.949, 62.   , 79.   , 96.   ])

retbins=Trueを指定すると、カテゴリ分けの結果と、実際に使われた境界値が返ります。

初心者のうちは必須ではありません。
ただし、bins=3のような自動分割を使ったときに、どこで区切られたのかを確認したい場合に便利です。

記事やレポートで結果を説明するなら、自動分割のまま使うより、境界値を確認したうえでbins=[0, 59, 79, 100]のように明示的な基準へ直す方が伝わりやすい場合もあります。

区間表示の小数が長いときはprecisionで見やすくできる

bins=3のような自動分割では、区間が小数で表示されることがあります。

たとえば、(44.949, 62.0]のような表示は、初心者には少し読みにくいかもしれません。
このようなときは、precisionで区間ラベルに表示される境界値の桁数を調整できます。

ただし、precisionは元データの点数を丸める指定ではありません。
あくまで、pd.cut()で作られる区間表示を見やすくするための指定だと考えると分かりやすいです。

分析の基準を明確にしたい場合は、precisionで見た目を整えるよりも、bins=[0, 59, 79, 100]のように自分で区切り位置を決め、labels=["要復習", "標準", "高得点"]のように名前を付ける方が実務では伝わりやすくなります。

pd.cut(df["点数"], bins=3, precision=1)

	点数
0	(44.9, 62.0]
1	(44.9, 62.0]
2	(62.0, 79.0]
3	(79.0, 96.0]
4	(79.0, 96.0]
5	(44.9, 62.0]
6	(62.0, 79.0]
7	(62.0, 79.0]
8	(79.0, 96.0]
9	(79.0, 96.0]

上の例では、区間表示が少し短くなります。

ただし、precisionを指定しても、元の点数列そのものが丸められるわけではありません。
また、「何点から何点までをどのランクにするか」という分析上の基準を決める指定でもありません。

そのため、初心者のうちは次のように使い分けると安全です。

やりたいこと	使う指定
自動分割の表示を少し見やすくしたい	`precision`
点数ランクや価格帯の基準を明確にしたい	`bins`をリストで指定する
読者に分かりやすい区間名を付けたい	`labels`を指定する

処理前→処理後で見るcut()の結果

pd.cut()の役割は、処理前と処理後で見ると分かりやすいです。

処理前	処理後
年齢だけがある	年齢から年代列が作られる
18	10代以下
24	20代
35	30代
49	40代
68	50代以上

コードでも、処理前と処理後を並べて確認してみます。

before_after = pd.DataFrame({
    "処理前_年齢": df["年齢"],
    "処理後_年代": df["年代"]
})

before_after

	処理前_年齢	処理後_年代
0	18	10代以下
1	20	20代
2	24	20代
3	29	20代
4	30	30代
5	35	30代
6	42	40代
7	49	40代
8	55	50代以上
9	68	50代以上

pd.cut()を使うと、数値列をそのまま残しつつ、分析用のカテゴリ列を追加できます。

年齢の数値そのものを消してしまうのではなく、年齢列と年代列の両方を残すと、あとから確認しやすくなります。

value_counts()でカテゴリごとの件数を数える

pd.cut()で年代列を作ったら、次に知りたくなるのは「各年代に何人いるか」です。

このときは、value_counts()を使います。

ここでの主役はpd.cut()で作ったカテゴリ列です。
value_counts()はカテゴリを作る関数ではなく、作ったカテゴリの件数を数える関数です。

df["年代"].value_counts(sort=False)

	count
年代
10代以下	1
20代	3
30代	2
40代	2
50代以上	2

sort=Falseを指定すると、カテゴリの順番に近い形で表示されます。

年代別の件数を見たい場合は、次のような流れになります。

pd.cut()で年代列を作る
value_counts()で年代ごとの件数を数える

件数集計そのものを詳しく学びたい場合は、value_counts()の記事に進むと理解しやすいです。

pd.cut()で区間分けした結果を棒グラフで可視化する

value_counts()で件数を確認できたら、棒グラフにすると「どの区間にデータが多いのか」をさらに確認しやすくなります。

ここで大切なのは、グラフが主役ではなく、pd.cut()で作ったカテゴリ列を確認するための補助として使うことです。

今回は、年代ごとの人数を棒グラフで見てみます。
なお、ColabやWordPressの表示環境によって日本語が文字化けすることを避けるため、グラフ用の横軸ラベルだけ英数字に置き換えています。元の年代列は日本語のままです。

import matplotlib.pyplot as plt

# pd.cut()で作った「年代」列を集計
age_counts = df["年代"].value_counts(sort=False)

# グラフ表示用に、横軸ラベルだけ英数字へ置き換える
age_counts_for_plot = age_counts.copy()
age_counts_for_plot.index = ["under_19", "20s", "30s", "40s", "50_plus"]

ax = age_counts_for_plot.plot(kind="bar")
ax.set_title("Count by age group")
ax.set_xlabel("Age group")
ax.set_ylabel("Count")

plt.tight_layout()
plt.show()

pd.cut()で作ったカテゴリの件数を棒グラフで確認する例

棒グラフにすると、pd.cut()で作ったカテゴリごとの人数を視覚的に確認できます。

表だけでも件数は分かりますが、グラフにすると「どの区間が多いのか」「少ない区間はどこか」が一目で分かりやすくなります。

ただし、この記事の主役はMatplotlibではありません。
まずは、pd.cut()でカテゴリ列を作り、value_counts()で件数を確認し、必要に応じて棒グラフで見やすくする、という流れで考えると十分です。

groupby()でカテゴリ別に集計する

pd.cut()で作ったカテゴリ列は、groupby()にも使えます。

たとえば、年代ごとに平均点や平均購入金額を見たい場合です。

df.groupby("年代", observed=True).agg(
    平均点=("点数", "mean"),
    平均購入金額=("購入金額", "mean"),
    人数=("名前", "count")
)

	平均点	平均購入金額	人数
年代
10代以下	45.0	800.000000	1
20代	76.0	2366.666667	3
30代	73.0	5000.000000	2
40代	71.0	8350.000000	2
50代以上	89.0	13500.000000	2

年代ごとに、平均点・平均購入金額・人数を集計できました。

このように、pd.cut()は集計の前準備として使うと便利です。
groupby()そのものが主役ではなく、ここでは集計しやすいカテゴリを先に作ることがポイントです。

ここでは、groupby()にobserved=Trueを指定しています。これは、カテゴリ列を集計するときに、実際にデータに存在するカテゴリを中心に表示するための指定です。初心者のうちは、pd.cut()で作ったカテゴリ列をgroupby()する場合は、この形で確認すれば大丈夫です。

点数をランクに分ける例

次に、点数をランクに分けてみます。

ここでは、点数を次の3つに分けます。

点数の範囲	ランク
0〜59点	要復習
60〜79点	標準
80〜100点	高得点

点数のように、一定の基準でランク分けしたい場合にもpd.cut()が使えます。

ここでは下限の0点も「要復習」に含めたいので、include_lowest=Trueを指定します。
この指定を入れておくと、binsの最初の値と同じデータがNaNになりにくくなります。

score_bins = [0, 59, 79, 100]
score_labels = ["要復習", "標準", "高得点"]

df["点数ランク"] = pd.cut(
    df["点数"],
    bins=score_bins,
    labels=score_labels,
    include_lowest=True
)

df[["名前", "点数", "点数ランク"]]

	名前	点数	点数ランク
0	佐藤	45	要復習
1	田中	62	標準
2	鈴木	78	標準
3	高橋	88	高得点
4	伊藤	91	高得点
5	渡辺	55	要復習
6	山本	73	標準
7	中村	69	標準
8	小林	82	高得点
9	加藤	96	高得点

点数をランクに分けると、1点ごとの差ではなく、全体の傾向を見やすくなります。

たとえば、どのランクの人数が多いかを確認できます。

df["点数ランク"].value_counts(sort=False)

	count
点数ランク
要復習	2
標準	4
高得点	4

売上金額・購入金額を価格帯に分ける例

購入金額や売上金額も、pd.cut()と相性がよい列です。

ここでは、購入金額を次のように価格帯に分けます。

購入金額の範囲	価格帯
0〜2,000円	低価格
2,001〜5,000円	中価格
5,001〜10,000円	高価格
10,001〜20,000円	かなり高い

金額をそのまま1円単位で集計するより、価格帯で見る方が傾向をつかみやすいことがあります。

購入金額でも、0円を下限として含めたい場合はinclude_lowest=Trueを指定しておくと安全です。
特に「0〜2,000円」のように表で説明している場合は、コード側も下限を含める形にそろえると読み手が迷いにくくなります。

price_bins = [0, 2000, 5000, 10000, 20000]
price_labels = ["低価格", "中価格", "高価格", "かなり高い"]

df["価格帯"] = pd.cut(
    df["購入金額"],
    bins=price_bins,
    labels=price_labels,
    include_lowest=True
)

df[["名前", "購入金額", "価格帯"]]

	名前	購入金額	価格帯
0	佐藤	800	低価格
1	田中	1500	低価格
2	鈴木	2400	中価格
3	高橋	3200	中価格
4	伊藤	4800	中価格
5	渡辺	5200	高価格
6	山本	7600	高価格
7	中村	9100	高価格
8	小林	12000	かなり高い
9	加藤	15000	かなり高い

作成した価格帯列を使うと、価格帯ごとの人数や平均点などを確認できます。

df.groupby("価格帯", observed=True).agg(
    人数=("名前", "count"),
    平均点=("点数", "mean"),
    平均年齢=("年齢", "mean")
)

	人数	平均点	平均年齢
価格帯
低価格	2	53.500000	19.000000
中価格	3	85.666667	27.666667
高価格	3	65.666667	42.000000
かなり高い	2	89.000000	61.500000

cut()・qcut()・np.where()の使い分け

pd.cut()に近いものとして、pd.qcut()やnp.where()があります。

ここで大切なのは、どれが上位互換という話ではなく、目的によって使い分けることです。

方法	向いている場面	初心者が迷いやすい点
`pd.cut()`	自分で決めた区間で分けたい	`bins`と`labels`の数、境界値
`pd.qcut()`	データ数がなるべく均等になるように分けたい	等間隔ではなく、件数が基準になる
`np.where()`	2択の条件分岐をしたい	条件が増えると読みにくくなりやすい
`loc`	条件に合う行だけ値を入れたい	複数条件を書くときに少し複雑になる

年齢を「10代・20代・30代」のように、自分で決めた範囲で分けたいならcut()が分かりやすいです。

一方で、点数を「人数がなるべく同じになるように3グループへ分けたい」という場合は、qcut()が候補になります。

qcut()は「個数をなるべく均等に分ける」

qcut()は、区間の幅を自分で決めるというより、データの個数がなるべく均等になるように分けます。

ここでは、詳しい使い方には深入りせず、cut()との考え方の違いだけ確認します。

df["点数_qcut_3分割"] = pd.qcut(df["点数"], q=3, labels=["低め", "中くらい", "高め"])

df[["名前", "点数", "点数_qcut_3分割"]]

	名前	点数	点数_qcut_3分割
0	佐藤	45	低め
1	田中	62	低め
2	鈴木	78	中くらい
3	高橋	88	高め
4	伊藤	91	高め
5	渡辺	55	低め
6	山本	73	中くらい
7	中村	69	低め
8	小林	82	中くらい
9	加藤	96	高め

qcut()では、点数の区間幅が同じになるとは限りません。
「各グループに入るデータ数をなるべく近づけたい」ときに使います。

一方、この記事の主役であるcut()は、自分で決めた区間で分けたいときに使います。

np.where()は2択なら分かりやすい

たとえば、点数が60点以上なら「合格」、それ以外なら「要復習」とするだけなら、np.where()でも分かりやすく書けます。

df["合否"] = np.where(df["点数"] >= 60, "合格", "要復習")

df[["名前", "点数", "合否"]]

	名前	点数	合否
0	佐藤	45	要復習
1	田中	62	合格
2	鈴木	78	合格
3	高橋	88	合格
4	伊藤	91	合格
5	渡辺	55	要復習
6	山本	73	合格
7	中村	69	合格
8	小林	82	合格
9	加藤	96	合格

ただし、「要復習・標準・高得点」のように複数の数値区間に分けたい場合は、pd.cut()の方が読みやすくなりやすいです。

2択ならnp.where()、複数の数値区間ならpd.cut()と考えると、初心者でも判断しやすくなります。

境界値・NaN・よくあるミス

pd.cut()で特につまずきやすいのは、次の3つです。

境界値がどちらの区間に入るか
NaNが出る理由
binsとlabelsの数が合わないエラー

順番に確認します。

境界値はどちらの区間に入るのか

pd.cut()は、初期設定では右側の境界を含みます。
つまり、right=Trueが標準です。

たとえば、bins=[0, 19, 29, 39]の場合、基本的には次のように考えます。

値	入る区間のイメージ
19	10代以下
20	20代
29	20代
30	30代

実際に確認してみます。

boundary_df = pd.DataFrame({
    "年齢": [19, 20, 29, 30, 39]
})

boundary_df["年代"] = pd.cut(
    boundary_df["年齢"],
    bins=[0, 19, 29, 39],
    labels=["10代以下", "20代", "30代"]
)

boundary_df

	年齢	年代
0	19	10代以下
1	20	20代
2	29	20代
3	30	30代
4	39	30代

このように、境界値を含む場合は、実際に小さなデータで確認すると安心です。

「20は20代に入るのか」「30は30代に入るのか」と迷ったときは、境界値だけのDataFrameを作って試すのがおすすめです。

right=Falseにすると左側の境界を含める

初期設定のright=Trueでは、右側の境界を含みます。
一方で、right=Falseを指定すると、左側の境界を含む形になります。

たとえば、年齢を次のように考えたい場合です。

区間の考え方	例
20以上30未満	20代
30以上40未満	30代

このように、「20歳以上30歳未満」のような表現にしたいときは、right=Falseが分かりやすいです。

right_false_df = pd.DataFrame({
    "年齢": [19, 20, 29, 30, 39, 40]
})

right_false_df["年代_right_false"] = pd.cut(
    right_false_df["年齢"],
    bins=[0, 20, 30, 40],
    labels=["20歳未満", "20代", "30代"],
    right=False
)

right_false_df

	年齢	年代_right_false
0	19	20歳未満
1	20	20代
2	29	20代
3	30	30代
4	39	30代
5	40	NaN

right=Falseにすると、20は「20代」、30は「30代」に入ります。
ただし、最後の区間は「30以上40未満」になるため、40は範囲外となりNaNになります。

このように、right=Falseを使う場合も、最大値が区間から外れていないかを確認することが大切です。
迷ったときは、実データの最小値・最大値と、境界値だけを小さなDataFrameで確認すると安全です。

最小値を含めたいときはinclude_lowest=True

pd.cut()では、最初の区間の左端が含まれないことで迷う場合があります。

たとえば、0点を含めたいときには、include_lowest=Trueを指定すると分かりやすくなります。

score_check = pd.DataFrame({
    "点数": [0, 1, 59, 60]
})

score_check["ランク_include_lowestなし"] = pd.cut(
    score_check["点数"],
    bins=[0, 59, 100],
    labels=["要復習", "合格"]
)

score_check["ランク_include_lowestあり"] = pd.cut(
    score_check["点数"],
    bins=[0, 59, 100],
    labels=["要復習", "合格"],
    include_lowest=True
)

score_check

	点数	ランク_include_lowestなし	ランク_include_lowestあり
0	0	NaN	要復習
1	1	要復習	要復習
2	59	要復習	要復習
3	60	合格	合格

0点のように、最初の区切り位置そのものを含めたい場合は、include_lowest=Trueを検討します。

特に点数、金額、年齢のように最小値が意味を持つデータでは、最小値がNaNになっていないか確認しましょう。

NaNが出る主な理由

pd.cut()でNaNが出る主な理由は、次のとおりです。

原因	例
`bins`の最小値より小さい	`bins`が0からなのに、値が-1
`bins`の最大値より大きい	`bins`が100までなのに、値が120
元の値が欠損している	元データが`NaN`
境界値が含まれていない	最小値0が区間に入っていない
`right=False`で最後の境界値が外れる	40未満の区間に40が入らない

実際に、binsの範囲外の値がある例を確認します。

nan_df = pd.DataFrame({
    "点数": [-5, 0, 50, 85, 120, np.nan]
})

nan_df["ランク"] = pd.cut(
    nan_df["点数"],
    bins=[0, 59, 79, 100],
    labels=["要復習", "標準", "高得点"],
    include_lowest=True
)

nan_df

	点数	ランク
0	-5.0	NaN
1	0.0	要復習
2	50.0	要復習
3	85.0	高得点
4	120.0	NaN
5	NaN	NaN

この例では、-5や120は指定したbinsの範囲外なのでNaNになります。
元の値がNaNの場合も、結果はNaNになります。

pd.cut()でNaNが出たときは、まず次の点を確認しましょう。

binsの範囲がデータ全体をカバーしているか
最小値を含める必要があるか
元データに欠損値があるか

labelsの数が合わないとエラーになる

labelsの数は、区間の数と同じにする必要があります。

たとえば、bins=[0, 59, 79, 100]なら区間は3つなので、labelsも3つ必要です。

次のコードでは、あえてlabelsの数を間違えて、どのようなエラーになるかを確認します。
エラーでNotebookが止まらないように、tryとexceptで表示だけ行います。

try:
    pd.cut(
        df["点数"],
        bins=[0, 59, 79, 100],
        labels=["要復習", "標準"]  # 本来は3つ必要
    )
except ValueError as e:
    print("エラー内容:")
    print(e)

エラー内容:
Bin labels must be one fewer than the number of bin edges

このようなエラーが出た場合は、binsから作られる区間の数と、labelsの数が合っているかを確認します。

覚え方は次のとおりです。

labelsの数 = binsの数 - 1

ただし、これは基本的な考え方です。細かいオプションを使う場合は例外もあるため、初心者のうちはまず基本形で覚えるのがおすすめです。

ヒストグラムのbinsとpd.cut()のbinsは同じですか？

ヒストグラムにもbinsという言葉が出てきます。
pd.cut()にもbinsがあります。

どちらも「数値を区間で分ける」という考え方は近いです。
ただし、目的が少し違います。

項目	目的
ヒストグラムの`bins`	分布をグラフで見る
`pd.cut()`の`bins`	区間カテゴリをデータ列として作る

ヒストグラムは、数値の分布を可視化したいときに使います。
pd.cut()は、区間ごとのカテゴリ列を作り、その後のvalue_counts()やgroupby()につなげたいときに使います。

分布をグラフで確認したい場合は、ヒストグラムや箱ひげ図の記事に進むと理解しやすくなります。

データ分析の流れの中でのpd.cut()の位置づけ

pd.cut()は、単独で覚えるよりも、データ分析の流れの中で考えると使いどころが分かりやすくなります。

流れ	使う操作の例	目的
データを確認する	`head()`、`info()`、`describe()`	列・型・欠損値・分布を確認する
データを整える	`astype()`、`fillna()`、`replace()`	型や欠損値、表記ゆれを整える
数値をカテゴリ化する	`pd.cut()`	年代・価格帯・ランクを作る
件数を確認する	`value_counts()`	カテゴリごとの数を見る
集計する	`groupby()`	カテゴリごとに平均や合計を見る
可視化する	ヒストグラム、棒グラフ	分布やカテゴリ別の違いを見る

この記事の主役は、3つ目の「数値をカテゴリ化する」部分です。

列を作る方法そのものを詳しく知りたい場合は「新しい列を追加する方法」、カテゴリごとの件数を詳しく知りたい場合は「value_counts()」、カテゴリ別の平均や合計を出したい場合は「groupby×agg」に進むと、学習の流れがつながります。

まとめ：pd.cut()は数値を集計しやすいカテゴリに変える前処理

この記事では、pandas cut()の使い方を、年齢・点数・購入金額の例で解説しました。

大事なポイントを整理します。

pd.cut()は、連続した数値を区間ごとのカテゴリに分ける関数
binsは区切り位置、labelsは区間名
bins=3のように区間数だけ指定することもできる
bins=3では、Pandasがデータの最小値と最大値をもとに、ほぼ同じ幅の区間を自動で作る
自動分割では、区間表示に端数が出ることがある
retbins=Trueを使うと、自動分割された境界値を確認できる
precisionは、区間表示を見やすくする指定であり、元データを丸める指定ではない
labelsの数は、基本的にbinsの数より1つ少なくする
年齢を年代、点数をランク、金額を価格帯に分けると集計しやすくなる
cut()で作ったカテゴリは、value_counts()やgroupby()に使える
value_counts()の結果を棒グラフにすると、カテゴリごとの違いを視覚的に確認できる
qcut()は、データ数がなるべく均等になるように分けたいときの候補
2択ならnp.where()、複数の数値区間ならpd.cut()が分かりやすい
NaNが出たら、binsの範囲、元データの欠損、境界値、rightの指定を確認する
下限の0点・0円などを区間に含めたい場合は、include_lowest=Trueを指定すると安全
「20以上30未満」のように左側を含めたい場合は、right=Falseも候補になる

pd.cut()は、派手な関数ではありませんが、数値データを「分析しやすい形」に変えるためにとても便利です。

CSVを読み込んだあと、年齢・点数・売上金額のような数値列を見つけたら、まずは「そのまま集計するのか」「区間に分けた方が見やすいのか」を考えてみてください。

Pandasデータ抽出・前処理入門｜loc, iloc, isin, dropの使い方まとめ | Python Data Lab（Pythonデータラボ）

pandas between()の使い方｜数値・日付を範囲で抽出する方法

この記事でわかること

やりたいこと別：between()を使う場面

サンプルデータを用意する

数値を範囲で抽出する方法

まずbetween()で範囲内かどうかを判定する

判定結果を使って行を抽出する

日付を範囲で抽出する方法

inclusiveで数値や日付の範囲の境界値を含める・含めない設定

範囲抽出で欠損値があるときの注意点

between()と>=・<=・query()・cut()の違い

query()で書く場合

cut()は抽出ではなく分類に使う

between()を使わない場面も確認しておく

抽出したデータを集計して確認する

必要に応じてグラフで確認する

よくあるミスと確認ポイント

between()は前処理・抽出で使う

まとめ：between()は数値・日付の範囲抽出を読みやすくする方法

次に読みたい関連記事

カテゴリから探す

pandasのbetween()は何をするメソッドですか？

between()は境界値を含みますか？

between()で日付の範囲抽出はできますか？

between()と>=・<=は何が違いますか？

between()とquery()はどちらを使えばよいですか？

between()とcut()は何が違いますか？

範囲抽出で欠損値があるとき、between()はどうなりますか？

文字列の数字にbetween()を使ってもよいですか？

pandas select_dtypes()の使い方｜データ型で列を選ぶ方法を初心者向けに解説

この記事でわかること

まずdtypesで型を確認してからselect_dtypes()を使う

select_dtypes()とは？

まずはサンプルデータを作る

まずは変換前のデータで数値列だけを選んでみる

売上を数値型に変換する

変換後に数値列だけを選ぶ：include=”number”

文字列が入っている列だけを選ぶ：include=[“object”, “string”]

object型を選ぶときの注意

日付列だけを選ぶ：include=”datetime”

補足：category列やbool列も選べる

excludeで特定の型を除外する

select_dtypes()で次の処理に進みやすくする

まとめ

カテゴリから探す

pandasで数値列だけ抽出するにはどうすればよいですか？

pandasで文字列が入っている列だけ選ぶにはどうすればよいですか？

日付列だけを選ぶことはできますか？

select_dtypes()で型は変換できますか？

うまく列が選ばれないときは何を確認すればよいですか？

includeとexcludeを同時に使うときの注意はありますか？

pandas to_numeric()の使い方｜文字列の数字を数値に変換する方法

この記事でわかること

Pandas前処理の中での位置づけ

まず結論：to_numeric()は「計算できる数値」に変換するために使う

数字に見えるのに計算できない例

to_numeric()の基本的な使い方

複数列をまとめて数値に変換したい場合

処理前後で見る：文字列の数字が数値になる

変換できない値が混ざるとエラーになる

errors=”coerce”で変換できない値をNaNにする

NaNになった行を確認する

errorsの違いを軽く整理する

to_numeric()とastype()の違い

カンマ入り数値や「円」付きの金額を数値化する

変換後のNaNをどう扱うか

数値化できると集計や可視化に進みやすくなる

補足：グラフを日本語表示したい場合

すべてのobject型を数値化すればよいわけではない

よくあるミスと確認ポイント

まとめ

次に読みたい関連記事

カテゴリから探す

to_numeric()とastype()は何が違いますか？

errors=”coerce”とは何ですか？

to_numeric()でNaNになるのはなぜですか？

カンマ入りの「1,000」はそのまま数値にできますか？

「円」が付いた金額はどうすればよいですか？

read_csvで読み込んだ列がobject型になるのはなぜですか？