記述統計とは何か
記述統計とは、手元にあるデータを整理し、全体像を把握するための方法です。
データ分析では、いきなり高度な分析を行うのではなく、まずデータを眺め、要約し、分布やばらつきを確認することが重要です。
品質管理や生産管理でも同じです。
不良率、寸法データ、検査値、作業時間、設備停止時間などを分析するとき、最初に行うべきことは「データがどのような状態にあるか」を把握することです。
1. 試験での出題場面
記述統計は、データサイエンティスト検定、統計検定、QC検定、技術士試験のすべてに関係します。
| 試験・学習領域 | 問われ方 |
|---|---|
| データサイエンティスト検定 | データを読む、可視化する、基礎統計量を理解する |
| 統計検定 | 平均、中央値、分散、標準偏差、四分位数、ヒストグラム |
| QC検定 | 工程データの要約、ばらつき、ヒストグラム、層別 |
| 技術士 経営工学部門 | データに基づく現状把握、課題抽出、改善効果の説明 |
記述統計は、統計学習の入口であると同時に、実務で最も使う頻度が高い領域です。
2. 記述統計と推測統計の違い
統計は、大きく分けると記述統計と推測統計に分けられます。
| 区分 | 目的 | 例 |
|---|---|---|
| 記述統計 | 手元のデータを整理・要約する | 平均値、中央値、ヒストグラム |
| 推測統計 | 標本から母集団の特徴を推測する | 信頼区間、仮説検定、回帰分析 |
記述統計は、目の前にあるデータそのものを説明する方法です。
一方、推測統計は、限られた標本から母集団の性質を推測したり、差や効果が偶然かどうかを判断したりする方法です。
たとえば、ある工場で今月生産した100個の寸法データを整理するなら記述統計です。
一方、その100個をもとに、今後生産される全製品の寸法分布や不良率を推定するなら推測統計です。
3. 代表値:平均・中央値・最頻値
データの中心を表す値を代表値と呼びます。
代表的なものは、平均値、中央値、最頻値です。
| 指標 | 意味 | 特徴 |
|---|---|---|
| 平均値 | 全データを合計して個数で割った値 | 外れ値の影響を受けやすい |
| 中央値 | データを小さい順に並べた中央の値 | 外れ値の影響を受けにくい |
| 最頻値 | 最も多く出現する値 | カテゴリデータでも使いやすい |
4. 平均値だけで判断してはいけない理由
平均値は便利ですが、万能ではありません。
たとえば、次の2つの工程を考えます。
| 工程 | データ |
|---|---|
| 工程A | 49, 50, 50, 51, 50 |
| 工程B | 40, 45, 50, 55, 60 |
どちらも平均は50です。
しかし、工程Aは安定しており、工程Bはばらつきが大きい状態です。
このように、平均値だけでは工程の安定性や品質リスクを判断できません。
品質管理では、平均と同時にばらつきを見ることが重要です。
5. 分位数と四分位数
分位数は、データを小さい順に並べたとき、特定の位置にある値です。
代表的なものが四分位数です。
| 指標 | 意味 |
|---|---|
| 第1四分位数 | 下位25%の位置にある値 |
| 中央値 | 50%の位置にある値 |
| 第3四分位数 | 下位75%の位置にある値 |
| 四分位範囲 | 第3四分位数 − 第1四分位数 |
四分位数を見ると、データの中心だけでなく、広がりや偏りも確認できます。
たとえば、在庫金額や顧客単価を分析するとき、上位25%、中央50%、下位25%に分けることで、重点管理すべき対象を見つけやすくなります。
6. 度数分布とヒストグラム
度数とは、ある範囲に入るデータの個数です。
度数分布は、データをいくつかの階級に分け、それぞれの階級に何個のデータが入るかをまとめたものです。
ヒストグラムは、度数分布を棒グラフで表したものです。
品質管理では、ヒストグラムを見ることで次のようなことが分かります。
- データがどの範囲に集中しているか
- 分布が左右対称か、偏っているか
- 規格外が発生しそうか
- 複数の山があり、工程が混ざっていないか
- 外れ値が存在していないか
7. インタラクティブ教材
以下の教材では、データを変更しながら、平均値、中央値、標準偏差、ヒストグラムがどのように変化するかを確認できます。
8. 技術士答案での使い方
技術士答案では、記述統計を細かく説明する必要はありません。
重要なのは、現状把握や課題抽出にどのように使うかを示すことです。
たとえば、次のように使えます。
まず、検査データを収集し、平均値・標準偏差・ヒストグラムにより工程の中心とばらつきを把握する。平均値だけでなく分布形状や外れ値を確認することで、慢性的なばらつきなのか、特定条件による異常なのかを切り分ける。その上で、層別や管理図により重点的に改善すべき工程を特定する。
このように書くと、単なる「データを見る」ではなく、経営工学的な改善プロセスとして説明できます。
9. 実務・QMS改善への活用
記述統計は、QMS改善の出発点です。
| 実務場面 | 見るべき指標 |
|---|---|
| 不良率の確認 | 件数、割合、推移 |
| 寸法ばらつきの確認 | 平均、標準偏差、ヒストグラム |
| 作業時間のばらつき確認 | 平均、中央値、四分位数 |
| 設備停止時間の分析 | 最大値、中央値、外れ値 |
| 顧客クレーム分析 | 件数、最頻値、層別 |
| 在庫分析 | 分位数、ABC分類、偏り |
実務では、最初から複雑な分析をするよりも、まず記述統計で全体像を確認することが重要です。
10. 理解度チェック
解答を見る
平均値は全データの合計を個数で割った値です。中央値はデータを小さい順に並べたときの中央の値です。平均値は外れ値の影響を受けやすく、中央値は外れ値の影響を受けにくい特徴があります。
解答を見る
平均値が同じでも、ばらつきの大きさが異なる場合があるためです。ばらつきが大きい工程では、平均が規格中心に近くても規格外が発生する可能性があります。
解答を見る
データの集中範囲、分布の偏り、山の数、外れ値、規格外の可能性などを確認します。品質管理では、工程が安定しているか、複数条件のデータが混ざっていないかを見るために使います。
11. 関連リンク
- データの種類と尺度
- ヒストグラムと分布の見方
- 標準偏差とばらつき
- ヒストグラムと分布の見方
- 正規分布と標準化
- 管理図と統計的工程管理
- 工程能力指数 Cp・Cpk