データの種類と尺度
データ分析では、最初に「どのようなデータを扱っているか」を確認することが重要です。
平均を計算してよいデータなのか、割合で見るべきデータなのか、順序だけを扱うべきデータなのかによって、使える分析手法は変わります。
品質管理でも同じです。
寸法、重量、強度、温度、作業時間、不良分類、官能評価、アンケート結果などは、すべて同じように扱えるわけではありません。
1. 試験での出題場面
データの種類と尺度は、統計学習の入口であり、データサイエンティスト検定でも重要な基礎です。
| 試験・学習領域 | 問われ方 |
|---|---|
| データサイエンティスト検定 | データの種類、構造化データ、カテゴリデータ、数値データの理解 |
| 統計検定 | 量的変数、質的変数、離散型、連続型、尺度水準 |
| QC検定 | 測定値データ、計数値データ、層別、パレート図、ヒストグラム |
| 技術士 経営工学部門 | データ収集計画、KPI設計、分析手法の妥当性説明 |
分析手法は、データの性質に合わせて選ぶ必要があります。
2. データ行列とは
データ分析では、データを表形式で整理することが多いです。
このような形式をデータ行列と呼びます。
| 観測単位 | 寸法 | 重量 | 判定 | ライン |
|---|---|---|---|---|
| 製品1 | 10.1 | 25.2 | 合格 | A |
| 製品2 | 9.8 | 24.9 | 合格 | A |
| 製品3 | 10.8 | 26.1 | 不合格 | B |
このとき、行は観測単位、列は変数です。
| 用語 | 意味 |
|---|---|
| 観測単位 | データを記録する対象。製品、人、設備、注文、工程など |
| 変数 | 観測単位について測定・記録した項目 |
| 値 | 各変数に入る具体的なデータ |
3. 数値データとカテゴリデータ
データは大きく、数値データとカテゴリデータに分けられます。
| 種類 | 意味 | 例 |
|---|---|---|
| 数値データ | 数として大小や差を扱えるデータ | 寸法、重量、温度、時間、売上 |
| カテゴリデータ | 分類や属性を表すデータ | 不良分類、ライン名、合否、顧客区分 |
数値データは平均や標準偏差を計算できます。
一方、カテゴリデータでは平均値よりも、件数、割合、最頻値、クロス集計などが重要になります。
4. 離散データと連続データ
数値データは、さらに離散データと連続データに分けられます。
| 種類 | 意味 | 例 |
|---|---|---|
| 離散データ | とびとびの値を取るデータ | 不良数、件数、人数、個数 |
| 連続データ | 連続的な値を取るデータ | 寸法、重量、時間、温度、強度 |
品質管理では、測定値データと計数値データの違いとして理解すると実務に接続しやすくなります。
| QCでの見方 | 統計での見方 | 例 |
|---|---|---|
| 測定値データ | 連続データ | 寸法、重量、強度 |
| 計数値データ | 離散データ・カテゴリデータ | 不良数、不良率、欠点数 |
5. 尺度水準
尺度とは、データがどの程度の意味を持つ数値・分類なのかを表す考え方です。
代表的な尺度は、名義尺度、順序尺度、間隔尺度、比例尺度です。
| 尺度 | 意味 | 例 | 主な扱い方 |
|---|---|---|---|
| 名義尺度 | 分類だけに意味がある | ライン名、不良分類、血液型 | 件数、割合、最頻値 |
| 順序尺度 | 順序に意味がある | 満足度、評価ランク、官能評価 | 中央値、順位、分布 |
| 間隔尺度 | 差に意味があるが、0が絶対的ではない | 摂氏温度、偏差値 | 平均、標準偏差 |
| 比例尺度 | 差と比に意味があり、0が絶対的 | 長さ、重量、時間、金額 | 平均、標準偏差、比率 |
尺度を誤ると、分析結果の解釈を間違えます。
たとえば、満足度1〜5のような順序尺度を平均して扱うことは実務上よくありますが、本来は「1と2の差」と「4と5の差」が同じとは限らない点に注意が必要です。
6. インタラクティブ教材
以下の教材では、データ例を選ぶと、データの種類、尺度、使いやすい代表値、適したグラフ、注意点を確認できます。
7. 品質管理での使い方
品質管理では、データの種類に応じて使う道具が変わります。
| データ例 | データの種類 | 使いやすいQC手法 |
|---|---|---|
| 寸法・重量・強度 | 連続データ | ヒストグラム、管理図、工程能力 |
| 不良数・欠点数 | 離散データ | パレート図、np管理図、c管理図 |
| 合格・不合格 | カテゴリデータ | 不良率、p管理図、クロス集計 |
| 不良分類 | 名義尺度 | パレート図、層別、特性要因図 |
| 官能評価ランク | 順序尺度 | 中央値、箱ひげ図、順位比較 |
重要なのは、データを取る前に「どのように分析するか」を考えることです。
8. 技術士答案での使い方
技術士答案では、データ収集や分析手法の妥当性を説明する場面で使えます。
たとえば、次のように書けます。
品質問題の実態把握にあたっては、寸法や強度などの測定値データと、不良件数や不良分類などの計数値データを区別して収集する。測定値データにはヒストグラムや管理図を適用し、工程のばらつきと安定性を把握する。一方、計数値データにはパレート図や層別を用い、重点的に対策すべき不良モードを特定する。
このように、データの性質に応じた分析手法を選んでいることを示すと、経営工学的な妥当性が高まります。
9. 実務・QMS改善への活用
QMS改善では、データの取り方そのものが改善活動の質を左右します。
| 実務場面 | 注意点 |
|---|---|
| 検査データ収集 | 測定値なのか、合否判定なのかを区別する |
| 不良分析 | 不良分類の定義を統一する |
| 顧客満足度調査 | 順序尺度として解釈に注意する |
| 工程改善 | 管理したい特性が測定値か計数値かを確認する |
| KPI設計 | 指標が件数、割合、金額、時間のどれかを明確にする |
データの種類を整理することは、分析の前処理であり、QMSの標準化でもあります。
10. 理解度チェック
解答を見る
数値データは、寸法や重量のように数として大小や差を扱えるデータです。カテゴリデータは、不良分類やライン名のように分類や属性を表すデータです。
解答を見る
不良分類は名義尺度に近いです。分類名に順序や大小はなく、件数、割合、最頻値、パレート図などで扱うのが基本です。
解答を見る
満足度1〜5は順序尺度として扱うのが基本です。順序には意味がありますが、1と2の差、4と5の差が同じとは限らないため、平均値だけでなく分布や中央値も確認する必要があります。