【看護学博士が解説する看護研究のための統計】データの種類と代表値(平均)【part2】

この記事では、看護学研究のための統計学について、主に初学者向けに解説していこうと思います。主な対象は大学院修士課程や、臨床で量的に研究をしてみたいという方で、かつきちんと基本を理解したいという方向けです。とりあえず理解は置いておいて、結果が得られれば良いという方は、安価な別の教科書を参考にすることをお勧めします。


統計で用いられるデータの種類と特徴

私たちが入手できるデータは、いくつかの種類に分類される(表1)。

各データの特徴は以下の通りである。

比率データ(比率尺度)

加減乗除が可能で、絶対的0点を有する。絶対的0点とは、例えば質量であれば0gは重さ0、つまり重さが存在しないことを意味し、長さ0cmであれば長さが存在しないことを意味する。この種のデータは加減乗除が可能で、Aさんの体重が40kg、Bさんの体重が80kgのとき、「Aさんの体重はBさんの体重の半分である」と解釈することが可能である。

間隔データ(間隔尺度)

加減が可能で、絶対的0点を有しない。例えば室温0℃は、表現上「0」であるが室温が存在しないわけではない。比率データと異なり、乗除ができない。室温15℃と30℃の部屋A、Bがあったとして、「部屋Aは部屋Bよりも半分寒い」と解釈することはできない。

順位データ(順位尺度)

加減乗除ができず、大小関係のみ解釈ができる。例えばマラソンの順位は、1位、2位、3位…と速くゴールした順番は判断できるが、「3位の人は1位の人より3倍遅い」と解釈することはできないし、1位と2位が僅差で2位と3位がだいぶ離れていた場合、順位は判断できるが「マラソンの速さ」は具体的には解釈できない。

カテゴリーデータ(名義尺度)

加減乗除に加え、大小関係も解釈できない。便宜的に男性を1、女性を2としたデータなどがこの種類のデータに該当する。この場合、付与された数字にデータとしての意味はなく、分類のためだけに与えられている。

 一般的に比率データが最も情報量が多く、カテゴリデータは最も情報量が少ないといわれている。例えば健康診断データにおける「血圧」を考えるとわかりやすい。「血圧値」そのものは比率データとして扱うことができ、研究目的等に合わせて、「社内で血圧が高い順」に並び替え順位を付与すると順位データに変換できるし、「正常/異常」とラベリングした場合はカテゴリデータに変換できる。しかし、もともと「正常/異常」とカテゴリデータで収集されたデータの場合、そこから社内で何番目に高いか、あるいは具体的に血圧値がいくつであったのかはわからない。

特に社会科学系の領域では、純粋な比率データを扱えることが少なく、情報が限られてしまう傾向にあるが、できる限り情報量が豊富な状態でデータ収集することが望ましい[1]

コラム:りんごと赤い木の実

右の絵を見て、読者はなんの絵だと思うだろうか?大半は「りんご」と答えるかもしれないが、「赤い木の実」と思っても間違いではない。単に木の実かもしれない。他にも、「赤い果物」「赤い物体」「物体」「周径○cmの果物」…いろいろある。このように、測定したいものに対応する測定方法が1つであるとは限らない。どのように測定するかは調査の目的や仮説に依存する。1つの個体だけでもこんなにたくさんの測定方法があるため、目的と尋ね方を明確かつ適切にしないと得られるデータは悲惨なことになる。逆に言えば、情報量が豊富な状態でデータを収集しておけば、データを変換してもある程度どの個体(現象)を示すデータを担保できる。
この場合、できるだけ情報量を得るためには、色、形、重さ、大きさ、種類、品種、手触り、産地などを得るとよいが、多すぎる情報量は逆に何を測定しているのかわからなくなる恐れがある。この場合「りんご」だからまだ良いが、これが何かしら目に見えない概念や感情などであった場合などは、考えるだけで恐ろしい。

 

[1] 不要なデータを収集することは倫理的にも対象者の負担的にも問題があるため、研究目的上簡便かつ情報量の多いデータ収集方法を考えるべきである。例えば年収等は、明らかな関心がそこにない場合、数十万円ごとにカテゴライズして尋ねるなどの工夫が必要である。


代表値

代表値とは、言葉の通りデータを代表する値のことである。基本統計量とも呼ばれ、一般的には平均、分散、標準偏差、変動係数、最頻値、中央値などで示される。量的データの場合、平均、分散、標準偏差、変動係数が用いられる。質的データの場合、最頻値や中央値が用いられる。代表値を算出することで、標本から得られたデータを概略的に知ることができる。表1にデータの種類ごとの代表値を記載しているが、これはあくまで一般的な例である。データを入手したら、いきなり平均等の代表値を算出せずに、まずは度数分布表やヒストグラムを作成し、直感的・視覚的にデータの傾向を捉える必要がある。

図2は仮想的な2つの企業の従業員が受けた血圧値の健康診断データをヒストグラムで表したものである。いずれの標本も200名のデータを使用しているが、分布の違いがよく分かる。企業A(図2a)では、比較的左右対称の山になっているのに対し、企業B(図2b)では山のピークが左側に偏っている。こうして視覚的にデータを捉えることで、直感的に企業Bの方が血圧値の低い人が多く分布していることが理解できる。

平均(mean)

代表値の中で最も一般的な基本統計量が平均である。しかしながら、平均には4つの種類があることはあまり知られていない。最もよく使われる平均が算術平均で、基礎教育で習う平均のことである。私達がよく耳にする「平均」とはこの算術平均のことである。

$$算術平均 \overline{x}= \frac{\sum_{i=1}^{n} (x_i) }{n}$$

観測されたデータそれぞれに重み(ウエイト)をかけて算出する平均を加重平均と呼ぶ。度数分布表のように、階級値[2]とその度数しかデータがないが平均を算出したい場合加重平均が用いられる。その場合、階級値を$x_i$、度数を$w_i$として算出する。

$$加重平均 \overline{x}= \frac{{w_1}{x_1}+{w_2}{x_2}+…+{w_n}{x_n}}{n}= \frac{\sum_{i=1}^{n} {w_i}{x_i}}{\sum_{i=1}^{n}{w_i}}$$

算術平均は外れ値に影響をうけやすい。実際クラス内のテストの平均を考えてみるとわかるが、全体よりも極端によくできている(あるいはその逆)人がいると、平均値はその人の得点に引っ張られてしまう。そうした影響を考慮したり、変化率のような特殊なデータの平均を算出したりしたい場合、幾何平均が用いられる。数学的にはデータが$n$個ある場合にデータ値の$n$乗根を取った値であり、つまり対数の平均を指数変換したものが幾何平均[3]である。

$$幾何平均 {m_g}=\sqrt[n]{{x_1}{x_2}…{x_n}}=\sqrt[n]{\prod_{i=1}^{n} x_i}$$

他にも、株価のグラフでよく用いられている、移動平均がある。これは時系列データを平滑化するために用いられ、ある時点の突発的で極端な変動を元のデータから除外したうえで傾向を知りたいときなどに使用する。

[2] 図2の横軸に記載されている値。

[3] $\Pi$は$\pi$の大文字で、総乗を意味する。つまりここでは$x_i$をすべてかけ合わせればよい。


次回は代表値の続き、データのばらつきについてです。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)