代表値とは資料(データ)を代表して使える値のことです。
3つありますが、度数分布表から平均値と中央値の求め方を忘れがちなので確認しておきましょう。
最頻値は入試でもよく聞かれますが度数分布表の読み取りができるようになっているので答え方は問題ないでしょう。
代表値とは?
代表値とは資料全体の代表として使える値のことです。
\(\color{red}{\fbox{ 平均値(アベレージ) }}\)
\(\color{blue}{\fbox{ 中央値(メジアン) }}\)
\(\color{magenta}{\fbox{ 最頻値(モード) }}\)
の3つがあります。
資料(データ)の種類や、どうやって集めたデータかによって、どの代表値が信頼できるは変わってきますが、
まずは一つひとつの求め方を確認しておきましょう。
平均値の求め方
平均値は、資料のすべての値を合計し、度数合計で割って均等に分けたときの値のことです。
例えば、入学試験の得点は人によって違います。
\(\,0\,\)点の人もいれば\(\,100\,\)点の人もいます。
しかし、そのテストでだいたいどれくらい取れているか、を見るときに全員を代表する点数として平均値が使われます。
また一人ひとりの得点でも平均を使うことがあります。
例えば、\(\,5\,\)教科の試験を受けたときすべての教科で同じ得点というのはほとんどありません。
\(\,5\,\)教科の得点が、
\(\,80\,,\,50\,,\,70\,,\,20\,,\,40\,\)
だったとき、平均点はどう計算するかは分かるでしょう。
平均点は、総得点を科目数で割ります。
\(\,平均点=\displaystyle \frac{80+50+70+20+40}{5}\,\)
同じように平均値は
\(\,\color{red}{(平均値)=\displaystyle \frac{ (総得点) }{ (度数合計) }}\,\)
で求めます。
平均値を求めるときの2つの注意点
平均値を求めるときに注意することは2つあります。
\(\color{red}{\fbox{ 注意点その1 }}\)
\(\,1\,\)つは値が\(\,0\,\)のときに度数合計に加えるのを忘れることです。
例えば、
\(\,7\,,\,3\,,\,0\,,\,5\,,\,0\,,\,7\,,\,10\,\)
の平均を出そうとするとき\(\,0\,\)は足しても変わらないので
\(\displaystyle \frac{7+3+5+7+10}{\color{red}{5}}\)
としてしまうことです。
正確には度数合計は\(\,7\,\)なので
\(\displaystyle \frac{7+3+5+7+10}{\color{blue}{7}}\)
としなければ平均は出ません。
これはケアレスミスなので見直しで注意しておけばなんとかなりますが、
普段から\(\,0\,\)をデータに見たときは省略せずに書き出すようにしておけば良いのです。
\(\displaystyle \frac{7+3\color{magenta}{+0}+5\color{magenta}{+0}+7+10}{7}\)
\(\color{red}{\fbox{ 注意点その2 }}\)
二つ目の注意点は、度数分布表を利用して平均値を求めるときの値のあつかいかたです。
\(\begin{array}{|c|c|} \hline
階級(点) & 度数(人) \\ \hline
以上 未満 & \\
\hspace{5pt}5 ~ 10\hspace{6pt} & 6 \\ \hline
10 ~ 15\hspace{6pt} & 4 \\ \hline
15 ~ 20\hspace{6pt} & 12 \\ \hline
20 ~ 25\hspace{6pt} & 16 \\ \hline
25 ~ 30\hspace{6pt} & 2 \\ \hline
計 & 40 \\ \hline
\end{array}\)
この度数分布表は先に見てきた表です。
この資料(データ)の平均値を求めなさい、という問題があると迷う場合があります。
というのも階級には幅があるので、度数は分かるけど、
それぞれの点数が分からないので総得点が出せません。
だから度数分布表では階級値を得点と見なすのです。
これを忘れていては平均値は出せません。
問題です。w
度数分の見方でお伝えしましたが、
階級値は各階級の幅の中央にある値
のことです。
\(\begin{array}{|c|c|c|} \hline
階級(点) & 階級値 & 度数(人) \\ \hline
以上 未満 & \\
\hspace{5pt}5 ~ 10\hspace{6pt} & \color{blue}{7.5} & \color{red}{6} \\ \hline
10 ~ 15\hspace{6pt} & \color{blue}{12.5} &\color{red}{4} \\ \hline
15 ~ 20\hspace{6pt} & \color{blue}{17.5} &\color{red}{12} \\ \hline
20 ~ 25\hspace{6pt} & \color{blue}{22.5} &\color{red}{16} \\ \hline
25 ~ 30\hspace{6pt} & \color{blue}{27.5} &\color{red}{2} \\ \hline
計 & &40 \\ \hline
\end{array}\)
各階級にいる人は得点はすべて階級値が得点であると見なすのです。
「その階級にいる人はすべてその階級値の得点である」と見なすわけだから、
各階級の\(\,\color{blue}{(階級値)}\times\color{red}{(度数)}\,\)をすべて足せば総得点になります。
このときは平均値の計算が少しややこしくなりますが、仕方ありません。
「その計算ぐらいしなさいよ。」、という出題者の意図なのです。
この度数分布表から求めることができる平均値は
\(\hspace{10pt}\displaystyle \frac{7.5\times 6+12.5\times 4+17.5\times 12+22.5\times 16+27.5\times 2}{40}\\
\displaystyle =\frac{\color{red}{45}+\color{blue}{50}+\color{blue}{210}+360+\color{red}{55}}{40}\\
\displaystyle =\frac{\color{red}{100}+\color{blue}{260}+360}{40}\\
\displaystyle =\frac{720}{40}\\
=\underline{ 18 } (点)\)
\(\,40\,\)人のデータがある場合は\(\,40\,\)人分の個別点数を足して、度数合計で割るわけだからそれを考えたら少しは楽でしょう。
度数分布表の平均値は正確だとはいえませんが、データの数が多い場合は度数分布表でもおおよその平均値は大きくずれずに出せます。
階級の幅の大きさや度数によって変わってきますが、入試での出題率が上がっているのは個別データより度数分布表の読み取りです。
中央値の求め方
中央値も代表値の\(\,1\,\)つです。
中央値とは、データを小さい順、または大きい順に並べたとき、
中央の順番に位置する『値』
です。
例えば、\(\,5\,\)つのデータ
\(3\,,\,7\,,\,6\,,\,2\,,\,8\)
があるとき、小さい順並べ直し、
\(2\,,\,3\,,\,\color{red}{6}\,,\,7\,,\,8\)
真ん中の\(\,3\,\)番目にある\(\,\color{red}{6}\,\)が中央値になります。
データの最小値と最大値の中間(順番的に)にある値になるので、
最小値付近や最大値付近より中央よりの方が似たような値が多い
ということから使われる代表値です。
中央値を求めるときの注意点
データの個数が奇数のときは真ん中の順番は\(\,1\,\)つです。
\(3\,,\,7\,,\,6\,,\,2\,,\,8\)
の5つの場合は\(\,3\,\)番目が小さい順でも大きい順でも真ん中です。
しかし、
\(3\,,\,7\,,\,6\,,\,2\,,\,8\,,\,4\)
のようにデータの個数が偶数のときは、
\(2\,,\,3\,,\,\color{red}{4}\,,\,\color{red}{6}\,,\,7\,,\,8\)
真ん中のデータは\(\,3\,\)番目と\(\,4\,\)番目の2つあることになります。
データ個数が偶数のときは、中央2つの平均を中央値とします。
\(2\,,\,3\,,\,\color{red}{4}\,,\,\color{red}{6}\,,\,7\,,\,8\)
の中央値は
\(\displaystyle \frac{\color{red}{4}+\color{red}{6}}{2}=5\)
となります。
気をつける点はその1つです。
読み取り方法は度数分布表でも同じです。
度数分布表での中央値
\(\begin{array}{|c|c|c|} \hline
階級(点) & 階級値 & 度数(人) \\ \hline
以上 未満 & \\
\hspace{5pt}5 ~ 10\hspace{6pt} & 7.5 & 6 \\ \hline
10 ~ 15\hspace{6pt} & 12.5 & 4 \\ \hline
15 ~ 20\hspace{6pt} & 17.5 & 12 \\ \hline
20 ~ 25\hspace{6pt} & 22.5 & 16 \\ \hline
25 ~ 30\hspace{6pt} & 27.5 & 2 \\ \hline
計 & & 40 \\ \hline
\end{array}\)
普通は度数分布表に階級値が入ることは少ないです。
問題が易しいときには入ることもありますが、ここでは今までさんざん説明してきたので入れてあります。
問題です。笑
度数分布表では階級に幅があるので一つひとつの値は分かりません。
だからそれぞれの階級に属するデータは全部が階級値だと見なすのでした。
中央値の場合も同じです。
ただし、中央の順番が位置する階級はまだ分かっていません。
この度数分布表では度数合計が\(\,40\,\)なので、
中央の位置は\(\,20\,\)
とするのは気が早いです。
\(\,40\,\)個のデータは
\(\,20\,個 | \,20\,個\,\)
と、\(\,20\,\)個ずつ前後に分けることができるということは間違いではありませんが、
中央にあるデータはありません。
\(\cdots \,19番目\,,\,\color{red}{20番目} | \color{blue}{21番目}\,,\,22番目\,\cdots\)
データ個数が偶数のときは、
中央\(\,2\,\)つの平均値
が中央値になりますので\(\,20\,\)番目と\(\,21\,\)番目の平均値になります。
ただ、度数分布表ではこの\(\,2\,\)つは同じ階級に属することが多いです。
累積度数
小さい順でも、大きい順でもかまいませんがデータの個数を数えていきましょう。
\(\,20\,\)番目と\(\,21\,\)番目のデータがどこにあるのかを探します。
このときに使うのが『累積度数』です。
使わなくてもいいので簡単に説明しておきます。
データの小さい順に度数を足した合計度数を『累積度数』といいます。
\(\,5\,\)点以上\(\,10\,\)点未満の度数は\(\,\color{red}{6}\,\)でそのまま
\(\,10\,\)点以上\(\,15\,\)点未満の度数は\(\,\color{blue}{4}\,\)で
\(\,5\,\)点以上\(\,10\,\)点未満の度数は\(\,6\,\)を足して\(\,\color{red}{10}\,\)
のように上から度数合計を次々に足していきます。
度数分布表に加えると
\(\begin{array}{|c|c|c|c|} \hline
階級(点) & 階級値 & 度数(人) & 累積度数 \\ \hline
以上 未満 & \\
\hspace{5pt}5 ~ 10\hspace{6pt} & 7.5 & 6 & \color{red}{6}\\ \hline
10 ~ 15\hspace{6pt} & 12.5 & 4 & \color{red}{10}\\ \hline
15 ~ 20\hspace{6pt} & 17.5 & 12 & \color{red}{22}\\ \hline
20 ~ 25\hspace{6pt} & 22.5 & 16 & \color{red}{38}\\ \hline
25 ~ 30\hspace{6pt} & 27.5 & 2 & \color{red}{40}\\ \hline
計 & & 40 \\ \hline
\end{array}\)
当然ですが最後は度数合計に一致しないと足し算が間違えています。
この度数分布表を見れば明らかですが、
\(\,10\,\)点以上\(\,15\,\)点未満
までの階級に\(\,\color{red}{10}\,\)番目までのデータがあり、
\(\,10\,\)点以上\(\,15\,\)点未満
までの階級に\(\,\color{red}{22}\,\)番目までのデータがあるので、
\(\,20\,\)番目と\(\,21\,\)番目の順番になるのはどちらも
\(\,15\,\)点以上\(\,20\,\)点未満の階級
にあります。
よって中央値は
\(\,15\,\)点以上\(\,20\,\)点未満の階級の階級値
の
\(\,\underline{ 17.5 (点) }\,\)
累積度数は表にする必要はありません。
上から度数を足しっていって、\(\,20\,\)番目\(\,21\,\)番目がどの階級にあるかを探せばそれでいいです。
ただし、その足し算すらしないというのは解く気がない、といいます。
最頻値の答え方
最頻値(モード)は読み方さえ覚えれば簡単です。
最頻値『さいひんち』
と読みます。笑
最頻値とは、度数の一番多い『値』のことです。
例えば、
\(\,1,3,3,4,\color{red}{5},\color{red}{5},\color{red}{5},7,8\,\)
というデータがあるとき一番多いのは3つのデータがある\(\,\color{red}{5}\,\)です。
ところで、
\(\,1,\color{blue}{3},\color{blue}{3},\color{blue}{3},4,\color{red}{5},\color{red}{5},\color{red}{5},7,8\,\)
のように最も多いデータの個数が2つあるときの最頻値はどうなる、と思いませんか?
このときは最頻値が\(\,\color{blue}{3}\,\)と\(\,\color{red}{5}\,\)の2つになります。
しかし、このような問題は高校入試では出ません。笑
問題です。
\(\begin{array}{|c|c|} \hline
階級(点) & 度数(人) \\ \hline
以上 未満 & \\
\hspace{5pt}5 ~ 10\hspace{6pt} & 6 \\ \hline
10 ~ 15\hspace{6pt} & 4 \\ \hline
15 ~ 20\hspace{6pt} & 12 \\ \hline
20 ~ 25\hspace{6pt} & 16 \\ \hline
25 ~ 30\hspace{6pt} & 2 \\ \hline
計 & 40 \\ \hline
\end{array}\)
度数分布表では度数が一番多い階級の『階級値』がモードになります。
度数が最も多い階級は
\(\,20\,\)点以上\(\,25\,\)点未満の階級
だから最頻値(モード)は、
\(\,20\,\)点以上\(\,25\,\)点未満の階級値 \(\,\underline{ 22.5 (点) }\,\)
ここまでを何度も読んで理解すれば、普通の問題は答えられるはずですので練習問題をいくつかやってみてください。
代表値はどれが一番適しているかは資料の種類にとって違います。
そのことが入試でも取り上げられますので、意味は覚えておきましょう。
不安があるときはもう一度「度数分布表」の読み取り方から始めて下さい。
⇒ 有効数字とは?桁(けた)数と四捨五入の方法と表し方(中1資料)
有効数字と測定した位の求め方、表し方です。