2025年度数理・データサイエンスへの誘い第2回

00:48:10
https://www.youtube.com/watch?v=nK17EQZ-hdo

Summary

TLDRこの講義ではデータサイエンスの信頼性について、データの解釈や誤差の種類、バイアスの影響、そして異なる観点の重要性について詳しく説明しています。データには系統誤差や偶然誤差が存在し、これらを理解することでより正確な分析が可能になります。また、データを扱う際には多様性を持つことが重要であり、異なる意見を持つ人々と関わることで、より良い結果を得ることができると述べられています。最終的には、リテラシーを高めるために、自分の得意な観点を見つけ、それを他者と共有することが推奨されています。

Takeaways

  • 📊 データサイエンスは膨大なデータを情報に変換する学問
  • 🧮 誤差は系統誤差と偶然誤差に分類される
  • 🔍 バイアスがデータに影響を与える
  • 🖊️ サンプリングバイアスに注意する必要がある
  • 🤝 多様性がデータ分析の精度を向上させる
  • 📋 異なる観点を持つ仲間の重要性
  • 🕵️‍♂️ 情報は選択した特徴によって主観的になる
  • 📈 サンプルサイズを増やすことで誤差を小さくできる
  • 📚 リテラシーを高めるために観点を見つけることが大切
  • ⭐ 絶えず異なる意見と交流することが重要

Timeline

  • 00:00:00 - 00:05:00

    この講義では、データサイエンスの信頼性についてまず説明し、レポートの提出や不正行為についての注意点をあげました。そして、データサイエンスの基本的な概念としてデータ、情報、知識の違いを解説し、データ解釈の重要性を強調しました。

  • 00:05:00 - 00:10:00

    統計的観点から、得られたデータにはバイアスが含まれ、測定には系統誤差と偶然誤差が存在することを示しました。具体例を挙げながら、異なる誤差のタイプを理解し、それらの制御方法についても言及しました。

  • 00:10:00 - 00:15:00

    誤差コントロールの重要性について、具体的にNHKの世論調査の方法論を紹介し、サンプルサイズの重要性や偏りの影響について解説しました。サンプルサイズの増加が偶然誤差を小さくできることに触れ、系統誤差の認識も必要であると述べました。

  • 00:15:00 - 00:20:00

    データ収集においては、得られたデータのバイアスを理解することが重要であり、サンプリングバイアスや確証バイアスについて具体的な例を交えながら説明しました。特に、特定の属性によるデータ選択が結果に与える影響を考慮する必要があります。

  • 00:20:00 - 00:25:00

    計算的観点については、特定の特徴量選択がデータ分析に大きな影響を与えることを解説しました。見抜きアヒルの定理を用いて特徴抽出の重要性を強調し、主観的な判断が情報生成にどのように影響するかを考察しました。

  • 00:25:00 - 00:30:00

    データ分析における数値化の限界について、単純化することが情報の多様性を失わせるという問題を指摘しました。人間の社会構造の複雑さを数値化することの難しさと、そのために生じる誤解についても言及しました。

  • 00:30:00 - 00:35:00

    測定の残虐性を示すため、具体的な例で実際の人間社会のデータ収集の問題点を扱い、その中での移動や生活における影響を考慮しました。データを使用して他者を計ることが如何に複雑で傲慢な行為であるかを強調しました。

  • 00:35:00 - 00:40:00

    データの偏りについてはエコーチェンバー現象やフィルター バブルのリスクが存在することを指摘し、多様性の重要性を強調しました。他者の意見を受け入れ、異なる視点を持つことがデータ分析の信頼性につながると述べました。

  • 00:40:00 - 00:48:10

    講義を通じて、参加者に各々の得意な観点を持ちつつ、異なる観点を重視し続け、データサイエンスの学びを深めることを奨励しました。最後に、具体的な事例を基にした今後の探索の必要性についても言及しました。

Show more

Mind Map

Video Q&A

  • データサイエンスとは何ですか?

    膨大なデータを収集・整理・加工し、情報に変換して、有益な知識を生み出す学問分野です。

  • 誤差にはどんな種類がありますか?

    系統誤差と偶然誤差の2種類があります。

  • 系統誤差とは何ですか?

    規則性のある誤差のことです。

  • 偶然誤差とは何ですか?

    偶然的に生じた誤差のことです。

  • サンプリングバイアスとは?

    抽出された調査集団が調査対象を代表しないことに起因するバイアスです。

  • データに含まれるバイアスには何がありますか?

    サンプリングバイアス、確証バイアス、生存者バイアスなどがあります。

  • なぜ多様性が重要ですか?

    多様性はデータ分析の精度を向上させ、公平な結果を得るために重要です。

  • リテラシーを身につけるためのポイントは?

    得意な観点を見つけ、異なる観点を持つ仲間を大切にすることです。

  • データサイエンスでの情報は主観的ですか?

    はい、情報は選択した特徴によって生成されるため主観性を帯びます。

  • 誤差のコントロール方法は?

    サンプルサイズを増やすことで偶然誤差を小さくすることができます。

View more video summaries

Get instant access to free YouTube video summaries powered by AI!
Subtitles
ja
Auto Scroll:
  • 00:00:00
    皆さんこんにちは3データサインス教育
  • 00:00:02
    研究センターのセ戸ですえ第2回のデータ
  • 00:00:05
    で第2回はですねデータサインスの信頼性
  • 00:00:08
    ということでやっていきますはいまず始め
  • 00:00:11
    にですねえこれからえっとレポートがです
  • 00:00:14
    ね本格化していきますがえいくつか所を
  • 00:00:18
    あの言っておきますまず誰かと一緒に勉強
  • 00:00:20
    することは問題ありませんただし課題は
  • 00:00:23
    必ず自力で回答して締め切りまでに提出を
  • 00:00:26
    すること体調不良で授業授業動画の視張や
  • 00:00:29
    提出が難しい場合は必ず連絡をすることで
  • 00:00:33
    不正行為はしないことえ不正行為について
  • 00:00:36
    は大学のえ長会規則に照らし合わせてえ
  • 00:00:39
    半期取得した単位のあのが無効になったり
  • 00:00:42
    とかするので学生関係規則集をよく読んで
  • 00:00:45
    え不正っていうのをやらないでください
  • 00:00:48
    以上ですはいということでえ今回ですが
  • 00:00:52
    えっと前回の復習からえ始まってですね
  • 00:00:56
    統計的観点計算的観点人間的観点この3つ
  • 00:00:59
    の観点に対してえこの観点からですねえっ
  • 00:01:03
    とデータサっていうのをより詳しく見て
  • 00:01:05
    いくという話になります
  • 00:01:08
    え前回の復習ですがデータサインスの定義
  • 00:01:10
    として膨大なデータを収集整理加工して
  • 00:01:13
    情報に変換しえその情報の背景やパターン
  • 00:01:16
    をモデル化することで意思決点に有益な
  • 00:01:18
    知識を想像する学問分野ですよということ
  • 00:01:21
    をやりましたでデータ情報知識っていうの
  • 00:01:24
    はそれぞれ違ってえっとデータというのは
  • 00:01:27
    実験や観測によって得られた客観的事実
  • 00:01:30
    情報というのはデータに意味を付与させた
  • 00:01:32
    もの知識というには情報を体計化してした
  • 00:01:34
    ものでえそれぞれ上位会の概念になってい
  • 00:01:38
    てえっとデータだけが客観的情報知識知恵
  • 00:01:41
    というのは主観的ですよという話をしまし
  • 00:01:44
  • 00:01:45
    でえこのデータの解釈ということで情報が
  • 00:01:49
    生まれるんですがえ適当に解釈したのでは
  • 00:01:52
    コミュニケーションにならないということ
  • 00:01:54
    でえっとサイエンス科学を持って分析を
  • 00:01:57
    する解釈をするということが大事だという
  • 00:02:00
    話をしましたでそのえ科学を持って分析を
  • 00:02:04
    する解釈をするっていう時にえっと3つの
  • 00:02:08
    観点が必要ですよということで統計的観点
  • 00:02:10
    計算的観点人間的観点の3つを紹介しまし
  • 00:02:13
    たで今回はそれらを深掘りしていきますよ
  • 00:02:16
    という話になります
  • 00:02:18
    まず統計的観点から考えていきましょう得
  • 00:02:22
    られたデータには必ずバイアスが含まれ
  • 00:02:24
    ますデータを測定する際に様々な要因に
  • 00:02:27
    よって本当の値とのずれが生じますその
  • 00:02:29
    ずれのことを誤差という風に言いますで
  • 00:02:32
    この誤差は2つに分類されます1つは
  • 00:02:36
    系統誤差そして偶然誤差です系統誤差と
  • 00:02:39
    いうのは規則性のある誤差のこと偶然誤差
  • 00:02:43
    というのは偶発的に生じた誤差のことです
  • 00:02:45
    例えば体重系を利用して体重を測定する
  • 00:02:48
    場合測定した値というのは芯の値+服の重
  • 00:02:52
    さプラスえ危機の誤差というのが含まれ
  • 00:02:55
    ますでこの服の重さというのは自分の体重
  • 00:02:59
    に対して必ずプラスに働く方向一定方向に
  • 00:03:04
    決まってえ生じる誤差ですのでこれはえ
  • 00:03:08
    系統誤差になりますで危機の誤差測定誤差
  • 00:03:13
    というのはこれは危機の制度によって
  • 00:03:16
    プラスに働いたりマイナスに働いたり
  • 00:03:18
    どっち方向に誤差が生じるか分からないの
  • 00:03:20
    で偶然誤差という風に言います
  • 00:03:26
    じゃあこのばらつきその誤差というのを
  • 00:03:28
    少し考えていきたいんですがえ演習問題1
  • 00:03:32
    です次のグラフは2022年度前期のス理
  • 00:03:35
    データサインスへの居いの受行生989人
  • 00:03:38
    に好きなポケモンを1匹答えてくださいと
  • 00:03:41
    いうのをえ集めて集計したものでえその
  • 00:03:46
    トップ10をですねえ人気のポケモン
  • 00:03:49
    トップ10をですねグラフにしましたで
  • 00:03:51
    このグラフにはですね問題点があります
  • 00:03:54
    じゃあこのグラフを読み取ってどこが問題
  • 00:03:56
    点かっていうのを考えてください
  • 00:04:14
    はいそれでは回答いきますはいグラフの
  • 00:04:19
    タイトルがおかしいです今回は知識えっと
  • 00:04:23
    まあの受行性全員に聞いているので
  • 00:04:27
    ポケモンに関する知識にばらつきがあり
  • 00:04:29
    ますでえそのばらつきがある集団に
  • 00:04:33
    アンケート調査を行うと当然系統さが
  • 00:04:36
    大きくなりますでえ結局どういうことを
  • 00:04:40
    言いたいかって言うと
  • 00:04:42
    ポケモンに詳しい人は好きなポケモンなっ
  • 00:04:46
    て聞かれたら自分の好きなポケモンを答え
  • 00:04:47
    られますよねで仮にポケモンに全く詳しく
  • 00:04:50
    ない人に好きなポケモン何ですかって聞い
  • 00:04:52
    たらやっぱピカチュウとかとか致名度の
  • 00:04:55
    高いものを選びがちだということですえ
  • 00:04:58
    2022年の時はですねぽっちゃま
  • 00:05:00
    プロジェクトをやってたのでポっちゃまが
  • 00:05:02
    高くなってるわけですよねで結局えっと
  • 00:05:06
    アンケートの集団にアンケート対象者の
  • 00:05:10
    系統さが大きいとですねえこの人気という
  • 00:05:16
    のは基本的に測れないわけなんですねこれ
  • 00:05:18
    あくまで致名度になってしまうでえま僕は
  • 00:05:22
    知らないんですけどもえ基本的に統計
  • 00:05:27
    データサイズを使って人気というのを測る
  • 00:05:29
    ことはできませんえよくえっとテレビで
  • 00:05:33
    えっとなんだろう上司にしたいアニメ
  • 00:05:36
    キャラランキングとかえイケメンだと思う
  • 00:05:39
    俳優とかえーああいうの結構ランキング
  • 00:05:43
    付けとかする昔はもっとやってたので最近
  • 00:05:46
    は見ない方かもしれませんがあのああいう
  • 00:05:50
    のって基本的に人気とかえま本当に上司に
  • 00:05:54
    合うキャラを選んでるとかそういうわけ
  • 00:05:57
    じゃなくて基本的にその当時に致名度が
  • 00:05:59
    高いものが順に並んでってるということに
  • 00:06:02
    なります
  • 00:06:06
    じゃあこの世論調査とかを見てですねえっ
  • 00:06:09
    と誤差のコントロールこういった系統誤差
  • 00:06:12
    と偶然誤差っていうのをどうやって
  • 00:06:13
    コントロールしてるのかっていうのを見
  • 00:06:14
    ましょうえ例えばNHK世論調査NHKは
  • 00:06:18
    毎月世論調査を実施して内閣を求めてます
  • 00:06:21
    例えば2025年3月の世論調査はRDD
  • 00:06:25
    法というのを用いて行われてます
  • 00:06:28
    でえ
  • 00:06:31
    2898人に電話をしてそのうちの42%
  • 00:06:35
    しか回答してくれませんでしたえっと割合
  • 00:06:37
    え割合としては42%なので人数としては
  • 00:06:40
    1225人ですでその結果1225人の
  • 00:06:45
    うち
  • 00:06:45
    36%だから大体400人くらいかな
  • 00:06:49
    400ちょいがえっと指示をえっと内閣を
  • 00:06:53
    支持するという風に答えたわけですねえ
  • 00:06:56
    2025年3月ので今の石内閣を支持する
  • 00:06:59
    というのがえ400ちょいうんでえっと
  • 00:07:03
    一旦用語の確認をしてきましょうRDD法
  • 00:07:06
    という言葉が出てきましたこれはランダム
  • 00:07:08
    デジットダイヤリング法と呼ばれるもので
  • 00:07:10
    コンピューターでランダムに生成された
  • 00:07:12
    電話番号えこれは固定電話と携帯電話
  • 00:07:16
    どっちどっちか分かりませんがえどっちか
  • 00:07:18
    に電話してえ調査を行う方法ですこの
  • 00:07:21
    ランダムに生成された電話番号っていうの
  • 00:07:24
    が今回は結構肝なんですね
  • 00:07:27
    でアンケートで発生する偶然誤差っていう
  • 00:07:31
    のはRDD法を用いて調査してるので基本
  • 00:07:34
    的にランダムに人がかかるんですけども
  • 00:07:38
    えっとランダムだからと言って偏らない
  • 00:07:40
    わけじゃなくてえっと例えばえっと電話を
  • 00:07:43
    かけた人たちがたまたま内閣指示よりの人
  • 00:07:46
    に偏ってしまったとかえも逆逆のえっと
  • 00:07:51
    内閣不指示よりの人に偏ってしまったとか
  • 00:07:54
    まこういうことがありうるわけですね
  • 00:08:01
    えっと例えばえっと
  • 00:08:02
    皆さんの高校とか中学校のクラスでもえっ
  • 00:08:06
    と適当に3人ランダムにピックアップしま
  • 00:08:09
    すって言っても例ええっとたまたま身長の
  • 00:08:12
    高い3人が選ばれるとかたまたま4月
  • 00:08:15
    生まれが選ばれるとかそうやってえっと
  • 00:08:18
    ランダムに選んでも偏ることってあります
  • 00:08:21
    よねそれと同じでえっとまあのRDD4
  • 00:08:27
    ランダムに選んでるけれどもそれでも偏る
  • 00:08:29
    ことはあるよということなんですねじゃ
  • 00:08:31
    この偏りってどうやってえ小さくしたら
  • 00:08:34
    いいのかってことなんですがこの偶然差は
  • 00:08:36
    ですね対象者を増やして割合を求めること
  • 00:08:40
    で小さくすることができます
  • 00:08:41
    でこの対象者のことをサンプルサイズと
  • 00:08:45
    いう風に言いますなので偶然誤差は
  • 00:08:48
    サンプルサイズを増やすことで平均化され
  • 00:08:51
    要は偶然誤差ってプラスとマイナスどっち
  • 00:08:53
    にあの誤差が触れるか分からないからえ
  • 00:08:58
    内閣指示寄りの人もいれば内閣不示寄りの
  • 00:09:01
    人もいる仮にえっと同じ数だけいたら偏ら
  • 00:09:05
    ないですよねうんこういうようなあの理屈
  • 00:09:08
    になってます
  • 00:09:10
    じゃ系統誤差はどうするのかってことなん
  • 00:09:12
    ですがNHK世論調査は電話で実施してる
  • 00:09:15
    ので電話を保有してない人の意見は収集
  • 00:09:18
    できませんよね加えて固定電話を保有して
  • 00:09:20
    いて日中にえっと在宅の可能性が高い高齢
  • 00:09:24
    者などの意見が反映されやすい傾向にあり
  • 00:09:27
    ます
  • 00:09:27
    このような誤差はアンケート調査で発生
  • 00:09:30
    する系統誤差にあたるわけですねでこの
  • 00:09:33
    系統誤差はですねその発生原因を特定し
  • 00:09:36
    取り除くことで誤差を小さくすることが
  • 00:09:38
    できます
  • 00:09:39
    ただえっとこの発生原因を特定するという
  • 00:09:43
    のが非常に難しいわけですね本当にこの
  • 00:09:46
    ランダムでかけた中で日中剤あの高齢者の
  • 00:09:50
    意見だけが反映されているのかとかそう
  • 00:09:52
    いうのはちょっと分からないわけなので
  • 00:09:54
    えっとま予測はつくけれども完全にこう
  • 00:09:58
    原因を特定して取り除くことができるか
  • 00:10:00
    どうかってのは分かりませんまたさっきの
  • 00:10:03
    体重の例のように系統誤差とえ偶然誤差が
  • 00:10:07
    同時に発生する可能性もあるのでえ同時に
  • 00:10:11
    発生した場合えっとどれがどれくらいの
  • 00:10:14
    割合かあどっちがどれくらいの割合か
  • 00:10:16
    みたいな特定できませんのでえっと
  • 00:10:19
    なかなかこの系統誤さというのを取り除く
  • 00:10:21
    のは難しいですまなので例えば複数回
  • 00:10:25
    アンケートをしてみるとか別の角度から
  • 00:10:27
    アンケートをしてみるとかっていう話に
  • 00:10:29
    なるわけですね例えば世論調査で言ったら
  • 00:10:32
    NHKとかえっとま読み売りとかま
  • 00:10:35
    いろんな新聞社が各社が
  • 00:10:38
    えっと世論調査をしていてそれぞれで偏
  • 00:10:42
    りってのがあるんですよ例えばNHKを
  • 00:10:45
    ぶっ壊すみたいに言ってる人たってNHK
  • 00:10:47
    から世論調査の依頼が来ても絶対答えない
  • 00:10:49
    ですよねそうするとNHKを嫌ってる人は
  • 00:10:53
    NHKその系統誤差に含まれてしまうわけ
  • 00:10:55
    ですねNHKの世論調査だと
  • 00:10:58
    だからえっと別なアンケートあの例えば
  • 00:11:01
    そういう人は読み売りに対しては答えると
  • 00:11:03
    かまそういうこともあるので要はいろんな
  • 00:11:07
    各者の世論調査を見ることによってある
  • 00:11:09
    程度の平均的な系統さってのが小さくなる
  • 00:11:12
    みたいなえっとそういった角度でえっと
  • 00:11:14
    取り除くってのが現実的なんですねだから
  • 00:11:17
    あれいろんなところで世論調査をして
  • 00:11:19
    るってのはそういう意味があるわけです
  • 00:11:22
    さてえこの世のさの結果と真の値との誤差
  • 00:11:26
    推定ということでえこれ具体的にどうやっ
  • 00:11:29
    て使われてんのかってことなんですねえ
  • 00:11:33
    例えば世論調査って日本の有権者全体を
  • 00:11:35
    対象としてるわけなんだけどもえ今日本の
  • 00:11:38
    有権者は1億人くらいいますそのうち
  • 00:11:41
    1225人しか回答してないってなると
  • 00:11:45
    1/10もう1/1どころじゃないですね
  • 00:11:50
    も全然答えてないわけですよね1億に対し
  • 00:11:53
    てでその36%ってどれくらい
  • 00:11:57
    こう意味があるのかっていうことなんです
  • 00:12:00
    がえこれはちょっと大雑っ把に覚えて
  • 00:12:03
    ください実際の計算はですねもうちょっと
  • 00:12:05
    統計額勉強しないとできませんので今回は
  • 00:12:08
    雑に結果だけ覚えてください1000件の
  • 00:12:11
    アンケートを取ることでえっと誤差が3%
  • 00:12:14
    以外に収ま抑えることができますま系統誤
  • 00:12:18
    差ちょっと無視しちゃいますがえっとま
  • 00:12:21
    系統誤差をちょっと無視した場合にえっと
  • 00:12:24
    000検のアンケートで3%の誤差という
  • 00:12:28
    ことでえ今回36%
  • 00:12:31
    っていうのが調査結果ですよねだから1億
  • 00:12:34
    人の日本全体の内閣事率は33%から
  • 00:12:39
    39%の間にあると推定できますこれは
  • 00:12:42
    統計額の力ですで今回1225人対象にし
  • 00:12:46
    てるので実際何%から何%なのかってのを
  • 00:12:49
    計算できます33.4%から38.2%
  • 00:12:53
    です
  • 00:12:55
    えこの推定区間と呼ばれるものなんですが
  • 00:12:57
    調査から得られたデータをもにえ大元の
  • 00:13:00
    調査対象の真の値がどの範囲にあるかを
  • 00:13:03
    差し示しすものですなのでえっと日本全体
  • 00:13:06
    の石内閣の指示率は3月の時点で
  • 00:13:09
    33.4%から38.2%のどこかにあり
  • 00:13:13
    ますどこにあるかまでは分からないどこか
  • 00:13:16
    にあるっていうことが分かるわけですね
  • 00:13:24
    じゃちょっと演習問題2ですこのプラス
  • 00:13:26
    マイナス3%を生かせるかということなん
  • 00:13:28
    ですがえっとNHK世論調査によれば
  • 00:13:31
    2025年の石内閣の指示率は36%だっ
  • 00:13:34
    たでえNHKの記事にね22月の調査より
  • 00:13:39
    8ポイント下がったという風にされてます
  • 00:13:42
    さて2月の調査に比べて石場内閣全体の
  • 00:13:45
    指示率の下落率の最大値と最小値を求めて
  • 00:13:49
    くださいただし推定値との誤差はプラス
  • 00:13:52
    マイ3%としますそれではちょっとやって
  • 00:13:55
    みてくださいどうぞ
  • 00:14:28
    はいそれではあの回答いきますまあ少しね
  • 00:14:32
    えっといきなりこうプラスマイナス3%
  • 00:14:35
    だって話をされてもですねえ計算するの
  • 00:14:38
    難しいと思いますのでまあの考え方を身
  • 00:14:41
    につけられればそれでいいかなとはいまず
  • 00:14:45
    ステップ1え3月の日本全体の内閣術の
  • 00:14:49
    推定区間は33%から39%ですで
  • 00:14:53
    ステップ22月の世論調査のえ石内閣の
  • 00:14:56
    支率術は83月に比べてえっと3月は2月
  • 00:15:01
    に比べて8ポイント下がったということな
  • 00:15:03
    ので2月は36%から88%上の44%が
  • 00:15:09
    石内閣の指示率だったわけですねだから
  • 00:15:12
    えっと2月の日本全体の石内閣の指示率の
  • 00:15:15
    推定区間が44%からプラス-3%なので
  • 00:15:19
    41から47ということですねそうすると
  • 00:15:23
    2月全体の石内閣の指示率の最大値が47
  • 00:15:27
    3月の最小値が33ということで最大の
  • 00:15:30
    下落率は
  • 00:15:32
    14%でえ2月の1番内閣指示率の最小値
  • 00:15:37
    が41%3月の1番内閣支持率の最大値が
  • 00:15:42
    39%なので最初の下落率は2%という
  • 00:15:46
    ことになります
  • 00:15:47
    図れ示しとこういうことですね2月は
  • 00:15:50
    44%の指示率があってえプラス-3%な
  • 00:15:55
    のが41から47の間3月は36%だった
  • 00:15:59
    ので3プラ3%で33から39だからえ
  • 00:16:04
    1番大きい下落で47%からえ33%まで
  • 00:16:10
    落ちたのということで
  • 00:16:12
    14%でえ一方で2月にえ最低で41%で
  • 00:16:17
    3月に最高で39%なのでえこれが1番
  • 00:16:22
    下落幅の少ないえ落ち込み方だということ
  • 00:16:24
    で2%ということで8ポイントっていう風
  • 00:16:27
    にま報道はされましたが最大で14%最小
  • 00:16:31
    で2%っていうことがえ計算できるわけ
  • 00:16:35
    ですねはいちなみにこの推定区間はですね
  • 00:16:38
    えっと選挙のあの速報の時も使われまして
  • 00:16:42
    えっと8時えっと選挙の東海表が始まる8
  • 00:16:46
    時に当選確定みたいな報道が出るあの人が
  • 00:16:51
    いますよねこれはえっとプラスマイナス
  • 00:16:53
    3%の出口調査をしてえっと結果が出ます
  • 00:16:57
    よねそうするとプラスマイナス3%の誤差
  • 00:16:59
    が出るわけですよねそうすると1番下の
  • 00:17:02
    えっと指示率えっと特票率っていうのを
  • 00:17:06
    考えてそれで勝つかどうかってのを考える
  • 00:17:09
    わけですよ例えば出口調査である人がえっ
  • 00:17:11
    と80%の指示を得ていたとしたら最低が
  • 00:17:16
    77%ですよねだから70最低でも77%
  • 00:17:20
    ってことは最悪のシナリオでもこの人は
  • 00:17:23
    選挙に勝つっていうことなので当選確実の
  • 00:17:27
    あれが出るというわけなんですねこういう
  • 00:17:30
    ような仕組みでえっとニュースはあの報道
  • 00:17:32
    しています
  • 00:17:34
    はいということでえっと続けて演習問題3
  • 00:17:38
    ですえまととにかくアンケート調査すりゃ
  • 00:17:44
    え正確な答えが出るよっていう話だったん
  • 00:17:46
    ですが次はちょっとこんな問題を考えてみ
  • 00:17:48
    ましょうえ人間的観点が結構重要です
  • 00:17:52
    1936年のえアメリカ大統領選挙の世論
  • 00:17:55
    調査においてどちらの予測がより正確だっ
  • 00:17:58
    たか考えてくださいまず1つ目は
  • 00:18:00
    リテラシーダイジェストと呼ばれる週刊
  • 00:18:03
    ですこの週刊誌は当時最も信頼にると言わ
  • 00:18:07
    れていた週刊誌で今まで1度も大統領選挙
  • 00:18:12
    の予測を外したことがありません
  • 00:18:16
    で雑誌の読者で自動車もしくは電話を保有
  • 00:18:19
    してる200万人以上に対してアンケート
  • 00:18:22
    調査を実施しましたその結果57%の特票
  • 00:18:26
    で共和党のランド氏が勝利と予測しました
  • 00:18:31
    一方でアメリカ世論調査研究所の予測では
  • 00:18:35
  • 00:18:36
    アメリカ世論調査研究所も予測をしました
  • 00:18:40
    このえ研究所はですねアメリカの世論調査
  • 00:18:43
    に新規参入した会社ですえ設立が1935
  • 00:18:47
    年なので1年も経ってない状態ですねで
  • 00:18:51
    幅広い収入手や職業男女など属性を細かく
  • 00:18:54
    分け3000件のアンケートを実施しまし
  • 00:18:57
    たその結果55.7%の特徴で民主党の
  • 00:19:01
    ルーズベルト大統領が勝利と予測しました
  • 00:19:04
    えこれなんでルーズベルトの方が大統領
  • 00:19:06
    ってついてるのかって言うとえっと下の方
  • 00:19:08
    が勝ったから大統領ってつけてるんじゃ
  • 00:19:10
    なくて当時減だったからっていうことでま
  • 00:19:13
    こういう風に大統領つけてますさて皆さん
  • 00:19:16
    どっちがえ正確な予測をしたでしょうかと
  • 00:19:19
    いうことです
  • 00:19:22
    ちょっと考えてみてください
  • 00:19:40
    はいそれでは回答いきましょうかえ
  • 00:19:44
    アメリカの世論調査者世論調査研究所の
  • 00:19:47
    予測の方が正確でした実際60.8%の
  • 00:19:51
    特徴でえ民主党ルーズベルト大統領がえ
  • 00:19:54
    勝利という風に結論が出ましたで原因と
  • 00:19:59
    いうのはえっとこの1936年というのが
  • 00:20:03
    えっと非常にポイントとなりますえ
  • 00:20:05
    1929年え世界教皇が起こったわけです
  • 00:20:10
    ねなのでえっとアメリカというのは非常に
  • 00:20:14
    不教のもう景気としては最悪の状態なわけ
  • 00:20:17
    ですでリテラシーダイジェストってのは
  • 00:20:20
    えっと系統誤差が大きかったわけですね
  • 00:20:22
    どういうことかって言うと当時自社の雑誌
  • 00:20:25
    の購入者かつ自動車保有者もしくは電話
  • 00:20:29
    利用者の状況を満たす200万人に
  • 00:20:31
    アンケートを取ったんですがこれは不裕層
  • 00:20:34
    どころか超不裕層だけなわけですねえ定期
  • 00:20:39
    が悪いので雑誌を買うっていうのがやっぱ
  • 00:20:41
    難しいわけですそもそもでその雑誌を買っ
  • 00:20:44
    た人の中でかえさらに自動車を持ってる
  • 00:20:48
    もしくは電話を使ってる人っていうことな
  • 00:20:50
    のでこれ200万人にアンケートを取って
  • 00:20:52
    ますが超不送だけにアンケートを取った
  • 00:20:55
    わけですね
  • 00:20:56
    そうするとえ200万件のアンケートを
  • 00:21:01
    取ってもえっと超不裕不裕層だけが対象な
  • 00:21:06
    のでアメリカの有権者を代表する集団には
  • 00:21:09
    なってないわけですねだから正確な予測が
  • 00:21:11
    できなかった一方でアメリカイロン調査
  • 00:21:14
    研究所というのはえっと属性を細かく分け
  • 00:21:17
    たので幅広い層の意見を取り込んで予測を
  • 00:21:20
    することができましたつまり系統誤差が
  • 00:21:22
    小さい予測だったということになるわけ
  • 00:21:24
    ですねはいこんな形でですね系統誤差が
  • 00:21:28
    大きいとですねせっかく集めたアンケート
  • 00:21:31
    結果っていうのが無駄になってしまいます
  • 00:21:33
    なのでこの誤差をコントロールしてデータ
  • 00:21:35
    の質を高めるというのは非常に重要なこと
  • 00:21:38
    になります
  • 00:21:41
    さてえデータに含まれるバイアスという
  • 00:21:44
    ことでいくつかバイアスの種類をやって
  • 00:21:46
    おきましょう
  • 00:21:48
    収集されるデータってのはあのまず選択さ
  • 00:21:52
    れてますどういうことかって言うとデータ
  • 00:21:54
    を収集する際調査対象全てを観測すること
  • 00:21:58
    が理想なんですこれが理想です一方で現実
  • 00:22:01
    的には物理的経済的制約によってえ一般的
  • 00:22:05
    には調査対象の一部のデータのみが選択さ
  • 00:22:08
    れますその選択によって禁するバイアスの
  • 00:22:11
    ことを選択という風に言います例えば世論
  • 00:22:15
    調査ですが1億人の有権者に全員に意見を
  • 00:22:20
    聞くのが本当は1番望ましいんですがじゃ
  • 00:22:24
    1億人にアンケートを取るためにどれだけ
  • 00:22:26
    の物理的コスト経済的コストがかかるの
  • 00:22:29
    かっていう話なんですよだからある程度の
  • 00:22:32
    誤差今回で言うと3%の誤差は許容範囲で
  • 00:22:36
    あるという風に考えて1000件っていう
  • 00:22:39
    えサンプルサイズを決めてるわけですね
  • 00:22:42
    これはどれくらいの誤差を許せるかって
  • 00:22:45
    いうのはえっと分析する人によりますで
  • 00:22:49
    そうやって一部のデータを選択するから
  • 00:22:52
    こそこのバイアスというのが生じてしまい
  • 00:22:55
    ますよっていうのが選択バイアスです
  • 00:23:00
    でこの選択バイアスにはいくつか例があり
  • 00:23:03
    ますまずサンプリングバイアス抽出された
  • 00:23:06
    調査集団が調査対象を代表する集団でない
  • 00:23:09
    ことに起因するバイアスです先ほどの
  • 00:23:11
    アメリカの大統領戦もこのサンプリング
  • 00:23:14
    バイアスが原因でした例えば通販サイトの
  • 00:23:17
    顧客満足度調査え顧客満足度調査って言っ
  • 00:23:20
    たら大体90何%超えてますよねほとんど
  • 00:23:23
    の顧客が満足したのかっていう話まそう
  • 00:23:27
    そう考えがちなんですが結局回答する人は
  • 00:23:31
    どんな人っていう風なことを考えなきゃ
  • 00:23:33
    いけないわけです満足した顧客だったら
  • 00:23:35
    回答してくれますよね本当にイライラした
  • 00:23:39
    人ってのはやっぱ黙って無関係になってく
  • 00:23:41
    のでえアンケートにいちいち答えたりする
  • 00:23:44
    わけないんですよね
  • 00:23:45
    なので満足した顧客ばかりの回答が集まる
  • 00:23:50
    からこそ実際の顧客全体の受見を反映して
  • 00:23:53
    いないもっと不満があった人がいるのにえ
  • 00:23:56
    満足だだけやら高いみたいな状態になって
  • 00:23:58
    しまうこれもサンプリングバイアスの例
  • 00:24:00
    です次に格証バイアス自分の仮説や信念を
  • 00:24:05
    支持する情報のみを収集することに金運
  • 00:24:07
    するバイアスのことを確証という風に言い
  • 00:24:09
    ます
  • 00:24:11
    例えば自分の意見のあるえじ
  • 00:24:15
    自分の意見に合うレビューだけを読むって
  • 00:24:19
    いうのもえっと各倍バイアスにある例です
  • 00:24:22
    自分の好きな作品のレビューとか見ると
  • 00:24:26
    えっと批判的なもって目を背けたくなり
  • 00:24:28
    ますよねそういうことによって各倍バイア
  • 00:24:31
    スってのがあの発生してしまうということ
  • 00:24:34
    です他にも生存者バイアスってのがあり
  • 00:24:38
    ます生存してるものほど観測されやすいし
  • 00:24:41
    やすいことに起因するバイアスのことです
  • 00:24:43
    例えば大学中のうち起業して成功した人の
  • 00:24:47
    ビジネス本ばかり読むとですねえ大学中
  • 00:24:50
    すれば企業なんか成功するんだみたいな
  • 00:24:52
    イメージになってしまうこういうのも生存
  • 00:24:53
    者倍になります
  • 00:24:56
    さて次に計算的観点から考えるデータ
  • 00:24:59
    サイエンスについてです情報の主観性の
  • 00:25:02
    理由というのを深掘りしていきましょうえ
  • 00:25:06
    まず見にくいの子の定理という定理があり
  • 00:25:08
    ますこれは1969年え証明された定理
  • 00:25:11
    ですが任位の2つの物体を分類する特徴量
  • 00:25:15
    は物体によらず一定であるというのが身
  • 00:25:18
    にくいヤヒの定理の主張ですこれ難しいん
  • 00:25:21
    ですがどのように解釈すればいいかって
  • 00:25:23
    言うと2つの物体の特徴量が物体によらず
  • 00:25:26
    一定ならば相度もしくは類似によって我々
  • 00:25:30
    は累を形成することができません
  • 00:25:33
    つまり何が言いたいかっていうと我々は見
  • 00:25:37
    にくいやの子の定理によれば2つの物体
  • 00:25:41
    を見分けることができないっていうのが
  • 00:25:46
    この定理の主張ですでもちょっと待って
  • 00:25:49
    くれよと
  • 00:25:51
    これあの見にくいアヒの子のあのあの話に
  • 00:25:55
  • 00:25:56
    あの話を元に作られたのでこういう名前が
  • 00:25:59
    ついてるんですが要はアヒルと白鳥の避難
  • 00:26:02
    を見分けることができないって言ってる
  • 00:26:04
    わけですよねこの定理ではでも皆さん
  • 00:26:07
    アヒルの避と白鳥の避難を見分けることっ
  • 00:26:10
    て簡単にできますよね
  • 00:26:12
    これなんでそんなことになってるのかと
  • 00:26:14
    いう話なんですよ
  • 00:26:16
    この右足アヒロの定理というのはこのえ2
  • 00:26:21
    つの物体が持つ特徴量というの
  • 00:26:24
    を公平に扱ったら累を形成することができ
  • 00:26:29
    ないっていうことを言ってるわけですね
  • 00:26:32
    従って逆説的に言えば我々は累を形成する
  • 00:26:36
    ために必要な特徴を選択しているっていう
  • 00:26:40
    ことになるわけです
  • 00:26:42
    この定理というのはデータサインスにおい
  • 00:26:44
    て適切な特徴抽出が重要なことを示してる
  • 00:26:47
    定理なんですけども結局何か必要なもの
  • 00:26:51
    適切な特徴量を我々はピックアップしてる
  • 00:26:54
    そのピックアップの仕方が主観的なんだ
  • 00:26:57
    から情報ってのは主観性を帯びているんだ
  • 00:27:00
    よという話になるわけですね
  • 00:27:05
    じゃあちょっと何言ってるかわかんないと
  • 00:27:06
    思いますので少しえっと例で考えてみ
  • 00:27:09
    ましょう次の画像を見て特徴を列挙して
  • 00:27:12
    くださいどうぞ
  • 00:27:34
    はいじゃあ行きますよえおそらくですね
  • 00:27:39
    多くの人が色が異なるという特徴を真っ先
  • 00:27:43
    にあげたと思います
  • 00:27:44
    もし全ての特徴を公平に扱うんだったら目
  • 00:27:48
    があるとか口ばがあるとか共通する特徴を
  • 00:27:51
    列挙してもいいはずなんですねそれにも
  • 00:27:54
    関わらず多くの人が色について言及したの
  • 00:27:57
    は全ての特徴を公平に扱っていないつまり
  • 00:28:00
    我々は見分けるためには色という特徴に
  • 00:28:04
    注目すべきだていうことを無意識的にやっ
  • 00:28:07
    たっていうことなんですねこの例はですね
  • 00:28:10
    私たちが特徴を選択する際に主観が
  • 00:28:12
    入り込むことを示してるわけですデータ
  • 00:28:15
    分析においてもこのどの特徴を選択する
  • 00:28:18
    かってのが結果に大きな影響を与えます
  • 00:28:23
    でこの特徴量の選択っていうのが情報の
  • 00:28:27
    本質です情報というのはデータの車掌に
  • 00:28:31
    よって生成されるっていう風に言えるわけ
  • 00:28:33
    ですね何を重視し何を捨るかが人によって
  • 00:28:37
    依存するためです
  • 00:28:41
    ということで
  • 00:28:43
    例えばこういうことですね
  • 00:28:46
    瀬戸月と横浜竜星は違う人物であるって
  • 00:28:51
    いう風に結論付けたいそういう
  • 00:28:54
    情報をえ
  • 00:28:57
    得たいのであれば顔という特徴に注目して
  • 00:29:03
    顔が違うんだから瀬戸和月と横浜両星は
  • 00:29:06
    違う人物であるこういう結論になるわけ
  • 00:29:08
    ですねでも性別だけに注目するそれ以外の
  • 00:29:13
    あの特徴は全て捨て去って性別だけに
  • 00:29:17
    えっと
  • 00:29:18
    特徴スポットライトを当てれば瀬戸和月と
  • 00:29:22
    横浜竜星は同じ人物であるっていう結論も
  • 00:29:25
    出せるわけですねはいだから皆さん間違っ
  • 00:29:27
    て僕のことを横浜流星って呼んでもまそれ
  • 00:29:30
    間違いではないとそれはその人が何を
  • 00:29:33
    重要視するかっていう話に全てこう集約さ
  • 00:29:37
    れるわけなんですね
  • 00:29:39
    こうやってどの特徴を抽出するかっていう
  • 00:29:43
    ところで我々は無意識的にえ選択している
  • 00:29:47
    まそれが無意識的な選択が主観的なんだよ
  • 00:29:50
    という話なんですね
  • 00:29:54
    じゃあこの世論調査においてデータの車掌
  • 00:29:56
    ってのはどういうことで起きてんのかって
  • 00:29:58
    ことなんですがこれは内閣を支示する人を
  • 00:30:01
    1指示しない人を0っていう風に数値化し
  • 00:30:03
    てるわけですね例えば10人に世論調査を
  • 00:30:06
    して内閣を支持する人が4人指持しない人
  • 00:30:10
    が6人だったという風にしましょうこの時
  • 00:30:13
    内閣事実は平均値割合を求めるだけですが
  • 00:30:17
    え1+1+0+1+0+0+0+0+1+
  • 00:30:21
    0をえっと10人で割って0.40%です
  • 00:30:25
    ねみたいな計算をするわけなんですねただ
  • 00:30:29
    これ内閣実を計算するために消極的指示も
  • 00:30:33
    積極的指示も同じ指示という風にカウント
  • 00:30:35
    してますよね
  • 00:30:36
    内閣を指示するつったってえっとその指示
  • 00:30:40
    の度合にはグラデーションがあるわけです
  • 00:30:42
    ね今回は指示か不指示のみに焦点を当てて
  • 00:30:46
    おりその指示の度合だったり不知事の度合
  • 00:30:49
    っていうのは全く無視してるわけですよ
  • 00:30:51
    そういう風にえっと今回は指示の度合って
  • 00:30:54
    いうのを無視することによって指示率って
  • 00:30:57
    いう計算ができてるわけです
  • 00:30:59
    本来だったら積極的に指示するのか消極的
  • 00:31:02
    に指示するのかみたいなのを分けて
  • 00:31:04
    アンケートを取らなきゃいけないんです
  • 00:31:06
    けどもそれってやっぱり物理的コスト経済
  • 00:31:08
    的コストがかかるよねっていう話になる
  • 00:31:10
    わけですよ
  • 00:31:15
    ということでこんな感じですね我々は
  • 00:31:18
    データをカウントえデータを記録する時に
  • 00:31:21
    ですねえ数値化するわけでその数値化って
  • 00:31:24
    いうところでえこう必要なもの不必要な
  • 00:31:27
    ものを選択しています
  • 00:31:31
    じゃあこれをですねちょっと人間的な観点
  • 00:31:33
    から少しカウンターしてみるということを
  • 00:31:35
    やってみます分かるっていうことなんです
  • 00:31:37
    けど我々は累に分けることで理解してい
  • 00:31:40
    ます分類っていうのは類に分けるでしょ
  • 00:31:43
    分けることによって分かるっていう話なん
  • 00:31:46
    ですね
  • 00:31:46
    だけどこの累に分けるっていう行為が今
  • 00:31:50
    さっきの計算的観点から言うとこれ主観的
  • 00:31:53
    なんですねだからこの主観的なか類しか
  • 00:31:58
    我々は形成することができないからその類
  • 00:32:01
    というのは意味をなさないことが多いわけ
  • 00:32:03
    です
  • 00:32:05
    ま言っちゃうと我々って分類したがる
  • 00:32:09
    生き物なんだけどその分類にはしばしば
  • 00:32:12
    意味がないということです
  • 00:32:14
    でなんでそうやって累を作って分けあの
  • 00:32:19
    安心しちゃうかっていうと我々は
  • 00:32:20
    ナラティブバイアスという認知的な癖を
  • 00:32:22
    持ってますこれは理解しやすい物語を適用
  • 00:32:25
    することで物語を単純化するえ認知的癖の
  • 00:32:29
    ことを言います例えばえっと最近の
  • 00:32:33
    ニュースで言うと広瀬り子逮捕されました
  • 00:32:36
    よねあれってえっととばさんとの不倫から
  • 00:32:40
    こう不倫があってそれでちょっと干されて
  • 00:32:44
    え今回の事件になったでしかもすごく
  • 00:32:47
    取り乱してる薬物やってんじゃねえか
  • 00:32:49
    みたいなねだから結局それって結構分かり
  • 00:32:53
    やすい物語なんですよねえっと不倫によっ
  • 00:32:55
    て転落した本当に転落したかどうかなんて
  • 00:32:59
    本人にしか分からないま本人が別にねえっ
  • 00:33:03
    と幸せならそれであのいいわけで他人がて
  • 00:33:08
    あの他人がねえっとたえっとそそのあの
  • 00:33:14
    周りから見てその人の人生が転落したとか
  • 00:33:16
    なってのはやっぱ傲慢ですよねうんでえっ
  • 00:33:20
    と結局本人にしか分からないことなんだ
  • 00:33:23
    けどもやっぱり何か悪いことをしてえっと
  • 00:33:28
    その結果こう
  • 00:33:30
    えーまそのバツを受けたというかそういう
  • 00:33:35
    あの悪い悪いやつにはやっぱりあのそれの
  • 00:33:38
    バツが下されるべきであるっていうのは
  • 00:33:41
    結構我々の中で納得しやすい物語ですよね
  • 00:33:45
    だから本当かどうか別としてえっとそう
  • 00:33:48
    いった理解しやすい物語に物事を当てはめ
  • 00:33:51
    てあこういうことなんだねって理解して
  • 00:33:55
    しまう認知的癖のことをなティブバイアス
  • 00:33:57
    という風に言いますえこれ結構難しいん
  • 00:34:00
    ですけども例えばこういうことですね自分
  • 00:34:02
    は理系だから人文社会系の講義を利習する
  • 00:34:05
    理由がない
  • 00:34:06
    こういうのもですねえっと無駄な類のえっ
  • 00:34:10
    と例の1つです
  • 00:34:12
    え理系とは受験する学部を絞るためだけの
  • 00:34:15
    類であって学問には無要の類であるていう
  • 00:34:18
    ことなんですねえこれから皆さんがやる
  • 00:34:20
    学問の中には文系だの理系だのそんなの
  • 00:34:23
    関係ないですかねまデータサインスの例と
  • 00:34:26
    かを見たら分かると思いますが文系理系と
  • 00:34:28
    かもはや関係ないですだけれども大学入学
  • 00:34:32
    も理系という言葉に行語を単純化すること
  • 00:34:35
    で理系は文系の科目は勉強しなくていいっ
  • 00:34:39
    ていうのが単純な物語ナラティブですよね
  • 00:34:42
    はいだからま物語を単純化することで利習
  • 00:34:45
    しなくて良い理由付けをしてるわけですね
  • 00:34:49
    はいこれはナラティブバイアスとその意味
  • 00:34:52
    のない類を行ってるっていう例の1つです
  • 00:34:57
    はい
  • 00:34:59
    分かるっていうこと以外にも測
  • 00:35:01
    るっていうことについても考えていき
  • 00:35:03
    ましょう我々は計算を要因するために人間
  • 00:35:06
    社会の多様性を数値化することで確実的な
  • 00:35:09
    データとして測っていますさっきのえっと
  • 00:35:13
    選挙の話で言ったらえ積極的な指示も消極
  • 00:35:16
    的な指示もどっちも指示積極的な不指示も
  • 00:35:21
    え消極的な不指示もどっちも不指示みたい
  • 00:35:25
    な風に単純化するわけですよ本当は
  • 00:35:28
    グラデーションがある指示の中にも不指示
  • 00:35:30
    の中にもグラデーションがあるんだけども
  • 00:35:32
    それは同じものとしてデータとして測って
  • 00:35:35
    ますだからそうやって単純化することに
  • 00:35:38
    よって我々が本来持っている人間社会の
  • 00:35:41
    多様性っていうのを失っていますでこの
  • 00:35:45
    ようなデータの数値化には利便性と欠点が
  • 00:35:47
    ありますまずは計算が簡単になるっていう
  • 00:35:50
    意味では利便性があります一方で多様性を
  • 00:35:52
    失うっていうことに対して欠点ですだから
  • 00:35:55
    このバランスを取ることが重要なんですね
  • 00:35:58
    でもっと言っちゃえばですねえある度で
  • 00:36:03
    人間社会をは測るっていう行為自体が傲慢
  • 00:36:07
    なんです本当はこれやっちゃいけないん
  • 00:36:09
    ですいいですかでもなんでデータサでこう
  • 00:36:14
    いうことが許されるのかって言うとですか
  • 00:36:16
    本当はグラデーションを考えなきゃいけ
  • 00:36:18
    ないグラデーションを考えるってことは
  • 00:36:20
    計算量が膨大になるわけですでそうやって
  • 00:36:24
    計算量が膨大になったら我々の持ってる
  • 00:36:27
    リソースだけではやっぱ人間社会ってのは
  • 00:36:29
    測れないわけですよだからある程度単純化
  • 00:36:32
    して理解しやすい形に落とし込む情報を
  • 00:36:35
    削ぎ落とすデータを削ぎ落として情報を
  • 00:36:38
    作るつまりデータサイズがマイナスあの
  • 00:36:40
    引き算の学問だってのはこういうところ
  • 00:36:42
    から来てるんですねそうやって多様性を
  • 00:36:45
    失う代わりに我々は情報を引き出してる
  • 00:36:48
    わけです
  • 00:36:49
    いいかなだからデータサイスっていい本当
  • 00:36:56
    はやっちゃいけないことなんだけどもでも
  • 00:36:59
    何も分からないよりはマしであ
  • 00:37:01
    るっていうような態度なんですね
  • 00:37:06
    ただそれだけなんですよだからデータサイ
  • 00:37:09
    スっていくらやっても心理に近づくとか
  • 00:37:12
    そういうことにはつがりません
  • 00:37:16
    までちょっとだけ人間社会のことが分かっ
  • 00:37:20
    た気がするっていうような態度なんですね
  • 00:37:24
    ということでこの測るっていうことが実は
  • 00:37:28
    残酷残虐性を帯びてるんですねということ
  • 00:37:31
    でこの演習問題4っていうのを少し考えて
  • 00:37:35
    みてくださいある湖で網を使用し10年間
  • 00:37:38
    毎日を行いましたこの10年間釣れた魚は
  • 00:37:41
    全て体調が1cm以上であったとこのこと
  • 00:37:44
    からこの湖や体調1cm以上の魚しか存在
  • 00:37:47
    しないという風に推論しましたこの水論の
  • 00:37:50
    妥当線について考えてみてくださいどうぞ
  • 00:38:10
    はいじゃあいいですかね回答いきます使用
  • 00:38:13
    した網目の目の大きさが定移されてないの
  • 00:38:16
    で妥当かどうかまず議論できません例えば
  • 00:38:19
    網の目の大きさが1cm以上であればどれ
  • 00:38:22
    だけその網を利用しても体調1cm未満の
  • 00:38:25
    魚を釣ることができませんだからこれは
  • 00:38:28
    妥当じゃないっていう水論になりますし
  • 00:38:30
    網の目の大きさがすごく小さかったらえ
  • 00:38:33
    体調1cm未満の魚が引っかからないって
  • 00:38:36
    のは10年間ありえないですよねだから
  • 00:38:39
    本当に難時やないかっていう風に議論でき
  • 00:38:41
    ますし今回そもそも定義がえっと曖昧なの
  • 00:38:44
    で議論すらできないっていうのが答えです
  • 00:38:48
    はい今のがですね測ることの残虐性をあの
  • 00:38:53
    示した例の1つなんですがまなかなかそう
  • 00:38:55
    見えにくいかもしれませんが我々は測る時
  • 00:38:59
    にある種の網の目を用意するわけですね
  • 00:39:02
    その網の目に引っかからない人は見え
  • 00:39:04
    なかったものとして扱ってるわけですよ
  • 00:39:07
    これがまず残虐的であるということなん
  • 00:39:10
    ですね
  • 00:39:12
    えっと例えばえ岡山市長どんな風に言っ
  • 00:39:16
    てるかって言うとえっと岡山市は待機児童
  • 00:39:20
    0人ですという風に言ってるわけですね
  • 00:39:24
    あすごいなってま事情知らんかったら
  • 00:39:27
    分かると思うんだけどもえっとうちの従子
  • 00:39:30
    がですねえ結局え保育園に預けたくても
  • 00:39:34
    預けられないという状況まあの
  • 00:39:38
    従はですね待機児童であると2名の待機
  • 00:39:42
    児童がいるという風に言ってるわけなんだ
  • 00:39:44
    けども岡山市の公表としてはえ待機自動は
  • 00:39:47
    0これ何かって言うとえ従子はですねえっ
  • 00:39:51
  • 00:39:53
    岡山県の間市出身ですだからえっと車で1
  • 00:39:57
    時間半とか2時間くらいで岡山市にあの
  • 00:40:02
    実家があるわけなんですけどもまそれでも
  • 00:40:04
    遠いですよねでえその実家にはえっと
  • 00:40:08
    母親がいるわけなんですけどもその母親は
  • 00:40:11
    ま7070ちょっとちょっと過ぎたえっと
  • 00:40:15
    もうあの70近いえっと方なのでえっと
  • 00:40:23
    毎日毎日通うとか難しいんですがえっと
  • 00:40:25
    岡山市の言文としては近くに家族が住んで
  • 00:40:28
    いるとその家族にえっと子供の世話をさ
  • 00:40:32
    せればあなたは働きに出ることができると
  • 00:40:35
    2時間毎日来るのかいっちゅう話なんだ
  • 00:40:37
    けどねええま一緒に住めばいいじゃんって
  • 00:40:41
    思うかもしれないけどもうん
  • 00:40:48
    間にがるってことは介護とかいうのもあるわけだからねでそういうのを無視して毎日
  • 00:40:49
    2時間通えば
  • 00:41:09
    預けることできるよねとあなたは働けるよねと働けるんだから保育園に預ける資格がないよとだから気児童ではないとこういうジックなんですねこれもですねえっと待機児童のみ目をすごく大きくすることによって引っかからを増やしてるっていう例の
  • 00:41:10
    1つですよね
  • 00:41:11
    毎日毎日2時間通る親がどこにおんねん
  • 00:41:15
    ちゅう話ですよしかも自分の家のことも
  • 00:41:18
    あるのにねそれだけで1日4時間使っ
  • 00:41:21
    ちゃうわけでしょまあまあ信じらないです
  • 00:41:24
    よねまあまあそれは置いといてえこういう
  • 00:41:27
    考え方ってのは世の中に非常にはってます
  • 00:41:30
    例えば教育の無償化は本当に勉強する学生
  • 00:41:33
    のみを対象とすべきであるとか生活保護は
  • 00:41:36
    本当に働けない人に支給すべきであるとか
  • 00:41:39
    そもそも教育というのはえっと受益者が
  • 00:41:42
    ですね国なわけですよ国個人じゃなくて国
  • 00:41:46
    が受益するわけですからそのえっと対価を
  • 00:41:50
    支払うっていう意味でこの教育無償化って
  • 00:41:51
    のは当然な
  • 00:41:53
    あの国が受益者なんだから当然国がお金
  • 00:41:57
    出して叱るべきだよねっていう受益者負担
  • 00:41:59
    から言うと無償化ってのは当然なんですね
  • 00:42:02
    やらない理由がないで生活保護に関しても
  • 00:42:05
    これは福祉政策ですからえ本当にたえっと
  • 00:42:10
    まあの要はえっと食いっぱくれてえっと
  • 00:42:16
    ガシとかしないようにこういうもの設け
  • 00:42:18
    てるわけじゃないですかセーフティー
  • 00:42:20
    ネットとしてだからえっとそうやって本当
  • 00:42:23
    に働けないとかそういうジャッジとかね
  • 00:42:25
    そういうの自体がま生活の要件は決まっ
  • 00:42:28
    てるんだからその要件に合えば別に本当に
  • 00:42:32
    働けるとか働けないとかどうでもいいわけ
  • 00:42:33
    ですよ要は要件を満たしてるかどうかだけ
  • 00:42:37
    なんですね本当にえ見なきゃいけないのは
  • 00:42:40
    でいいこういうのってすごく合板だと思い
  • 00:42:43
    ませんか他人がジャッジしていいもんじゃ
  • 00:42:45
    ないですよね本当に勉強する学生って誰の
  • 00:42:48
    ことやねんと本当に働けない人って誰の
  • 00:42:50
    ことやねんと
  • 00:42:51
    でこの世の中に本当を適切に測れる者って
  • 00:42:55
    存在しません
  • 00:42:57
    てか逆に存在するんだったら僕に示して
  • 00:43:00
    ください
  • 00:43:02
    でこうやって結局我々って見たいも差しで
  • 00:43:06
    他人を図ってるだけなんですよでこの他人
  • 00:43:09
    を測るっていうこと自体がもう傲慢ですよ
  • 00:43:11
    ね生活保護のお金をどう使おうてその人の
  • 00:43:16
    自由なわけですよそんなも他人がね自分の
  • 00:43:19
    尺度で測ってえその使い方は不適切だとか
  • 00:43:22
    もっといい使い方があるとかそれのただの
  • 00:43:24
    傲慢ですよ
  • 00:43:26
    こういうねえっと本当にそその人間社会の
  • 00:43:30
    実態っていうのを忘れてえっと他を
  • 00:43:34
    ジャッジするってことは本当に残虐なん
  • 00:43:36
    ですよいいだからデータサインスの
  • 00:43:40
    リテラシを身につけたっていう1つとして
  • 00:43:42
    僕はこういうことをねちゃんと測
  • 00:43:45
    るっていうことの残虐性を理解するその上
  • 00:43:47
    でいい残虐だけれども測るってことは残虐
  • 00:43:52
    なんだけどもそれでも何も分からないより
  • 00:43:55
    はいいよね
  • 00:43:57
    データでは人を殴る道具ではないよねとま
  • 00:44:02
    そういうことを理解することがまず第1歩
  • 00:44:04
    かなという風に思いますリテラシとして
  • 00:44:07
    はいじゃあこれどうやって解決したらいい
  • 00:44:10
    のかってことなんですが多様性というのが
  • 00:44:12
    キーワードになります情報というのは
  • 00:44:14
    データをある立場から説明したものに過ぎ
  • 00:44:16
    ません必ず盲点っていうのが存在しますで
  • 00:44:19
    自分と同じ意見を持つ人と一緒になってる
  • 00:44:22
    だけではエコーチェンバー現象っていうの
  • 00:44:24
    を引き起こしますでえその結果フィルター
  • 00:44:27
    バブルえっと女えそういった自分の周りに
  • 00:44:31
    えっと自分を支持する意見だけが集まって
  • 00:44:34
    その意見に囚われてしまうっていう現象が
  • 00:44:37
    起こります
  • 00:44:38
    だからこれどうやって解決したらいい
  • 00:44:41
    かって言うとま正論で人間を動かないんだ
  • 00:44:44
    けどもえそれでもね自分と異なる意見を
  • 00:44:47
    持つ人と交流するってことは大事ですそれ
  • 00:44:50
    8に本来本来持つべき人間あ持っている
  • 00:44:54
    人間社会の多様性っていうのが唯一の方性
  • 00:44:57
    になりますでえっと島根大学ねえっとどの
  • 00:45:02
    国立大学にも負けない唯一のあのいいこと
  • 00:45:05
    がありますそれはねキャンパスが分れてな
  • 00:45:07
    いってことなんですこんな狭いキャンパス
  • 00:45:10
    でえ皆さんは学部の違う人とえ学年の違う
  • 00:45:14
    人とすぐに知り合いになれるわけですよ
  • 00:45:18
    これ小さい大学だからこそのあのメリット
  • 00:45:21
    ですのでえ自分とは異なる意見を持つ人と
  • 00:45:26
    積極的に交流してくださいで多様な視点を
  • 00:45:30
    取り入れることでデータ分析の制度も向上
  • 00:45:32
    しますしより公平な結果っていうのを得る
  • 00:45:35
    ことができますなので多様性ってすごく
  • 00:45:38
    データサイエンスの中ではキーワードに
  • 00:45:39
    なりますでこれえっとなんか人文社会的に
  • 00:45:43
    ね対応性が大事だって言ってるように
  • 00:45:45
    聞こえるかもしんないけどもえっともっと
  • 00:45:47
    皆さんに衝撃的なあの結果があって多様性
  • 00:45:51
    がある集団の方が平均値が高くなりますし
  • 00:45:55
    えっと多様性がある集団の方がえっとより
  • 00:45:58
    良いえ最適会っていうのを求めることが
  • 00:46:01
    できますこれは数学的にも統計的にも示さ
  • 00:46:05
    れてることなんですね
  • 00:46:07
    はいということでえっと人間的観点だけ
  • 00:46:11
    じゃなくて計算的観点そしてえっと統計的
  • 00:46:14
    観点からも多様性ってのは重要なんですま
  • 00:46:17
    それはえっと今喋ってもあのしょうがない
  • 00:46:20
    のでおいおいあの事例とかを紹介していけ
  • 00:46:22
    たらなという風に思います
  • 00:46:24
    はいということでえ最後ですえ皆さんが
  • 00:46:28
    やるべきことってことなんですがいきなり
  • 00:46:30
    統計的観点計算的観点人間的観点に立って
  • 00:46:33
    えっと考えなさいって言ってもですねこれ
  • 00:46:35
    バランスよく物事を観察できる人ってのは
  • 00:46:38
    難しいです難しい
  • 00:46:41
    そもそも人間って偏るもんだからねえ全部
  • 00:46:45
    を学びなさいていうのは理想的だけども
  • 00:46:48
    それはあの理想であってなかなか難しい
  • 00:46:50
    ですじゃあえももしねえっとそんな
  • 00:46:55
    バランスよく物事を観察できる人だったら
  • 00:46:58
    どの会社行ってもどの社会でも重宝され
  • 00:47:01
    ますよ逆に言えば重宝されるってことは
  • 00:47:04
    バランスよく身につけることは難しいって
  • 00:47:06
    いう話ですから
  • 00:47:09
    じゃあ皆さんどうしたらいいかって言うと
  • 00:47:10
    まず皆さんが得意な観点または得意じゃ
  • 00:47:13
    なくても自分はこの観点を重要視したいと
  • 00:47:16
    いう観点を1つ見つけてくださいで加えて
  • 00:47:19
    自分とは異なる鑑定を持つ仲間を見つけて
  • 00:47:21
    大事にしてくださいまずこれがですねえっ
  • 00:47:24
    と統計的リテえデータサインスリテラシを
  • 00:47:26
    身につける上で重要なあの観点かなという
  • 00:47:29
    風に思いますでこ異なる観点を持つ仲間と
  • 00:47:33
    協力することでより多様な観点からの物語
  • 00:47:36
    を理解しより良い結果を得ることができる
  • 00:47:38
    ということですがまこれはあの表語的な話
  • 00:47:41
    じゃなくてえあの実際のね実例がいくつも
  • 00:47:45
    ありますえエニグマの解読だったりま
  • 00:47:48
    いろんなところでねはいということなんで
  • 00:47:51
    まその事例についてはゆっくり話していく
  • 00:47:53
    ということでま皆さんえ今回この統計的
  • 00:47:56
    観点計算的観点人間的観点っていうのをま
  • 00:47:59
    深く考えてですねえまず重要視したい観点
  • 00:48:02
    というのを1つ考えてみてくださいえそれ
  • 00:48:04
    が今回のミニレポートですねはいという
  • 00:48:07
    ことで今日はここまでになります
Tags
  • データサイエンス
  • 信頼性
  • 誤差
  • 系統誤差
  • 偶然誤差
  • バイアス
  • サンプリングバイアス
  • 確証バイアス
  • 多様性
  • リテラシー