********************************************************************** セッションs3c ワーク テーマ:確率論及統計論 輪講 講師:小川清(名古屋市工業研究所) 日時:2016/8/26 10:30〜12:00 参加人数:7名 ********************************************************************** (議事録本文) 今年の4月より名古屋市工業研究所で実施している輪講の中間報告 資料はSlideShareにアップ済み 輪講参加者の発表を各々5分ずつ紹介・代読していく 確率論及統計論 輪講の紹介 毎月1回 最小遂行人数は2人 統計科学のための電子図書システム掲載の本の1節を担当していく (数式はTEXに入力する) googleハングアウトを用いて遠隔参加も可 輪講に参加する人には,ResearchmapのIDを発行が必要(輪講参加者にはIDを発行) 公開したくない場合にも対応する 詳しくはSlideShareで確認 輪講をはじめる前に 要求と仕様をごっちゃにしていないか 「要求が変わる」のではなく,事象の,その時点で判断できる確率が変わっているだけの場合がある. 要求が変わっていないのに,プログラムを変える例を紹介 例:モンティホール問題 詳しい問題設定については後に説明 4つのプログラムの依頼 1.最初にどのドアを開けるかを決める段階までのプログラムの依頼 2.Bのドアを開けた事例でのプログラムの依頼 3.最初はBだけを開け,次にCだけを開けた場合 4.上記3に加えて,その後最初に回答するドアをBに変更してと依頼があった 要求変更はあったか. 仕様は全く変わっていない 1.仕様変更はないが,作る範囲で追加があり,追加部分が難しい 2.最初から全体の依頼 3.仕様変更はないが,途中で対応する例が変わった 4.仕様変更はないが,最初に対応する例が変わり,結果としてその後も例が変更になった 制約と仕様を明確にする 制約:社会的制約,時代的制約,市場動向 制約を可変にするかどうか. 長期的に仕事をするために 統計と確率を整理して,どういう構造のソフトウェアがよいか検討しましょう. 確率論・統計論 * 組み合わせの理論 漸化式 式自体が無限にならない 帰納法による証明が可能 順列 nCmの展開 * モンティホール問題 プレイヤーの前にドアが3つある.1つのドアは当たり,2つのドアははずれ. プレイヤーが1つのドアを選択した後,残りの2つのドアのうち1つのドアを開ける.(はずれのドアを開ける) プレイヤーは当たりを引くためにドアを変更した方が良いかという問題. 解説 変更した方が当たる確率は倍になる. (変更したら1/2,しなければ1/3) 時間の都合上,詳細は省略(webにアップしているスライドで確認) 炎上の兆候 * 炎上の兆候 プロジェクトでのトラブルを事前に分かれば早期に策を施せる なにかを測定して,兆候を見つけたい 計測 マネージャが担当の人にどういう質問を行い,どう数値化するか ->体調や焦りなどを数値化し,絶好調〜絶不調まで答えてもらう 結果 絶不調が1日発生より絶好調が1日発生の方が異常.(確率が低い) 絶不調が1日発生より不調が5日続いてる方が異常.(確率が低い) このような人を先にケアした方が良い. 関数単体テストの見積もりモデルの構築 単体テストにどれだけ時間を割くべきか,どのように計画した方がよいか. ソースコード解析ツールによるプロダクトメトリクスの計測 コード行数,実行可能行数,関数に対する入出力の数,複雑度等を計測 重回帰分析で計算 ->コード行数と寄与率でモデル化 (モデルは単純なものが良い) 結論:テスト工数を大きくするのは,コード行数 確率統計と工期バッファ見積もり データ数が少ない会社に確率統計を取り入れる PERT (Program Evaluation Review Technique) はベータ分布の概算式を用いる プロジェクトの楽観的,悲観的,実現可能な工期をそれぞれ見積もり, 平均,分散,標準偏差を概算式で計算し,工期のバラつきを算出する. ->工期の見積もりが確率で算出できる(ex.この日までに70%の確率で終わる) 数の少ない事例でも確率統計を使うことができる. 科学の四層構造(仮説) 論理科学:真と偽(0と1)を扱う 物理科学:経験則に基づいてる 生命科学:ほかの要因が強すぎる(ex.遺伝子) 社会科学:計測できない事象を扱うことが多い 違いは? 政治は何科学か? 勝ち負けしか問題にしないから論理科学 よく利用するモデルは物理科学(作ったモデルの再現性が高い) 主体は人間だから生命科学(心理学など) 社会に対して働きかけるから社会科学 ある学問の4科学の割合を決める(40%, 30%, 20%, 10%) 【ワーク】学問と4科学の表を埋める 学問ごとに相関の強い4科学の順位を決める. 【ワーク】表の回答(参加者の回答) 論理科学に偏っている...このメンバーでレビューを行うのはあまり良くない *自分の得意分野と相関がある(思い込みが強い)と,レビュアーとしては良くない. 同じ考え方・発想の人がレビューすると見落とし等が起こる. *レビューを行う場合,様々な組み合わせを選択するとより良いレビューを行うことができる. 不偏分散 nで割るのは,母集団の母分散 n-1で割るのは,不偏分散(サンプルから推定された値) 母集団と標本 標本から母集団の分散を推定するという関係 具体的な例 自由度(n=2のとき) (時間の都合上,細かな説明は省略) ベクトルを幾何学的に表す (時間の都合上,細かな説明は省略) このスライドはWEB上にアップする予定のため,興味ある人は時間のあるとき読んでほしい 統計解析〜勘〜 統計には勘が必要 勘を記録すると統計になる 分布などを決めるのはほとんど勘である 異常値などを発見するときも勘が必要な場合もある 例:飲料味覚試験 計算せずに明らかに分かる 計算が必要な場合 サンプルや項目が多い場合は,計算した方が良い -データの誤りを発見できる可能性がある -思い込みがある 「勘と確率は裏表の関係にある」 感想及び質問 * 確率統計は苦手な分野だったため,意外なところで利用できると知った.これから確率統計を使っていきたい ->データを送れば,企業からの即答できるものや官公庁や大学からの依頼は無償で受けるので,是非使ってほしい. * 確率統計を使えれば,仕事の幅が広がりそう.さらに勉強していきたい.(論理回路系の職業) ->論理回路の分野にも利用例があるのでどんどん利用してほしい. * 今回の演習が会社でのレビューにも活かしていけそう. ->優先度付けと加算を行うだけでも役に立つと思う. * 様々な問題例や応用例を紹介してもらったので勉強になった. ■まとめ 確率統計輪講の中間報告という位置づけで,輪講で紹介された内容を発表(代読)していくという形式であった. 1テーマ約5分ずつと少し短めの時間設定で,詳細な説明は省略するということはあったものの,予定の全テーマを紹介出来た. ワークとして,参加者の考えを発表する機会も設けられた. 以上。