言語統計学A
Statistics in Lingusitics A
みなさん、はじめまして。言語統計学を担当します山田です。このウェブサイトでは、事前学習のビデオと配布資料を掲載しています。授業では、これらのビデオや資料を事前に予習していることを前提に進めます。必ず目を通してきてくださいね!
※オレンジの枠がその授業での配布物、その右のパネルにその授業で登場する大事なシーン、その下の茶色いバーが予習動画へのリンク(薄茶色は、やや重要度が下がる動画)、最後に薄水色のパネルにその授業の振り返りのコメントを載せました。
参考にして下さい。
※授業のテキストは、初回授業で配布します。
Lecture 1 イントロダクション
Introduction



Class 1 Introduction to Stats in Linguistics
04/10/2024
配布物

【講師からのコメント】「統計」はとても面白くて、役に立つ科目ではありますが、ただ、その理論だけを学んでノートを取っても仕方がありません。ぜひ、卒論、修論、博論をはじめとするみなさんの研究に実際に使ってみてください。でも、そのためには、どういう「問い」に答えるために、どんな統計手法が存在しているのか、あるいは、そもそも自分はどういう「問い」を発する研究をしているんだっけという自分の立ち位置をしっかり理解しておくことが必要です。この第1講では、そのようなみなさんの研究と、これから学んでいく諸統計手法とをつなげていきます。ぜひ、「統計を学んで、自分のキャリアアップを図るぞ!」という志を新たに、有意義な新年度をスタートさせるきっかけにしていってほしいな、と思っています。



Lecture 2 推測統計学の四つの重要概念
Fundamentals in Inferential Statistics
Class 2 標本、母集団と標本分布
04/17/2024
配布物

【講師からのコメント】第2講の前半では、今後の授業の主要登場人物となる母集団、標本、統計量、標本分布という四つの重要概念をご紹介しました。とりわけ、統計量と標本分布という二つの概念が理解できたら、統計学の最初の難関をクリアしたと言えるでしょう。実は、第3講で習うt検定とは、ある統計量の従う標本分布に注目をしていきますので、統計量と標本分布への理解は必須になってきます。この二つの概念はここでしっかり押さえておきましょう。また、標本分布に関する大事な話として「中心極限定理」というものが登場しました。これもt検定を話すうえで避けては通れない大事な話です。こちらも、理解に不十分さを感じたら、授業で積極的に質問してください。
後半(Lec 2-3 A)は、よく使われる統計量のなかで「データの中心を表すもの」をピックアップして紹介しました。次回は、さらにたくさんの統計量を紹介しますよ。
Class 3 さまざまな統計量
04/24/2024

【講師からのコメント】今回は(前回の第2講の最後の話に続いて)有名な統計量にいったいどういうものがあるのかを紹介する具体事例の紹介です。その意味で、少し中高の数学の授業っぽかったでしょうか…。
なお、今回は、いろんな指標がたくさん登場したのですが、あくまで紹介という感じなので、あまり完璧主義者にならずに、ふーんと思って聞いていただいて結構です。つまり、「全部の定義を覚えて自分で計算できればイケナイのか!つらい!」と思う必要はありません。そのような微視的な姿勢で臨むよりも、少し肩の力を抜いて、「具体例を通じて、統計量の背景にある大きな考え方(ストーリー)に慣れておこうかな~」とか「オーライ、オーライ、細かい定義は、必要になった時に見返すよ~」というくらいの、そんな緩やかな心構えで大丈夫です(みなさんの研究でも具体的な計算はPCがやってくれますから)。将来知りたい時が来た時のための「事典」を用意しておいたのがこのClass 3だった、とでも捉えておいてください。
そうは言っても、「なんか覚えておかなければならないものがあったんでしょ…取捨選択するならば何を優先的に覚えればいいの?」と思った方は、この第2講で学んだ統計量の中でも、今後、圧倒的に「平均」「分散」「共分散」という三つの統計量が活躍していきますので、この三つだけは少なくとも押さえておいてください。
なお、「分散」と「共分散」については、頼まれて書いた原稿があるので、それを上の「補足資料」においておきました。ビデオを見て分かりにくいなと思ったら、併せてお読みいただき、理解に役立ててみてください。
Lecture 3 t検定
t-test



Class 4 t-test (Part 1)
05/22/2024

【講師からのコメント】GWも終わって、いろいろな授業も難しい内容を扱い始めるころでしょうから、予習・復習も少ししんどくなってきている人もいるかもしれませんね。でも、修行の先には、成長した自分がいると思って、ぜひくじけず、初心を忘れず、未来を見据えて頑張っていきましょう。
さて、話の流れとしては、今回は、前回Class 3の発展というよりも、標本分布と中心極限定理のお話をしたClass2の続きになっています。
ちょっと複雑な見た目の式が登場して、身構えた人も多かったかもしれませんね。しかし、決していきなり数式を見て「わからない」と思わないことです。一見すると複雑な形をしているというものでも、いくつかのパーツが寄せ集まってできています。なぜそれぞれのパーツが必要だったのか、という「理屈」の方を追いかけてやると、「統計の物語」を楽しむことができるようになってくると思います。巨視的な視点を持つことが統計学を得意に、そして、楽しむためのコツです。
…といわれると、あれ、いったい大きな物語とは何だったんだっけ、と思ってしまう人もいるかもしれないので、念のため、ここまでの授業で、どのようなストーリーを分かっていただいて欲しかったのかを、まとめておきますね。
統計手法には、リサーチクエスチョンに合わせて色々なものが提案されていました。そして、それらは独立変数がどのような性質で、従属変数がどのような性質なのか、という視点から分類されるのでしたね(第1講)。その中で一番単純なケースが、独立変数が名義尺度で、従属変数が比率尺度となるこのt検定でした(第3講)。t検定は、標本分布の中における統計量のポジショニングを問題とするので、その前座として、第2講で、統計量や標本分布という重要概念を習い、そして、「平均」という統計量の持つ大変便利な性質である「中心極限定理」を学んでおいたのでした。平均に注目したいのは、その標本分布が(標準)正規分布という扱いやすい分布に結び付いていたからです。しかし、残念ながら、全知全能の視点には立てない人間の宿命として、標準正規分布は使用することができず、そこで工夫を凝らして標準正規分布に「なりかけ」の分布であるt分布を使わざるをえなくなった…。こうして、わたしたちは、t分布という標本分布を用いて帰無仮説の是非を考える仮説検定を使うことができるようになった…こんなことが、今回までの授業の物語です。
Class 5 t-test (Part 2)
05/29/2024
配布物
新しい配布物はありません。
【講師からのコメント】
もう一度、Class 4のコメントを読んで、現在のわれわれの立ち位置を復習してください。さて、このClass 5では、あるバージョンアップを行って、「二群の差の検定」のロジックを完成させました。
それは、どういうものかというと、Class 4まででは、「yの平均」という一つの集団から計算された統計量を話題にしていたのですが、今回は、二群(つまり、二つのグループですね)の平均値の差を話題にしたいので、「y1の平均値」-「y0の平均値」という引き算が登場しました。やだな…式が複雑になってしまった…式が変わってしまったら、今までの議論が使えなくなってしまうんじゃないか、と思いきや、正規分布の再生性という便利な性質のおかげで、実は今までの議論をそのままリサイクルすることができるのだった…!というラッキーさが伝わっていたらうれしいです。
さらに、「二種類の過誤」という付録では、仮説検定に付きまとうリスクの話もしておきましたので、こちらもしっかり覚えておいてくださいね。
Class 6 t-test (Part 3)
06/05/2024
配布物
新しい配布物はありません。
【講師からのコメント】「二群の平均値差の検定」、つまり、二つの集団の平均値に母集団レベルで差があるのかを議論することは、分野を問わず多くの研究者が関心を寄せる問いです。それはせんじ詰めれば「差はあるのかい!ないのかい!どっちなんだい!」というものです。しかし、二つのグループの差を議論するときに「あるのかないのか(検定)」だけではなく、「どのくらいあるのか?」という視点からも論じることができますね。
こういうときに用いられるのが、区間推定や効果量という概念です。昔は、検定だけで論文が書くことが横行していた暗黒時代もありましたが、その結果、ブラックボックス的に統計を使っている人たちが(本人も自覚しないまま)「実質的には差なんてないのに、差はある(ので、AとBは違う)」なんてへんてこな結論を主張してしまったりして大きな問題になりました。そこで、「あるない」だけでなく「どのくらい」ということについても論文でふれるという研究潮流が生まれ定着しました。みなさんの研究でも、このような複数の視点からデータを解釈する姿勢はぜひ実践してみてください。
Lecture 4 Simple regression
Simple regression (Part 1)

【講師からのコメント】統計手法は、x (独立変数)とy (従属変数)の種類によって分類され、x(名義)、y(比率)が、t検定を用いる場面である、という話をしてきました。その話が終わったので、次にx(比率)、y(比率)という場面で使われる統計手法として、ここでは、単回帰分析の紹介を始めてまいりました。
しかし、ここでのポイントは「t検定と全くの別物として、単回帰分析を捉えないで!」です。t検定で習った話の自然な拡張として単回帰分析が存在している、ということを訴えたくて、上にも掲載している立体的な図まで持ち出して、みなさんにご紹介しました。独立変数が、0と1のどちらかしか取れないt検定の枠組みと比べたら、0でも1でも、2.5でも、ルート99でも、なんでもござれ、という単回帰分析の枠組みは、より一般的なモデルを提案しているということが分かるでしょう。
なので、次週以降の講義内容についても、ある程度もう予測がついているという人もいるかもしれませんね。そうなんです。これから、t検定的な枠組みでそうであったように、「直線は地面と平行なのか、傾いているのか、どっちなんだい!」という「あるのかないのか」の議論を行ったり、「傾いているとして、その傾きがどのくらいなの?」という視点から議論を行ったりします。そこで、来週は、単回帰分析というより一般的な枠組みで、検定や区間推定、点推定の話を見ていきたいと思います!
Class 7 Simple regression (Part 2)
06/12/2024
配布物
新しい配布物はありません。
【講師からのコメント】第7回目ということで、この授業もおよそ半分の地点に到達しました。発表やら課題やらできつい時期かもしれませんね。ですが、ここまでたどり着いた皆さんです。後半戦もきっと駆け抜けられます!
駆け抜けられると思う、その証拠が、t検定の話で話題になった概念が、再び登場しはじめてきたことです。標本、母集団、統計量、標本分布という役職が、やはりこの単回帰分析でも主要な役分かりを果たしていて、得られた標本を基に、母集団の値を推定するというパターンは、全く同じです。何度も出てくる概念はそれだけ重要だということ。もう一度単回帰分析の文脈で理解を深め、この繰り返しで、残りの学期を制覇してしまいましょう!
ちょうど、この「反復」という事実が、t検定的な枠組みの発展として単回帰分析の話があるをも示唆しています。時間の都合上、t検定の時には触れられなかった不偏性などの話を回収したり、t検定とは少し式の形は違ったりしていますが(この式の形は覚える必要はありません)、やろうとしていることは、押さえられているという気持ちでいられたら、順風満帆!100点満点です!
なお、昔、台風で授業をオンラインで実施した時のログがありますので、参考されたい方は次のリンクをご活用ください。
Class 8 Simple regression (Part 3)
06/19/2024
配布物
新しい配布物はありません。
【講師からのコメント】統計学で一番怖いのは「なんかわからないけれど、ブラックボックスで使って答えが出ている(らしい)」という状態です。仕組みが分かっていないので、間違って(いるのに自信を持ってしまって)いるかもしれないからです。
t検定のモデルも、単回帰のモデルも、あくまで「モデル」なんですね。「仮に母集団が一本の直線で要約できている状態だったとしたら」という前提があり、「それなら、その直線の傾きは、3から5暗いと考えざるを得ないね」とか「それなら、その直線の傾きは0ではないね」という議論をしているわけですが、当然「そもそも『母集団が一本の直線で要約できている状態』」だって盲目的に信じていいのかな…。こういう疑念は、どんな統計モデルを母集団に仮定するときであっても、常に考えておかないといけない大事なことです。そして、上に指摘したブラックボックス統計学者が忘れてしまいがちなことです。
残差や決定係数、そして様々な回帰診断といった、このClass 8で紹介された概念は、こういった統計学における「自制心」に関わる指標です。実践では、ぜひこのような検証を行い、慎重な統計ユーザーというものを目指していってほしいなと思います。



Lecture 5 Multiple regression
Class 9 Multiple regression (Part 1)
06/26/2024

【講師からのコメント】そろそろもう一度、大きな授業の流れを振り返っておきましょう。第1講で、様々な統計手法の分類を行いました。そのうち、第3講で、t検定を、第4講で、単回帰分析を扱いました。これらの手法はどちらとも独立変数が一つだけという単純なパターンを考えていたわけです。例えば、これらの手法は、「容認度(y)が、疑問文か否か(x)で変わる」というようなケースをモデル化するのに有用でした。
しかし、どんな研究でも、従属変数(y)に影響を与える要因が一つだけというのは考えづらいのではないでしょうか。そこで、そんな需要にこたえるために、独立変数が複数ある場合に当てはまるように、単回帰分析を拡張したものが今回から数回にわたって論じていく重回帰分析です。
とりわけ今回の話は、統計学という視点だけではなく、リサーチクエスチョンを考えるという、研究一般においてとても大事な視座を提供してくれます。AがBに影響を与えると、自分が思い込んでいるけれども、実際にはそれは、見かけ上の相関だったみたいなことだったしたら、大きく研究で転んでしまいかねません。そろそろいろいろな授業でレポートなどを考え始める時期でしょうから、ぜひこの機会に、自分の主たる研究テーマを題材に、複数の変数たちの関係をつぶさに見つめなおすということもやってみてくださいね。
Class 10 Multiple regression (Part 2)
07/03/2024
配布物
新しい配布物はありません。
【講師からのコメント】今回の授業の前半は、偏回帰係数についてでした。「特殊な事情が成立しない限り」、この係数の値は、単回帰係数の値とは一致しない、という点を忘れないでいてください。
後半は、決定係数についてでした。単回帰分析のトコロでも出てきていましたから、単回帰の時の話が自然に拡張されているということを自分が理解できているなと思えていたら、申し分ない学習状況です。
実は、この前半の話と後半の話、どちらもが、この次に見ていく分散分析という統計手法を説明するための前座になっています。今、上で「特殊な事情が成立しない限り」と言いましたが、分散分析という手法は、この特殊な事情を人為的に成立させてやろうと画策します。そして、そのような特殊な状況が成立すると、決定係数の話で見た、分散/平方和の分解という話が、さらにいろいろなところで使えることに注目していく手法なのです。もちろん詳細は後日じっくり扱いますから、気にしないでいて大丈夫なのですが、やはりここでも、統計手法同士がつながりあっているのだな、ということを頭の隅に置きながら、それらを絡ませあいながら理解を深めていっていただければ幸いです。
Class 11 Multiple regression (Part 3)
07/10/2024
配布物
新しい配布物はありません。
【講師からのコメント】前回の授業の話は、ちょうど次に見る分散分析の前座となる概念に触れていましたので、「いざ分散分析へ!」と進んでいきたいのですが、同時に決定係数は、モデルを評価する手法でもありましたので、それ以外にモデルを評価する方法を見ておこうというのが、このClass 11の位置づけです。仮説検定や区間推定はt検定や単回帰分析で見たのと同じ話がアップグレードしているだけです。
一方で、5-6節で学ぶ内容は、重回帰ならではのトピックです。なぜ、重回帰ならではなのかというと、これらは独立変数(の候補)が複数存在するからこそ考えなければならない話題だからです。考えられるもの全部モデルに入れればいいのかといえば、そんなことは無く、(できるだけ互いに関連性のない)重要な変数たち「のみ」をモデルに入れたい。なぜなら、多重共線性などの問題があるからだ。そこでモデル縮約やモデル選択ということを考える…、このストーリーラインを押さえられているかどうか、分散分析に行く前に、自分自身に確認してください。
Lecture 6 ANOVA
Class 12 ANOVA (Part 1)
07/17/2024

【講師からのコメント】この前期の授業で習う5つの統計手法の中の4つ目のモデルである分散分析に、このClass 12から入りました。ちょうどt検定が単回帰分析の特殊な場合であったのと同じように、この分散分析は重回帰分析の特殊な場合に相当します。
「より一般的なケースである重回帰分析を習ったのだから、もう学ぶことないじゃん」と思われるかもしれませんが、実はこの分散分析は、重回帰分析では予測値と残差の間でしか実現できなかった分散(平方和)の分解を、独立変数同士の間でまでできるようにしたい、という目的を持っています。そして、この初期された目的を実現させるために、データを集める時に、実験という人為的な介入をします。そこで、実験とはいったい何なのかという点をこのClass 12ではご紹介しました。
Class 13 ANOVA (Part 2)
07/24/2024
配布物
新しい配布物はありません。
【講師からのコメント】モデル式は、重回帰分析の特殊な事例に相当しますので、細かいところにとらわれすぎず、巨視的に統計手法同士のつながりを意識して眺めてください。
前回のまとめでも触れましたが、この分散分析のポイントは、重回帰の決定係数の議論を、さらに独立変数同士の間にも拡張しているということです。それがしたいがために、実験という非常に人為的な状況を成立させる努力をしているわけです。ではなぜ、独立変数の動詞にまで、平方和の分解を考えたいのかというと、それは、どの独立変数が有益かを(より正確に)判断したいから、というわけです。名義尺度の独立変数が複数あり、従属変数が比率尺度である状況で、その複数の独立変数たちの中でどれが吟味するという統計手法を学んでいるという大きな視点を忘れないでくださいね。
Lecture 7 Linear Mixed-Effects models
Class 14 LME (Part 1)
07/31/2024

【講師からのコメント】t検定、単回帰分析、重回帰分析、分散分析では、従属変数yに影響を与える独立変数(たち)は、比率尺度を取るか、名義尺度を取るとしても、AかBのように、比較的少数の分かりやすい対立を持っていました。しかし、中には、「AかBか」の二値の固定的なパターンを示すわけではなく、「使われた形容詞が何か」とか「回答してくれた人がだれか」のようにその値が多数存在する母集団の中からランダムに抽出されたと考えざるを得ないケースもあります。このような変数は変量効果変数、英語で言えばRandom-Effects Variablesと呼ばれます。これをモデル化するのが今回の授業の目的でした。確定的な値ではなく、確率的な値をバリエーションを持つため、この変数の背後に確率分布が想定されるという点を押さえてください。
Class 15 LME (Part 2)
???/2024
配布物
新しい配布物はありません。
【講師からのコメント】混合効果を使ったこのLMEは、現在の言語学の実験研究のスタンダードなモデルであると言えます。これまで習ってきた固定効果のモデルだけではなく、変量効果が入ったモデルについても、パラメータを推定方法したり、モデルの良しあしを議論することが大切なのだな、と理解していただければ、言語データ(や他の分野)で実験研究を行う上で全く怖いことはありません。
この一学期、色々難しいと思えることもあったかもしれませんが、よくぞ、ここまでよくたどり着きました!お疲れさまでした!
しかし、ここで満足してはいけません。
どこまで行っても統計学はツールです。すぐれたリサーチクエスチョンを立てられなければ、統計学も学び損です!
他の授業で培ってきた知識や技術を駆使しながら、面白いデータ分析を成就し、みなさんがこれから、自らのキャリアで大きく羽ばたいていくことを心から祈念しています!