top of page

研究会B/Seminar B

言語×DH×フィールドワーク

Language, Digital Humanities, and Fieldwork

Spring 2025

Fri 5th

コーパス作成・分析/Building and analyzing a corpus

​​

■研究会の目標(三つの柱):この研究会では、言語データのデジタルアーカイブ(コーパス)の作成と分析を行う。具体的には、次の三つの柱を中心にプロジェクトを進める。

第一は、自ら言語データを集めるというフィールドワークである。例えば、自分の生まれ育った地域の方言をレコーディングしたり、研究協力を承諾してくれた教育機関で学習者の英作文のデータを取得したり、と、参加者は、それぞれ自分が興味のある対象の言語データを集めることになる。


第二は、言語データをデジタルアーカイブ化する作業である。便利なツールなどを使いながら、後に検索ができるように適切な手段で得られたデータを書き起こし、アノテーションを施す経験を積んでもらう。


第三は、デジタルからされたテキストデータについて、応用統計学的手法を用いて解析し、言語学的解釈を与えるというデータ分析である。

■背景(問題意識):この研究会では、言語データデジタルアーカイブ化し、それを統計的に分析するというプロジェクトに従事する。

 こう言われると、たいそう難しそうに聞こえるかもしれないが、このプロセス自体は、分野に関わらず、多くの研究に共通して登場する作業となる。

 例えば、日本人の英語の実力を評価したくて、学習者の英作文をたくさん集めたとする(教育学)。あるいは、自分のふるさとの言葉を後世に伝えたくて、収集したとする(地域おこし、文化人類学)。はたまた、日本語母語話者と英語母語話者ではどのような捉え方の違いがあるのかを知りたくて、それぞれの話者に同じ絵を見せてそれを描写させてみたとする(心理学、言語学)。または、SNSに投稿されたポストを集めて、ハッシュタグ(例:#消費税、#環境問題)などの違いで、ある政策についてネガティブなのか、ポジティブなのかを調査したいと考えたとする(政策学、社会学)。

 このように、テキスト化されたデータを集めて分析するというプロセスは、研究分野に関わらず登場する。ここでは、このような文章が集まったデータをテキストデータと呼ぶことにしよう。

 さて、このテキストデータは、集めること自体とても時間と手間がかかる。フィールドワークを実践して、時間をかけて収集する。ただ、集めた後にきちんと整理をしておかないと、せっかく集めたのに活用できない、ということが起きる。2025年度は、このフィールドワークの方ではなく、集め終わった後の課題の処理の仕方に焦点を当ててみたい。

それでは、具体的に、データを集め終わった後に直面する課題とは何なのか。一つ例を挙げよう。例えば、対象となる単語を正確に検索したいと思ったとしよう。「そんなのいつもやっているよ」と思うかもしれない。確かに、ウェブサイトやワードファイルなどで対象となる単語を見つけようと思ったら検索機能を駆使して対象を見つけることができるかもしれない。

 ただし、単なるテキストデータだと限界がある。

 例えば、「直す」という言葉を検索しようとして、「直す」という文字列を検索したら、「直した」という単語はヒットしない。「直」の文字の後が「す」ではなく「し」という別の文字になっているからだ。また、「直す」という文字列を検索してしまうと、「花子は時計を直す」という「直す」だけではなく、「花子は宿題をやり直す」というような複合動詞の中に登場する「直す」や、「あいつは正直すぎる」の中の「直す」という文字列まで拾いすぎてしまう。

 このように、単純なテキストデータでは、正確な検索はできない。そこで、あらかじめテキストデータに、これは本動詞ですよ、とか、「直した」と書かれていますが、これは、もともと現在形では「直す」という動詞なんですよ、というように、追加で情報を書き込んでやる。この作業をアノテーションと言う。機械で自動的に情報を書き込める場合もあれば、人手で作業をしなければならない場合もあり、一定の作業時間がかかる。だが、これは費やす価値のある作業なのだ。

 

 アノテーションが施されたデジタルデータであれば、検索以外にもいろいろな用途で利活用ができる。これは、現代デジタル社会を支える、大切なインフラである。

 

 そこで、アノテーションのノウハウや、アノテーションされたテキストデータの取り扱いについて、学びながら、自分のプロジェクトを進めてもらうというのがこの研究会でやりたいことだ。上記に述べた通り、今後はフィールドワークのやり方から始めて、テキストデータの作り方全般を射程に入れた研究会にしていきたいのだが、初年度となるこの2025年度では主に、アノテーションとその分析という部分に焦点を当てる。

■内容:上記の目的を達成するために、この研究会では次のような進め方を取る。第一に、統計分析については、長期的な学習と、短期的な学習を組み合わせて理解を深めていく。まず、長期的な学習とは、統計学の基礎から応用の「理論」を(復習もかねて基礎から)丁寧に学ぶというものであり、下記のリンク先のビデオを1年間かけて視聴してもらう。一方で、短期的な学習とは、プログラミング言語でどうコードを書くのか、そして、その結果をどう読み取るべきなのか、という「実践」に関する学習である。両者の理解が深まることで、理論と実践を兼ね備えた分析力が涵養されることであろう。

第二に、コーパスの作成については、二つのステップを踏む。まず、研究のモデルとして、参加者全員が、教員が取り組んでいるプロジェクトに参加してもらう。毎回、課題が出されるので、それに向き合い、地道な作業を体験してもらい、コーパス作成のノウハウを学ぶ。次に、そこで学んだ知識をもとに自分自身で何らかのテキストデータのアノテーションを体験し、独自のプロジェクトを進める。

■選抜課題:こちらからダウンロードして、教員にメールしてください。

なお、メールアドレスは、後日公開される予定ですが、入手できない場合は、こちらから教員にコンタクトを取ってください。数日以内に、メールが送られてきますので、そのメールに返信する形で、添付ファイルを添えて提出してください。

Contact

Follow me

© Proudly created with Wix.com
 

  • Facebook Clean
  • Twitter Clean
  • White Google+ Icon
bottom of page