inseioka2007-02-27

先日参加した、Intensive Course in Corpus Linguists 2007での、Paul Nationの講義内容を簡単にまとめてみる。写真は、そのDr. Nation。素敵な老紳士!!でした。

第二言語習得(ここでは目標言語=英語としよう)における「ゴール」を設定する時・・・・・・最初の疑問は「学習者はいったいどれ位の語彙を学べばいいのか?」ということ。この問いには3つの側面から答えることができるだろう。①英語にはどれだけの語彙が存在するのか→120,000 word families? ②NSはいったいどれ位いの語彙を知っているのか?→年齢×1000語? ③「ある特定のこと」をするのに、どれ位の語彙が必要なのか?→これが一番いい指標ではないか? と、いうわけで、Nationは、特定のジャンルのテキストを理解するのに必要な語彙数を、ジャンル毎に推定した。これは、「これだけ語彙を知っていれば、このテキストは98パーセント理解することができる」というカバー率。これによると、「小説=9000 word families(WF)、新聞=8000WF、子供の映画=6000WF、話し言葉=7000WF」を知っていれば、その内容の98パーセントは理解できるそうな。それでも、98パーセントということは、100語に2語は未知語があるわけで、5行ごとくらいには知らない単語がでてくるということ。ただ、この未知語に関しては推測などをするので、内容は大体つかめるという。
では、専門分野の書物を読もうとすると、どれ位の「専門分野の語彙(専門用語)」が必要となってくるのか?これを求めるためには、まずは「専門用語」を定義する必要がある。専門用語は、words closely related to the subject areaなんだけど、どれだけclosely relatedかを客観的に判断するために、コーパスを使ってみた。解剖学のテキストを、Brown, LOBなどのコーパスのgeneral textと比較してみて、「一般のテキストに比べて、50倍以上頻繁に使用されている語」を専門用語とした。この作業から得られた「専門用語」は、人が主観的に判断した「専門用語」と90パーセントの割合で合致したそうな。残りの10パーセントは、その分野ではよく使われている言葉(一般のテキストと比して50倍以上使われている言葉)でありつつも、専門的ではない言葉(例えば「首」「指」など、解剖学の分野では専門用語だけれど、一般的な言葉でもある)と、一般的ではありつつも、「意味」が異なる語(例えば、応用言語学におけるacquisitionは、一般的に使われるものとは意味が異なる)など。で、テキストにおける専門用語の割合は当然ながら、分野によって異なる。解剖学の場合は、テキストの37パーセントが専門用語だったが、応用言語学の場合は、専門用語の割合は16パーセントで、Nationいわく“Applied Linguistics is more friendly subject area than Anatomy.”と。hahaha… で、結論としては、専門分野の書物を読むためには、上記の一般に必要な語に加えて、1000-4000語の専門用語を知っておくことが必要。(応用言語学=1000語でOK。解剖学=4000語必要。)
次の疑問は、「では、一体どの語彙から覚えればいいのか?」ということ。Academic Word List(AWL)のリストのsublist1から、どんどん覚えていこう。なぜなら、sublist 1は、Academic Corpusの3.6%をカバーしている。sublist 2は1.8%、sublist 3は、1.2%...というように、sublistの番号×カバー率=3.6のZipfの法則があるので。(詳細は, Wang Ming-tzu & Nation. 2004. Word meaning in academic English. Applied Linguistics, 25, 3: 291-314).
ちょっと話が代わって、今度はコロケーションの話。話し言葉と書き言葉のコロケーションは、順位がだいぶ違う。しかも、それだけでなく、話し言葉の方が、特定のコロケーションが表れる頻度が、書き言葉と比べてかなり高い。例えば、話し言葉1位はyou know(27,348回)に対して、書き言葉一位はof course(2.698回)。回数の違いに注目。話し言葉の方が、10倍近い値になっている(どのコーパスを使ったかは言及なし。コーパスによるのではないか?と思った)。
次、idiomについて。ここはよくわからなかった・・・ので割愛。
ではどの様に語彙を学習するのがいいのか?NationはGraded readersを強く勧めていた。Graded readersを使って、語彙習得をしようとする場合、語彙の遭遇率と人間の忘却率を考えたとき、2週間に1冊は読む必要があるという。そうでないと、以前でてきた語彙を忘れてしまうので。大事なことはsimplified textを頻繁に読み、語彙をコンテクストの中で定着させ、徐々にレベルをあげていくこと、か。

まとめとして、vocabulary based corpus researchへの提言。①Corpus must represent the learners’ needs. 学習者が必要としているものは?「学習者に有用な一般的な語彙リスト」を作ることはとても難しい。BNCの最頻出2000語と、学習者が必要とする2000語は一致しない。学習者が目標言語を学習する上で、最も有用な語彙は何かを考える必要がある→JACET8000はどうなんだろう?これは、日本人学習者が英語を学習する上で最も有用な語彙リストといえるのだろうか?確かに、JACET8000のリストレベルと、BNCの頻出レベルにはだいぶ差があるようだ。でも、その差を明示している辞書があるのは面白い。(ロングマン英和辞典)②the most appropriate unit of counting must be used.→Word family?lemma?word type?③For usefulness, range, frequency, and dispersion should be counted. 「どれくらい頻繁にその語彙がでてくるか」だけではなくてどんなrangeにまたがっているのか、とかhow evenly they are dispersed なども大事。④Computer analysis must be accompanied by careful manual checking and analysis. コーパス関係者誰もがよくいうことだけど、「必ず」人の目で分析結果をチェックする必要がある。Nationは、ハード・ソフト(ハードウエア・ソフトウエア)に加えて、「人間の脳」という「ウェット」も必要、と言っていた。④Criteria for counting and classification must be carefully described and followed.研究の上ではこれもよく言われること。クライテリアの設定は慎重に。また設定したらそれを遵守すること!

その後、彼が開発した(?)分析ソフトRANGEの説明があったんだけど・・・。ソフト自体が初めてだったので、よくわからなかった。RANGEの最大の強みは、複数のファイルを横断的に検索して、ある語彙がどれくらいの範囲にわたってファイルをまたがって使われているか(=RANGE)を調べることができること。ということだけはよくわかった。