一分鐘讀懂詞匯量測試|母語兒童的詞匯量到底有多大?

2021-6-15 13:57 原創(chuàng) · 圖片8

微信公眾號 羅賓筆記

英文擁有的詞匯數(shù)量是全世界語言中最多的。怎樣知道自己到底擁有多少詞匯量(姑且不討論這樣做的意義)?Testyourvocab大概是目前知名度最高的在線英文詞匯量測試網(wǎng)站,在啟蒙階段也常常被用來測試低齡孩子的聽力詞匯量。它到底準(zhǔn)不準(zhǔn)呢?

最近查閱了一些資料,寫個(gè)與詞匯量測算有關(guān)的匯總,希望可以一次把詞匯量有關(guān)的問題梳理清楚。水平有限,如有疏漏錯(cuò)誤敬請諒解。

1. 什么是主動(dòng)/被動(dòng) (receptive/expressive)詞匯量

2. 英文母語兒童的詞匯量到底有多大

3. Testyourvocab的使用及算法

4. 詞匯量與閱讀的關(guān)系

5. 其它詞匯量測試網(wǎng)站橫評 (下篇)

6. 適合二語兒童的詞匯量估算方法(下篇)

統(tǒng)計(jì)詞匯量最最精確的方法自然是……看著詞表或字典一個(gè)個(gè)數(shù)以詞匯量測算老大哥Testyourvocab的詞表為例,大概共有45000個(gè)單詞,如果用窮舉法顯然會數(shù)到地老天荒。

還有一個(gè)辦法:把單詞平均分成若干組,例如100個(gè)詞一組,然后每組里抽一個(gè)詞出來測試,最終結(jié)果乘以450。這樣做聽起來就很不精確,隨機(jī)性太高。

所以目前流行的詞匯量測算,究其核心原理其實(shí)是抽樣調(diào)查,無非是采用單詞表樣本、分區(qū)段分組排序、加權(quán)系數(shù)等的區(qū)別。還要涉及到對最小單位的定義(譬如是單詞word還是詞族word family,前者顯然數(shù)量更多)以及是否采用詞頻分組(更準(zhǔn)確)。最終統(tǒng)計(jì)出的詞匯數(shù)量主要取決于單詞表總數(shù)、答題正確率和對應(yīng)的區(qū)段組別系數(shù)。

在講測算方法之前,必須先了解一下這個(gè)概念:什么是主動(dòng)/被動(dòng) (receptive/expressive)詞匯量。

1 什么是receptive/expressive詞匯

Active / expressive / productive vocabulary,即主動(dòng)、可自主表達(dá)的詞匯量,通常指能夠在口語或?qū)懽髦羞\(yùn)用的詞匯。


passive / receptive vocabulary,即被動(dòng)、可接受的詞匯量,指我們能聽懂讀懂的詞匯。從應(yīng)試角度來比方,就是在閱讀和聽力測試能夠應(yīng)付的部分。

被動(dòng)詞匯是可以往主動(dòng)詞匯轉(zhuǎn)換的(通常光靠背單詞書做不到這一點(diǎn))。即便是母語人士,主動(dòng)詞匯的占比也一定是低于被動(dòng)詞匯,并且這個(gè)比例和受教育程度大致相關(guān)。受教育程度低的(總詞匯量越低),相對來說主動(dòng)詞匯占比更高。

在詞匯量統(tǒng)計(jì)中,想要統(tǒng)計(jì)主動(dòng)詞匯的難度更大、耗時(shí)更長,所以一般都是以被動(dòng)詞匯作為測試目標(biāo),即只要能讀懂聽懂就算,不考察運(yùn)用。不過在我使用的十來個(gè)測試網(wǎng)站中,也確實(shí)有一些會考察理解運(yùn)用,例如放在上下文中做填空選擇題。測試目標(biāo)不同,結(jié)果當(dāng)然就會差別很大。

2 英文母語兒童的詞匯量到底有多大?

Testyourvocab大概是目前知名度最高的在線英文詞匯量測試網(wǎng)站,在啟蒙階段也常常被用來測試低齡孩子的詞匯量。它就采用了詞頻表分區(qū)段抽樣的算法。Testyourvocab于2013年發(fā)布的數(shù)據(jù)顯示:

圖片

Average native test-takers of age 8 already know 10,000 words

8歲的英語母語測試者普遍能掌握10000個(gè)詞匯

Average native test-takers of age 4 already know 5,000 words

4歲的英語母語測試者詞匯量普遍達(dá)到5000

讓我們看看第90百分位的五歲孩子的詞匯量,如上圖,結(jié)果是在8396。也就是這個(gè)年齡的“牛娃”的詞匯量已達(dá)到8k。中位數(shù)是6010,比較能代表平均水平。

當(dāng)然,這份數(shù)據(jù)僅能代表在該Testyourvocab網(wǎng)站參加過測試的兒童樣本范圍,并不能代表整個(gè)母語國家的基本情況。

而另一份發(fā)表于2015年的著作Assessment in speech-language pathology: A resource manual顯示,針對普通小孩(normal children):

4-5歲母語英文小孩的被動(dòng)詞匯不低于10,000 (Has a receptive vocabulary of 10,000 or more words),6-7歲被動(dòng)詞匯量不低于20,000。

這顯然和Testyourvocab整理的數(shù)據(jù)是矛盾的,統(tǒng)計(jì)方法必然有很大區(qū)別。這也就引入了下一個(gè)話題:詞匯量到底是如何統(tǒng)計(jì)的?詞性變化、派生詞算不算?人名地名算不算?詞組和合成詞算不算?

3 Testyourvocab的使用及算法

老大哥Testyourvocab年代久遠(yuǎn),網(wǎng)站最后一次肉眼可見的更新是在2013年。它最大的優(yōu)點(diǎn)是簡單粗暴。不考察在具體語境下的詞義,只需要知道一個(gè)義項(xiàng)就算掌握了。
 

3.1.  Testyourvocab使用方法

操作極其簡單,只需要兩個(gè)測試步驟。

1. 勾選40個(gè)詞中“自認(rèn)為”認(rèn)識的詞。

2. 勾選120個(gè)詞中“自認(rèn)為”認(rèn)識的詞。

3. 提交一些個(gè)人信息(也可以不填),例如學(xué)了多久英語,母語是什么,年齡等。

4. 查看測試結(jié)果

3.2. 詞匯量計(jì)算方法

Testyourvocab的做法是第一輪先取40個(gè)由易到難的詞,粗略判定測試者的詞匯水平范圍。第二輪在這個(gè)預(yù)估范圍內(nèi)細(xì)分,根據(jù)詞頻由高到低抽取120個(gè)詞進(jìn)行測試。因此可以說第一組測試結(jié)果決定了你的詞匯量數(shù)值的上限。

按照官方的說法,計(jì)算方法是根據(jù)第二輪的120個(gè)詞的測試結(jié)果,找到一個(gè)“中間詞”,使得這個(gè)詞之前詞頻你不認(rèn)識的單詞數(shù)量,等于這個(gè)詞之后詞頻的你不認(rèn)識的單詞數(shù)量,再去找這個(gè)詞在詞頻表中的位置編號,就是最終的詞匯量結(jié)果。

說人話版本:

假如這120個(gè)詞按照詞頻由高到低編號1-120,最終測試你有40個(gè)沒有勾選(不認(rèn)識),找到其中第20個(gè)(假設(shè)詞頻編號為53)和21個(gè)(假設(shè)詞頻編號為55),那么你的詞匯量就是第54號單詞在詞頻表中對應(yīng)的編號。

當(dāng)然實(shí)際計(jì)算過程比這個(gè)要再復(fù)雜一點(diǎn)點(diǎn),結(jié)果并不是線性分布的。

3.3.語料庫corpus

語料庫指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫,其中存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料。

Testyourvocab這個(gè)網(wǎng)站是美國和巴西共建的項(xiàng)目,奇怪的是它使用的語料庫,還是 British National Corpus (英國國家語料庫),可能是因?yàn)槟甏P(guān)系沒使用ANC和COCA這些美國語料庫。

圖片

BNC語料庫來源廣泛,其中書面(90%)與口語(10%)為樣本,共收錄了一億詞!

3.4.詞表和詞頻

根據(jù)語料庫的詞,去匹配一本英式英語詞典的詞,找出兩者交集詞表,再去除單詞的常規(guī)曲折變化(例如單復(fù)數(shù),過去式等)、詞性變化、派生詞合成詞等,最終篩選出45000個(gè)詞。詞典本身包含70000詞,但大約只有45000出現(xiàn)在BNC一億詞的語料庫中,其它的都是些科技術(shù)語、古舊詞等。

這45000個(gè)詞按照詞頻由高到低排列,也就是一個(gè)詞頻表。所謂詞頻,就是某個(gè)單詞出現(xiàn)的頻率高低。比如BNC語料庫中出現(xiàn)頻率最高的四個(gè)詞是:

1. the

2. and

3. I

4. to

3.5.詞表篩選規(guī)則:

A. 派生詞(derivative)

比較好理解的是jump/jumped這樣的規(guī)則動(dòng)詞變化算一個(gè)詞。give/gave,不規(guī)則變化,算兩個(gè)詞。那么derive/derived這種動(dòng)詞/形容詞,quick/quickly形容詞/副詞變化呢?evict/eviction動(dòng)詞/名次,還有各種re,un的前綴呢happy/unhappy等等。

B. 專有名詞(proper nouns),

France這樣的地名竟然不算,但是French算,因?yàn)橹敢环N人,而不是France常規(guī)的派生詞。November這樣特殊的,算。

難點(diǎn)在于air conditioner這樣兩個(gè)名詞組成的新事物。同理fork out(揮霍)、 food for thought(引人深思的想法)呢?

C. 至高準(zhǔn)則

構(gòu)詞法太復(fù)雜了。于是網(wǎng)站遵循了一個(gè)至高準(zhǔn)則:在字典里擁有獨(dú)立詞條的就可以算。Air conditioner有自己的獨(dú)立詞條,所以算。unhappy有獨(dú)立詞條,quickly在quick詞條下,fork out在fork詞條下,因此都不算。換句話說,是以字典編目為準(zhǔn)統(tǒng)計(jì)詞條數(shù)。

3.6. 釋義

很多英文單詞有多個(gè)義項(xiàng),同一個(gè)釋義還有不同的用法,怎么樣才算掌握?想太多就復(fù)雜了,網(wǎng)站決定只要知道其中一個(gè)釋義,就可以被統(tǒng)計(jì)為詞匯量

3.7. 誤差范圍

官方說有10%的誤差,也就是說如果測量結(jié)果為20000,那么實(shí)際范圍應(yīng)該在18000-22000之間。這是由第二組測試詞匯的數(shù)量決定的。如果要把誤差縮小到5%,則需要在第二輪測試380個(gè)單詞!

4 詞匯量與閱讀的關(guān)系

我們先來看一下母語學(xué)習(xí)者的詞匯水平

Most adult native test-takers range from 20,000–35,000 words

大多數(shù)成年英語為母語的測試者的詞匯量在20000到35000個(gè)之間。

進(jìn)一步觀察數(shù)據(jù)可以發(fā)現(xiàn),到了50歲,10百分位詞匯量20,000 ,中位數(shù)30,000 ,90百分位40,000。也就是說top10%的50歲人群的詞匯量超過四萬。

Adult native test-takers learn almost 1 new word a day until middle age

成年測試者差不多每天學(xué)一個(gè)新詞,直到中年。

Adult test-taker vocabulary growth basically stops at middle age

到中年后,成年測試者的詞匯量基本就停止增長了

(網(wǎng)站上并沒有明確寫“中年”的范圍,推測應(yīng)該是以50歲為分界點(diǎn)。)

 詞匯量與閱讀的關(guān)系

這是從28萬份數(shù)據(jù)中統(tǒng)計(jì)出的結(jié)果,顯示了閱讀量、小說比例、以及年齡與詞匯量的關(guān)系。大致可以得出以下結(jié)論:

For native vocabulary growth, reading fiction specifically is just as important as reading in general

對于母語詞匯量的增長,多讀小說和多讀一樣重要。小說的詞匯范圍更廣,更有益于詞匯量的增加(個(gè)人對此的理解是不用執(zhí)著于只讀non fiction)。

Native adult vocabulary size appears to be principally determined by reading habits between ages 4 and 15

母語成年人的詞匯量似乎主要由4-15歲時(shí)的閱讀習(xí)慣決定。

如同圖表中體現(xiàn)的,同樣的閱讀習(xí)慣,在15歲和50歲帶來的詞匯量的差距,幾乎保持不變(最上面五根線的間距一直窄幅變化)。

Native test-taker children who read "lots" learn 4.1 new words a day

閱讀量“大”的母語兒童測試者每天學(xué)4.1個(gè)新詞  (此處children應(yīng)該指的是4-15歲)

Native test-taker children who read "somewhat" learn 2.6 new words a day

閱讀量“有一些”的母語兒童測試者每天學(xué)2.6個(gè)新詞

Native test-taker children who read "not much" learn 1.4 new words a day

閱讀量“沒多少”的 母語兒童測試者每天學(xué)1.4個(gè)新詞

劃重點(diǎn):一定要重視早期閱讀!

====================================

下一篇:詞匯測試橫評 和 適合二語兒童的詞匯量估算方法

寫在后面:本文首發(fā)于我的公眾號 羅賓筆記。不定期更新日常雞娃筆記,少兒英語啟蒙與資源干貨,劍橋系備考輔導(dǎo),以及Wonders原版教材教學(xué)方面的分享等。


閱讀原文 回應(yīng) 舉報(bào)
贊21
收藏81

推薦閱讀

羅賓筆記
羅賓筆記
2017
作者熱門日志