我們家娃的英語(yǔ)習(xí)得實(shí)踐之一就是在三歲起到現(xiàn)在以動(dòng)畫(huà)片作為主要的英語(yǔ)輸入方式之一。
在這個(gè)實(shí)踐中,我一直在尋找兩個(gè)問(wèn)題的答案:
毫無(wú)疑問(wèn), 如果動(dòng)畫(huà)片能像閱讀那樣有分級(jí)的話 ,動(dòng)畫(huà)片分級(jí)就能夠幫助回答上述兩個(gè)問(wèn)題。但是,遺憾的是動(dòng)畫(huà)片尚沒(méi)有針對(duì)語(yǔ)言難度的分級(jí)。
既然沒(méi)有現(xiàn)成的,那就自己動(dòng)手、豐衣足食吧!
最近一段時(shí)間,我分析了幾十部英文動(dòng)畫(huà)片的語(yǔ)言難度,并基于分析結(jié)果,對(duì)動(dòng)畫(huà)片的難度進(jìn)行了劃分。
本文會(huì)對(duì)動(dòng)畫(huà)片的難度因素進(jìn)行討論,下一篇文章《英語(yǔ)動(dòng)畫(huà)片的分級(jí)》會(huì)給出動(dòng)畫(huà)片的分級(jí)。
一部動(dòng)畫(huà)片的難度主要由以下三個(gè)因素決定:詞匯量,難詞占比以及語(yǔ)速。
詞匯量
不難想到,一部動(dòng)畫(huà)片里出現(xiàn)的詞匯量越多,該動(dòng)畫(huà)片可能越難。比如,《小豬佩奇》(Peppa Pig)的詞匯量是2190個(gè),而 《小鼠波波》(Maisy) 的詞匯量是1039個(gè)。注:在我的分析中,同樣的lemma*被計(jì)為一個(gè)單詞,這樣得到的詞匯量的估算會(huì)更緊實(shí)些。
[*]什么是lemma?可以通過(guò)去除詞匯的屈折變化(inflection,英語(yǔ)中的屈折變化:對(duì)于動(dòng)詞來(lái)說(shuō),plays/played/playing是play的屈折變化;對(duì)于名詞來(lái)說(shuō),cars是car的屈折變化 ;對(duì)于形容詞來(lái)說(shuō),bigger/biggest是big的曲折變化),而只計(jì)入原形的方式來(lái)精簡(jiǎn)詞匯量。這種原形單詞(play、car及big)被稱(chēng)為lemma。英語(yǔ)的詞匯(已除去專(zhuān)有名詞)在進(jìn)行這種方式的精簡(jiǎn)之后會(huì)減少到原來(lái)數(shù)目的60%左右。
難詞占比
雖然詞匯量是衡量動(dòng)畫(huà)片的重要因素,但是,詞匯量不是唯一的因素。比如, 有兩部動(dòng)畫(huà)片A和B。A的片長(zhǎng)是100分鐘,詞匯量是100個(gè);B的片長(zhǎng)是2000分鐘,而詞匯量是200個(gè)。雖然動(dòng)畫(huà)片B的詞匯量多,但很難說(shuō)動(dòng)畫(huà)片B比動(dòng)畫(huà)片A難。動(dòng)畫(huà)片B的詞匯多的原因很有可能是由于其片長(zhǎng)長(zhǎng),所以,動(dòng)畫(huà)片B中出現(xiàn)更多的故事,更多的場(chǎng)景,導(dǎo)致了更多的詞匯。 因此,更科學(xué)的衡量動(dòng)畫(huà)片難度的方法是難詞占比,即各種難度的詞在單詞總量中出現(xiàn)的比例。
顯然,難詞占比大的動(dòng)畫(huà)片比難詞占比小的要難。具體的分析方法,詳見(jiàn)附錄。
語(yǔ)速
顯然,語(yǔ)速越快,動(dòng)畫(huà)片可能越難。
不妨以娃現(xiàn)在看的動(dòng)畫(huà)片《小豬佩奇》為例來(lái)分析英語(yǔ)動(dòng)畫(huà)片的難度。
《小豬佩奇》里的詞匯量是2190個(gè), 詞匯在前10000個(gè)詞匯里的分布如下,
圖中有100行、100列,即10000個(gè)方格。每個(gè)方格代表一個(gè)單詞(其頻率從下到上,從左到右逐漸減少)。若動(dòng)畫(huà)片中有此方格對(duì)應(yīng)的單詞,則該單元格的顏色為彩色;否則,為灰度色。
2. 難詞占比:
《小豬佩奇》里出現(xiàn)的2190個(gè)詞匯,
前2000個(gè)高頻詞在其總的詞匯量中的占比是46.35%
前2001位到前4000位的高頻詞在其總的詞匯量中的占比是18.22%。
3. 語(yǔ)速:
語(yǔ)速的度量是很簡(jiǎn)單的,就是每分鐘的單詞數(shù)(Words Per Minute) = 單詞總數(shù)/講話的總時(shí)間。但是,這里需要注意的是講話的總時(shí)間并不是動(dòng)畫(huà)片的時(shí)長(zhǎng),而應(yīng)該是去掉片中音樂(lè)、無(wú)聲音、哭笑聲及長(zhǎng)時(shí)間的感嘆詞部分之后的時(shí)長(zhǎng)。《小豬佩奇》的平均每分鐘的單詞量為162個(gè)。
未完待續(xù)。下一篇 《英語(yǔ)動(dòng)畫(huà)片的分級(jí)》中會(huì)給出分級(jí)標(biāo)準(zhǔn)和各個(gè)級(jí)別的代表動(dòng)畫(huà)片。
本文中使用的難詞占比的分析方法:
1 使用詞頻來(lái)衡量詞的難度
使用美國(guó)當(dāng)代語(yǔ)料庫(kù)的詞頻順序 ,認(rèn)為高頻詞比低頻詞簡(jiǎn)單。
2 難詞占比的計(jì)算
前2000個(gè)高頻詞占比=前2000個(gè)高頻詞的個(gè)數(shù)/單詞的總數(shù)目
第2001位高頻詞到第3000位高頻詞占比=第2001位高頻詞到第3000位高頻詞的個(gè)數(shù)/單詞的總數(shù)目
類(lèi)似的計(jì)算第3001位到4000位高頻詞占比。
上述計(jì)算中,單詞的數(shù)目為不重復(fù)出現(xiàn)的單詞的數(shù)量。
顯然,高頻詞比低頻詞簡(jiǎn)單。高頻詞占比越大,動(dòng)畫(huà)片越簡(jiǎn)單。
如果文章對(duì)您有所幫助,不妨點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)一下。感謝您的支持。
更多寶寶的外語(yǔ)習(xí)得知識(shí),請(qǐng)?jiān)L問(wèn) 同名微信公眾號(hào) 寶寶的外語(yǔ)習(xí)得