霍普金斯大學(xué)的全球疫情分布圖(網(wǎng)站截屏)
文| 彭丹妮
一張黑底、紅點(diǎn),左右兩側(cè)列著各國(guó)確診、死亡和恢復(fù)病例的地圖,成為近來(lái)一些國(guó)際新聞的背景圖片。美國(guó)副總統(tǒng)彭斯去衛(wèi)生部視察時(shí),美國(guó)衛(wèi)生部就用這張地圖監(jiān)測(cè)全國(guó)病例,意大利總理、德國(guó)內(nèi)閣開會(huì)時(shí),身后電子屏幕也正在依靠這張地圖展示疫情實(shí)時(shí)情況。
這個(gè)數(shù)據(jù)地圖由美國(guó)約翰·霍普金斯大學(xué)系統(tǒng)科學(xué)與工程中心(CSSE)一年級(jí)博士生董恩盛等人發(fā)起并維護(hù)。
最初,董恩盛只是想要通過(guò)追蹤數(shù)據(jù)來(lái)觀察一場(chǎng)疫情從生到死的整個(gè)過(guò)程,用這些數(shù)據(jù)作為他研究疾病的工具。如今,這個(gè)每日點(diǎn)擊量超過(guò)10億的網(wǎng)站,已經(jīng)成為多國(guó)政府高層、公共衛(wèi)生學(xué)者和主流媒體引用最多的疫情數(shù)據(jù)來(lái)源。更新和運(yùn)營(yíng)這個(gè)網(wǎng)站成了董恩盛的“主業(yè)”。
“無(wú)心插柳”的網(wǎng)紅數(shù)據(jù)項(xiàng)目
1月21日寒假過(guò)后,在一次博士生組會(huì)上,董恩盛的導(dǎo)師、系統(tǒng)科學(xué)與工程中心副教授勞倫·加德納和大家聊起新學(xué)期的計(jì)劃,聽說(shuō)中國(guó)的新冠肺炎很嚴(yán)重,便問(wèn)董要不要做個(gè)數(shù)據(jù)儀表板?
董恩盛的研究方向是疾病模型,也就是用數(shù)學(xué)模型和計(jì)算機(jī)代碼來(lái)解釋一些流行病學(xué)、公共健康方面的問(wèn)題,對(duì)全球流行病的發(fā)展趨勢(shì)做基本的判斷和推測(cè)。當(dāng)時(shí)他已經(jīng)在搜集數(shù)據(jù)準(zhǔn)備做這個(gè)事情了,兩人一拍即合,七八個(gè)小時(shí)后,第一版疫情可視化地圖就做好了,1月22日,這個(gè)網(wǎng)站便正式面世了。
去年5、6月份的時(shí)候,董恩盛與勞倫·加德納便在另一個(gè)流行病風(fēng)險(xiǎn)性分析項(xiàng)目中做了一個(gè)類似的數(shù)據(jù)可視化地圖,當(dāng)時(shí)引來(lái)一些美國(guó)主流媒體的報(bào)道。所以,他說(shuō)技術(shù)思路上是比較成熟的,很快就能調(diào)試上線;另一方面,由于他的中文優(yōu)勢(shì),去中國(guó)國(guó)家衛(wèi)健委上面抓取數(shù)據(jù)即可,所以早期團(tuán)隊(duì)在中國(guó)疫情上比全球其他一些數(shù)據(jù)來(lái)源更及時(shí)。
董恩盛(右)、杜鴻儒今年1月在美國(guó)參加學(xué)術(shù)會(huì)議。
起初幾天,數(shù)據(jù)都靠他手動(dòng)整理,每天最多能保持4~5次更新。2月1日之后,這種方式變得不可持續(xù),于是項(xiàng)目轉(zhuǎn)為半自動(dòng)化更新:中國(guó)的疫情數(shù)據(jù)來(lái)自丁香園的自動(dòng)更新,而其他國(guó)家的數(shù)據(jù)依然需要人工審核。為了發(fā)現(xiàn)各國(guó)新增病例,他們的監(jiān)測(cè)渠道包括世界衛(wèi)生組織(WHO)、推特、新聞報(bào)道、地方衛(wèi)生部門提供的數(shù)據(jù)等等。這一階段,另一個(gè)博士生杜鴻儒也加入到數(shù)據(jù)收集和圖表的制作中來(lái)。
到了3月初,這個(gè)數(shù)據(jù)小組將美國(guó)疫情信息具體到縣一級(jí)層面?!耙?yàn)槊绹?guó)郡縣大概有3000多個(gè),再加上世界上有200多個(gè)國(guó)家和地區(qū),人工完成非常吃力?!倍魇⒄f(shuō),于是小組招募了一些志愿者,把人員分了很多組,有的組負(fù)責(zé)國(guó)外,有的組負(fù)責(zé)美國(guó)國(guó)內(nèi)不同地區(qū),然后24小時(shí)不間斷地發(fā)布最新數(shù)據(jù)。
2月19日,董恩盛、杜鴻儒與勞倫·加德納發(fā)表在《柳葉刀》雜志上的文章介紹了這項(xiàng)工作。文章對(duì)比了約翰·霍普金斯大學(xué)系統(tǒng)科學(xué)與工程中心、WHO和中國(guó)疾控中心的數(shù)據(jù)報(bào)告。結(jié)果發(fā)現(xiàn),他們的病例數(shù)據(jù)與后二者報(bào)告一致,而且他們?cè)诓东@新國(guó)家或地區(qū)中首次報(bào)告的COVID-19(新冠病毒)病例上更加及時(shí)。
董恩盛說(shuō),WHO分為不同區(qū)域,各區(qū)域會(huì)及時(shí)更新數(shù)據(jù),但是等到匯總到總部正式發(fā)布時(shí),通常是第二天了——當(dāng)然,也有極個(gè)別意外,尤其是最初全依賴人工操作時(shí)。有一個(gè)周六的早晨,澳大利亞報(bào)告了首例確診病例,但因?yàn)槎魇?dāng)時(shí)在睡覺,就沒有及時(shí)更新。
這個(gè)過(guò)程中還有很多具體的困難。比如,2月中旬部分“鉆石公主號(hào)”郵輪旅客撤回到美國(guó)。由于患者具體位置不明,他們就選擇了將點(diǎn)標(biāo)記在美國(guó)相對(duì)的地理中心——堪薩斯州。但有些美國(guó)人放大地圖,最后發(fā)現(xiàn)這個(gè)點(diǎn)落在他們小區(qū)上,以為自己小區(qū)竟然有病例,便層層上報(bào),后來(lái)學(xué)校讓他們趕緊調(diào)整一下,于是標(biāo)記點(diǎn)暫時(shí)放回了日本橫濱港。
如何統(tǒng)一好數(shù)據(jù)的定義也是個(gè)問(wèn)題。雖然用戶看到的是“確診病例”、“死亡人數(shù)”這些標(biāo)簽,但團(tuán)隊(duì)實(shí)際面對(duì)的卻是各國(guó)甚至同一國(guó)家對(duì)于這些概念不同的定義。比如,董恩盛說(shuō),一開始美國(guó)CDC統(tǒng)計(jì)的“確診病例”需要核酸檢測(cè)呈陽(yáng)性,加上CDC認(rèn)定才算確診,但是他們采用“推定陽(yáng)性病例”的估算,亦即確診數(shù)據(jù)是指由州或地方實(shí)驗(yàn)室確認(rèn)的病例,但未經(jīng)CDC證實(shí),因此數(shù)字要比CDC的大一些。
可靠的數(shù)據(jù)是研究和決策的基礎(chǔ)
在線科技出版物Digital Trends3月28日發(fā)表文章《最可靠的新冠疫情儀表板》,其中提到六種可視化疫情數(shù)據(jù)通報(bào)平臺(tái),約翰·霍普金斯的這套系統(tǒng)獲得最高評(píng)價(jià)。原因是該平臺(tái)“可視化設(shè)計(jì)最好,導(dǎo)航明晰、閱讀方便,且是六個(gè)平臺(tái)中更新最頻繁的?!?nbsp;
美國(guó)疾控中心(CDC)也是其中一個(gè)平臺(tái)。不過(guò),該網(wǎng)站標(biāo)注:該頁(yè)面從周一中午至周五定期更新,顯示的數(shù)據(jù)為截至前一天下午4時(shí)的統(tǒng)計(jì)結(jié)果。另外還有文字提示:CDC與各州和地方的公共衛(wèi)生部門報(bào)告的病例存在差異,各州通報(bào)的病例為最新數(shù)據(jù)。
董恩盛說(shuō),疫情早期CDC的數(shù)據(jù)精度比較低,它只是報(bào)告每個(gè)州病例數(shù)量范圍。這樣的運(yùn)作模式使得CDC的數(shù)據(jù)可視化不如約翰·霍普金斯大學(xué)的這個(gè)數(shù)據(jù)項(xiàng)目受歡迎。
在3月6日于華盛頓國(guó)會(huì)山舉行的一場(chǎng)簡(jiǎn)介會(huì)上,勞倫·加德納介紹,這個(gè)儀表板受到關(guān)注有一段時(shí)間了,現(xiàn)在平均每天點(diǎn)擊量為10億,最高峰一天點(diǎn)擊達(dá)20億。其間有過(guò)幾次高峰,例如,當(dāng)意大利疫情暴發(fā)時(shí),許多意大利民眾涌入網(wǎng)站,意大利用戶數(shù)超過(guò)了美國(guó)。
由牛津大學(xué)創(chuàng)立的“用數(shù)據(jù)看世界”網(wǎng)站解釋,他們?cè)诒O(jiān)測(cè)全球各國(guó)新冠疫情數(shù)據(jù)時(shí),最初參照3個(gè)數(shù)據(jù)源:世衛(wèi)組織、歐洲疾病預(yù)防控制中心(ECDC)以及霍普金斯大學(xué)。目前他們已經(jīng)放棄從世衛(wèi)組織獲取數(shù)據(jù),一方面是因?yàn)槭佬l(wèi)在3月18日修改了每日統(tǒng)計(jì)截止時(shí)間,另一方面在于其數(shù)據(jù)庫(kù)曾出現(xiàn)過(guò)錯(cuò)誤。
“誰(shuí)在使用這個(gè)儀表板?據(jù)我所知,幾乎每個(gè)人都在使用。它幾乎在所有的社交媒體渠道上走紅,一直火到美國(guó)地方政府、州、聯(lián)邦政府、公共衛(wèi)生機(jī)構(gòu)?!眲趥悺ぜ拥录{說(shuō),這說(shuō)明人們對(duì)于可靠的、值得信賴的、客觀的信息有巨大需求,所以她認(rèn)為,非常重要的是看到這種(需求與滿足之間的)差距,并且支持這類數(shù)據(jù)可視化工具走向公眾。
約翰·霍普金斯大學(xué)是美國(guó)的一所研究性大學(xué),也是全美最近連續(xù)33年來(lái)科研經(jīng)費(fèi)開支最高的大學(xué),其公共衛(wèi)生學(xué)院多年來(lái)排名全美第一。
霍普金斯大學(xué)網(wǎng)站截圖
美國(guó)對(duì)外關(guān)系委員會(huì)全球衛(wèi)生高級(jí)研究員黃嚴(yán)忠說(shuō),美國(guó)信息渠道很豐富,既有官方的CDC和各州公共衛(wèi)生部門數(shù)據(jù),也有民間機(jī)構(gòu)、高校和媒體的數(shù)據(jù)更新,這樣多元的數(shù)據(jù)渠道使得疫情更加透明。而約翰·霍普金斯大學(xué)的數(shù)據(jù)地圖便是其中一個(gè)出色的例子。
復(fù)旦大學(xué)公共衛(wèi)生學(xué)院原院長(zhǎng)、中華預(yù)防醫(yī)學(xué)會(huì)新冠肺炎防控專家組成員姜慶五告訴記者,在疫情中,任何數(shù)據(jù)都要公開、透明,保證真實(shí)性,否則流行病學(xué)家、數(shù)學(xué)家無(wú)法做出判斷,也就不能為決策提供可靠的指導(dǎo)。
霍普金斯團(tuán)隊(duì)較高質(zhì)量的數(shù)據(jù)成為諸多研究團(tuán)隊(duì)進(jìn)行學(xué)術(shù)研究的基礎(chǔ),是科學(xué)界了解新冠疫情的重要信息來(lái)源。董恩盛說(shuō),每天他們都會(huì)在固定時(shí)間發(fā)布準(zhǔn)確的數(shù)據(jù),全世界的學(xué)者都可以看到,這方便學(xué)者們進(jìn)行基于時(shí)間序列的疫情分析,“而時(shí)間序列分析在流行病學(xué),尤其是對(duì)于疾病的預(yù)測(cè)方面有非常關(guān)鍵的作用?!?/span>
現(xiàn)在,該數(shù)據(jù)地圖的自動(dòng)化程度越來(lái)越高了,而且學(xué)校也給予了很多技術(shù)和人力支持。接下來(lái)董恩盛希望配合他的導(dǎo)師,利用這些數(shù)據(jù)研究一下哪些地方比較容易受到新冠病毒的攻擊,疫情什么時(shí)候會(huì)出現(xiàn)拐點(diǎn)等等。
轉(zhuǎn)載自:南都周刊