編者按:科研,顧名思義,就是科學(xué)研究。小到生活用品,大到宇宙航天,生活中處處不缺由科學(xué)研究轉(zhuǎn)化而來的成果。而在科學(xué)研究的背后,是一群默默無聞、專心學(xué)術(shù)的科學(xué)家們。從科研小白到科研大佬的科研之旅,這背后的故事,你了解多少?
在 Ada Camp 2021 上,微軟亞洲研究院副院長劉鐵巖博士,就“科學(xué)研究“這個話題結(jié)合自身科研之路,以及這一路以來的心得體會,為大家分享了科學(xué)研究到底該怎么做、想做好科研到底該具備哪些技能。希望即將走向或者正在進(jìn)行科研的你,能夠從這次講堂中收獲滿滿,為自己的科研之路增添更多色彩!
非常榮幸參加“未來由妳 Ada Camp 2021”活動。今天,我想結(jié)合一下自己的求學(xué)和工作經(jīng)歷,來跟大家分享一下我們應(yīng)該如何去做科學(xué)研究,以及在做科研中可能遇到的問題和疑惑,希望能給大家的科研生活帶來一定的幫助和啟發(fā)。
我本人的學(xué)術(shù)生涯非常簡單,我是一個典型的科研工作者,如果用兩個數(shù)字來形容的話,就是9和18 —— 9年的清華學(xué)習(xí)之旅和18年的微軟亞洲研究院工作之路。在過去的這27年里,我跟大家一樣,也是從一個懵懂的學(xué)生開始,之后在學(xué)術(shù)之路上不斷攀登,一步一步取得了很多學(xué)術(shù)成果,逐漸被國際學(xué)術(shù)界所認(rèn)可。
為什么我們要進(jìn)行科學(xué)研究?
其實原因非常簡單,我們都知道科學(xué)技術(shù)是第一生產(chǎn)力,而科學(xué)研究則可以推動和改變?nèi)祟惖纳鐣?,塑造我們的未?/span>。大家可能都非常熟悉人類社會經(jīng)歷的4次工業(yè)革命,從機(jī)械化、電氣化到現(xiàn)在的信息化、智能化。我們的生產(chǎn)效率得到了極大的提升,生活質(zhì)量也有了巨大的改善。這4次工業(yè)革命的背后,都是科學(xué)技術(shù)的飛躍性發(fā)展,而這些技術(shù)的發(fā)明都離不開幕后的英雄——默默無聞地從事著科學(xué)研究的科學(xué)家們。
如果說工業(yè)革命塑造了我們的昨天、今天,甚至是明天,那么自然科學(xué)的發(fā)展則更決定了我們?nèi)祟愰L久的未來。《科學(xué)(Science)》雜志在其125周年的時候刊發(fā)了一期???,列舉了關(guān)乎宇宙奧秘、生命機(jī)理以及人類生存和可持續(xù)發(fā)展的125個最重要的現(xiàn)代科學(xué)問題。每一個問題都非常深刻,直擊靈魂。比如,宇宙是由什么構(gòu)成的?意識的生物基礎(chǔ)是什么?人類為什么只有那么少量的基因,卻有這么豐富的形態(tài)和這么高的智能?是否存在著大一統(tǒng)的物理定律等等。
雖然這些問題非常艱深,但是科學(xué)家們一直都沒有停止探索這些問題的腳步,也不斷地通過自己的努力推進(jìn)著人類認(rèn)識科學(xué)的邊界。
這其中很多的女性科學(xué)家也為我們?nèi)祟惖陌l(fā)展做出了巨大的貢獻(xiàn)。比如,居里夫人、邁特納、埃利昂等等。當(dāng)然還有我們中國的屠呦呦,因為發(fā)現(xiàn)了青蒿素,挽救了全球特別是發(fā)展中國家數(shù)百萬人的生命。
可能有的同學(xué)會說,這些偉大的科學(xué)家離我們太偉大、太遙遠(yuǎn)了,我們實在沒有勇氣成為他們那樣的人。的確,想要在科學(xué)領(lǐng)域成為有輝煌成就的科學(xué)家不是件容易的事情,不僅需要靠努力,而且還有一些運氣的成分。
不過今天我想告訴大家,邁進(jìn)科學(xué)的大門沒有那么難,也沒有那么遙遠(yuǎn)。我相信不少同學(xué)兒時都有一個成為科學(xué)家的夢想。而且我們每個人其實都有成為科學(xué)家的潛質(zhì),因為我們從孩提時就對周圍的一切都充滿了好奇心,對現(xiàn)實和虛幻的世界都充滿了想象力。而這兩點正是從事科學(xué)研究最最重要的特質(zhì)。
當(dāng)然,科學(xué)家還需要更多的素質(zhì),比如,觀察敏銳,善于從細(xì)節(jié)中尋找到蛛絲馬跡,發(fā)現(xiàn)被別人忽略的線索;大膽假說,針對這些發(fā)現(xiàn)勇于提出自己的假設(shè),能夠依據(jù)知識和直覺,指出這些發(fā)現(xiàn)背后可能存在的重大規(guī)律;小心求證,假說人人都可以提,但是只有被驗證了的假說才是科學(xué)道理,這也是科學(xué)和迷信的分水嶺;嚴(yán)謹(jǐn)勤奮,無論是假說還是求證,都要建立在大量的知識積累和嚴(yán)謹(jǐn)?shù)耐茖?dǎo)之上;精確誠實,科學(xué)是沒有捷徑的,造假、抄襲、敷衍的行為絕對不會造就真正的科學(xué)家;最后就是長期堅持,科學(xué)之路不會一帆風(fēng)順。
我們經(jīng)常說,如果你做10個研究項目,有9個失敗了1個成功,這是正常規(guī)律。但是,如果你9個甚至10個都成功,那就說明你選的研究題目太簡單。所以我們必須要理解科學(xué)研究背后的規(guī)律,它不是一蹴而成的,甚至可能需要幾十年如一日的堅持,常常會大器晚成。
正是因為前面提到的這些原因,從事科學(xué)研究的人構(gòu)成了一座金字塔。中國擁有博士學(xué)位的人數(shù)以百萬計;在國際頂級會議或者期刊上發(fā)表過論文的中國學(xué)者可能只有幾萬名;而國際知名的中國學(xué)者則更少,可能也就幾千人。從這個意義上講,“研究”其實是存在著一定“風(fēng)險系數(shù)”的職業(yè)。我們需要一步一步攀登高峰,才能夠從獲得博士學(xué)位逐步成長為一位國際知名的科學(xué)家。
什么是高質(zhì)量研究?
為了實現(xiàn)這個目的,我們首先要來看一看什么是好的科學(xué)研究,然后再探討如何能夠做出這樣的科學(xué)研究。
今天很多同學(xué)都是來自于計算機(jī)或者相關(guān)專業(yè)的,我們在這個行業(yè)里面是非常幸運的。因為計算機(jī)科學(xué)是發(fā)展最快的學(xué)科之一,它與國際接軌,影響面廣,關(guān)注度高,就業(yè)前景寬廣。
那么好的計算機(jī)研究到底是什么樣子的?不知道大家有沒有聽過這樣一種對學(xué)者層次的生動描述。
所謂一流學(xué)者,就是要去引領(lǐng)學(xué)術(shù)領(lǐng)域發(fā)展的,其可貴之處在于能夠洞察趨勢,提出重要問題。二流學(xué)者,雖然沒有那么深的洞察力,但是有非常好的功底和知識技能,可以把別人提出的問題解得很好,這對于學(xué)術(shù)研究也是一個非常重要的推動力。而三流學(xué)者,通常是跟隨潮流、小步慢跑。雖然他們的工作可能沒有那么大的創(chuàng)新性,也沒有解決重大的科學(xué)問題,但是他們也有很大的價值,因為他們試了很多錯,對學(xué)術(shù)界也做出了一定的貢獻(xiàn)。無論是哪種學(xué)者,我想大家內(nèi)心里都希望能夠做出高質(zhì)量的研究。
到底什么是高質(zhì)量的研究呢?我認(rèn)為高質(zhì)量的研究可以有很多種不同的類型,它既可以是提出全新的重要問題,也可以是首次解決一個公認(rèn)的難題。這里舉幾個我自己的例子,讓大家有個形象的認(rèn)識。
第一個例子,發(fā)生在大約15年前,那個時候搜索引擎剛剛興起,像 Google、百度這些公司都還是新興公司。在那個年代,搜索引擎背后的技術(shù)其實是比較落后的,很多人都是靠拍腦袋,想出一些經(jīng)驗的、啟發(fā)式的公式。針對這樣的情況,包括我在內(nèi)的一些學(xué)者共同提出了一個科學(xué)問題:我們能否用計算機(jī)自動學(xué)習(xí)一個性能優(yōu)異的排序模型,而不是靠人為用啟發(fā)式去定義排序公式呢?
這個問題后來就引出了一個新的學(xué)術(shù)分支,我們稱之為 Learning to Rank(排序?qū)W習(xí))。簡而言之,就是利用機(jī)器學(xué)習(xí)的技術(shù),依據(jù)人為標(biāo)注的正確答案,或者用戶在線與搜索引擎交互的點擊數(shù)據(jù),學(xué)到針對特定的查詢詞,對網(wǎng)頁相關(guān)性進(jìn)行排序的一個最優(yōu)的模型。
在我們的倡導(dǎo)下,很多學(xué)者都加入了我們,一起在這些方面做了大量的研究。而所有這些學(xué)者的共同努力也成就了今天主流的商業(yè)搜索引擎,它們背后的技術(shù)幾乎無一不是排序?qū)W習(xí),而排序?qū)W習(xí)就是典型的“提出重要問題”的研究。
第二個例子,發(fā)生在大概五六年前,那時候人工智能的技術(shù)有著突飛猛進(jìn)的發(fā)展,解決了很多實際的問題。不過,那時主流的機(jī)器學(xué)習(xí)技術(shù),需要大量人為標(biāo)注的樣本。以機(jī)器翻譯為例,通常需要上千萬的雙語語對來作為訓(xùn)練數(shù)據(jù),才能訓(xùn)練出一個性能優(yōu)良的機(jī)器翻譯模型。然而,不是所有的人工智能任務(wù)都能夠獲得這樣豐富的數(shù)據(jù)。比如,很多小語種全世界可能會講這個語言的人都沒有幾個,更不要說找到人來標(biāo)注大量的雙語數(shù)據(jù)了。在這個背景下,我們就提出了一個科學(xué)問題:是否可以利用機(jī)器翻譯這類人工智能任務(wù)的某種結(jié)構(gòu)特點,在不需要大量標(biāo)注樣本,甚至不需要任何標(biāo)注樣本的前提下,就能夠?qū)W到有效的人工智能模型?
這個問題的提出并不是天方夜譚。我們注意到,類似機(jī)器翻譯這樣的人工智能任務(wù),其實是一個雙向的交互任務(wù),比如中英翻譯的反向任務(wù)是英中翻譯,語音識別的反向任務(wù)是語音合成。一旦我們有了雙向的交互就可以形成一個閉環(huán)的信息流,而這種閉環(huán)就可能使得我們不需要任何人為標(biāo)注,就能獲得驅(qū)動機(jī)器學(xué)習(xí)模型訓(xùn)練的信號,我們稱這個技術(shù)范式為對偶學(xué)習(xí)。我們開發(fā)了一系列對偶學(xué)習(xí)的技術(shù),在機(jī)器翻譯、圖像識別、語音合成等多個領(lǐng)域達(dá)到了世界上當(dāng)時最好的效果,超越了人類專家的水平。
另外,在新冠疫情肆虐全球的時候,我們利用新型的機(jī)器學(xué)習(xí)技術(shù),精確預(yù)測了病毒抗原到人類免疫細(xì)胞之間的映射關(guān)系。基于這個核心技術(shù),我們和合作伙伴一起完成了首個由 FDA 批準(zhǔn)的基于人類免疫細(xì)胞的早期新冠疾病的檢測系統(tǒng),其安全性、準(zhǔn)確性、及時性與常用的核酸檢測和抗體檢測相比都有明顯的優(yōu)勢。
除了前面提到的幾種高質(zhì)量研究以外,如果你通過自己的不懈努力,顯著地超越了前人的工作,比如比前人工作的精度更高,比前人工作的速度更快,或者是在某些層面上比前人的工作具有了更深的洞察,那么恭喜你,你的研究也是一份質(zhì)量非常高的研究。
受時間所限,這里我就舉幾個速度顯著超越前人工作的例子供大家參考。過去這幾年里,坊間流傳著一種方法論,就是所謂的“大力出奇跡”。也就是使用大量的計算資源去訓(xùn)練一個非常大的模型,用以解決現(xiàn)實中人類可能只需要用非常小的努力就能解決的問題。這種“大力出奇跡”的范式,從某種意義上講,有它的科學(xué)價值。但是它的實用性是值得質(zhì)疑的,因為我們不可能為了翻譯一句話,使用幾百美金、幾千美金的成本。
心懷對“大力出奇跡”的質(zhì)疑,我們微軟亞洲研究院的研究員們從事了一系列“四兩撥千斤”的研究,比如2015年我們的團(tuán)隊發(fā)明了 LightLDA,這是當(dāng)時世界上速度最快、效率最高的主題模型。所謂主題模型,就是從文本數(shù)據(jù)中自動分析主題的一種算法。我們通過一項新技術(shù)把每個文本符號的采樣復(fù)雜度降到了O(1),也就是和想要學(xué)出的主題的數(shù)目無關(guān)。在 LightLDA 出現(xiàn)之前,全球最大規(guī)模的主題模型用了1萬個 CPU 核,挖掘出了大約10萬個主題。而我們的 LightLDA 只需要300多個 CPU 核就可以挖掘出一百萬個主題,并且可以處理的文本數(shù)據(jù)的大小也比前人的大一個數(shù)量級。之后,我們還陸續(xù)提出了 LightGBM,比之前最快的梯度提升決策樹的算法快了將近10倍,F(xiàn)astSpeech 比之前最快的神經(jīng)語音合成模型快了300倍,以及 FastBERT 比知名的預(yù)訓(xùn)練語言模型 BERT 快了大概10倍,而且所有這些模型的精度都幾乎沒有損失。
通過這些研究,我們把之前最好的算法的速度提高了一個到幾個數(shù)量級,幫助人們節(jié)省了大量的計算成本,從而大大提升了這些技術(shù)的實用價值。從這個意義上講,它們也是高質(zhì)量的研究。
如何能夠勇攀科研高峰?
剛剛我用了一些典型的例子給大家展示了什么是高質(zhì)量的研究,那么如何才能做出這樣的研究呢?今天我想跟大家分享一些科學(xué)研究的原則和思想。我覺得這些可能對于引導(dǎo)大家走上科研道路,真正有勇氣去攀登學(xué)術(shù)高峰,會很有幫助。
在去年諾貝爾獎官方平臺發(fā)布的一個視頻*中,幾位諾貝爾獎獲得者與年輕學(xué)者分享了幾個重要的做研究的原則,包括:Work Hard(努力),Learning by doing(邊做邊學(xué)),以及 do something you love(做你喜歡的事情)。(*感興趣的讀者,可點擊鏈接觀看:youtube/watch?v=9GIsSn_LUh0)除了這些以外,我還為大家總結(jié)了以下幾點。
第一、終身學(xué)習(xí),是學(xué)者的宿命。回顧我自己20多年的研究歷程,從最初的信號處理、視頻內(nèi)容分析、網(wǎng)絡(luò)搜索、機(jī)器學(xué)習(xí)、算法博弈論、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、金融、物流、生物、制藥、智能科學(xué),一路走來沒有停止過學(xué)習(xí)。在這個過程中,自己變得越來越博學(xué)、越來越豐富,對世界的影響也越來越大。所以我建議所有的同學(xué)們多學(xué)習(xí)、多了解,不要放棄學(xué)習(xí)的腳步。
第二、研究很苦,有很多的困難,具有好奇心、熱情甚至信仰,才是驅(qū)動我們、支撐我們在研究道路上不斷前行的動力。我給大家舉一個例子,我們研究組在過去的兩三年時間里,逐漸對計算生物學(xué)有了濃厚的興趣,并且投入了很多的精力和資源。在這些方面的探索與我們的好奇心密切相關(guān),因為我們發(fā)現(xiàn)生物領(lǐng)域有趣且深奧。比如微生物菌群,大家可能想象不到,你體內(nèi)的微生物比你自己的細(xì)胞還多,我們從某種意義上講是被這些微生物控制的,我們愛吃什么、我們的生活習(xí)慣、我們的健康狀況,都與這些微生物息息相關(guān)。所以我們想要做到真正的精準(zhǔn)醫(yī)療,必須對這些微生物有深入的了解。另一個例子是表觀遺傳,我們每個細(xì)胞里的基因都是相同的,可是有些細(xì)胞最終發(fā)展成了我們的皮膚,有些發(fā)展成了我們的大腦,有些變成了內(nèi)臟。是誰對基因表達(dá)進(jìn)行了如此神奇的調(diào)控呢?正是基于對這些問題的好奇心,我們在三年前成立了計算生物學(xué)組,并且在這些方向上取得了非常令人鼓舞的成果。
第三、研究對創(chuàng)新有著非常高的要求,這件事情說起來容易,做起來卻很難。我發(fā)現(xiàn)很多同學(xué)特別愿意在自己的“小盒子”里面,如果你想要跳出這個小盒子,那么就必須要知道外面的世界是什么樣子的,這與我們前面提到的終身學(xué)習(xí)密切相關(guān)。當(dāng)你有了深入的研究,同時有了寬闊的視野時,你通常會做出可以讓別人非常驚訝的研究成果。
第四、質(zhì)重于量,精益求精。因為我們每個人的時間和精力是非常有限的,要學(xué)會合理分配。我們可以用同樣的時間做100項不同的研究,每一項都淺嘗輒止;也可以集中盡力做一件事,非常深入,取得世界矚目的成績。
最后,我想要鼓勵大家不怕失敗。人不可能不犯錯,不可能沒有失敗,只要我們能夠從失敗中學(xué)習(xí),其實失敗會給你提供更多的經(jīng)驗,讓你能夠把事情做得更好。
科學(xué)研究是很神圣的,但是科學(xué)研究的道路并不是高不可攀的。我們只要有正確的動機(jī),有效的方法論,完全可以在科研道路上不斷地創(chuàng)造成功,不斷做出自己的貢獻(xiàn)。