在今年《自然》雜志開展的一項調(diào)查中,60% 的科學家表示自己經(jīng)常使用該項服務(wù)。日前,《自然》雜志對話谷歌學術(shù)共同創(chuàng)始人 Anurag Acharya,聊了聊谷歌學術(shù)的過去和未來。
問:你如何知道哪些文獻需要檢索?
答:“學術(shù)”是學術(shù)領(lǐng)域的其他人都認為是學術(shù)的東西,這聽起來像是一個遞歸的定義,但確實是這樣的。我們通過爬蟲抓取所有網(wǎng)頁。以一篇新發(fā)表的博客為例,我們會判斷它和其他學術(shù)文章存在何種聯(lián)系。如果很多人引用它,或者它引用了很多人的文章,那么它可能具有學術(shù)價值。這里面并沒有神奇的公式可以套用,只能從很多特性中尋找證據(jù)。
問:創(chuàng)建谷歌學術(shù)的想法從何而來?
答:我在 2000 年來到谷歌,之前則在加州大學圣芭芭拉分校從事學術(shù)工作。很明顯,假如繼續(xù)從事學術(shù)研究,我不可能產(chǎn)生比待在谷歌更大的影響 -- 使世界各地的人們都可以找到信息。因此,我放棄了學術(shù)道路,花了 4 年時間管理谷歌網(wǎng)頁檢索團隊。那是一段異常忙碌的日子,整個人可以說是心力交瘁。
Alex Verstak(注:Acharya 在網(wǎng)頁檢索團隊的同事) 和我決定休假半年,并試圖利用這段時間讓學術(shù)文章的搜索變得更加方便快捷。當時的想法并不是創(chuàng)建谷歌學術(shù),而是想提高谷歌在用戶利用網(wǎng)頁搜索學術(shù)文章時的排名。不過,隨之而來的問題是如何判定搜索用戶的意圖:他們需要學術(shù)性的結(jié)果或者只是個門外漢? 我們據(jù)此建立了一個內(nèi)部原型,谷歌學術(shù)變成了一種非常有用和重要的服務(wù)。
問:這個想法很快就取得了成功嗎?
答:很快就廣受歡迎。谷歌學術(shù)啟用后,使用量呈指數(shù)級增長。一個重要的差別在于我們按照與用戶請求的相關(guān)性排列搜索結(jié)果,這是此前的學術(shù)性搜索服務(wù)無法做到的。它們采用的是倒序方式,即首先提供最新的結(jié)果。我們還通過爬蟲抓取到研究論文的全部文本,盡管在一開始并未將所有出版商的全部文本包括進來。
問:花了很多年才說服文獻出版社允許你們抓去全文,當時是不是感覺很困難?
答:這得考慮到十年前的情況,那時候網(wǎng)絡(luò)搜索還很輕量 -- 人們更愿意搜索 Britney Spears 的圖片而不是學術(shù)文獻。但我們知道有純粹的學術(shù)搜索請求,我們不得不說服出版商,我們的服務(wù)會為他們帶來更多的流量。當然在谷歌學術(shù)搜索推出前我們就與他們有合作。
問:2012年,谷歌學術(shù)從谷歌主頁搜索選項的下拉式菜單中消失。你是否擔心谷歌學術(shù)的地位可能下降或者被砍掉?
答:不擔心。我們的團隊在不斷成長中,從成立之初的兩個人發(fā)展到現(xiàn)在的 9 人。很多人或許會將谷歌學術(shù)從首頁菜單中的撤銷看成是一種降級,但事實并非如此。這些菜單鏈接是為了幫助用戶從主頁轉(zhuǎn)到其他服務(wù),因此會突出那些使用最多的轉(zhuǎn)換鏈接。如果用戶已經(jīng)知道如何啟動谷歌學術(shù),他們就不需要那種轉(zhuǎn)換鏈接。就是這樣而已。
問:谷歌學術(shù)如何盈利?
答:谷歌學術(shù)到目前還未盈利。其實,谷歌提供的很多服務(wù)都不賺錢。谷歌學術(shù)的首要定位是回饋學術(shù)界。我們之所以成功堅持到現(xiàn)在,就是因為在谷歌看來,這項服務(wù)的花費并不高。就訪問量來說,谷歌學術(shù)同很多谷歌服務(wù)相比很小,因此利用廣告盈利的機會相對較少。不過,到目前為止我們還沒有盈利上的壓力。
問:谷歌學術(shù)每天的訪問量是多少?這項服務(wù)能追蹤多少文獻?
答:我無法回答你,這是一個非常非常大的數(shù)字。對于追蹤文獻的數(shù)量也是這樣,除了 -- 自從我們推出谷歌學術(shù)后,這個數(shù)字增長了一個數(shù)量級。很多人關(guān)心這些數(shù)字,但這真沒多大必要。我們關(guān)注的是用戶能否找到他們想要的文獻。若果文獻本身很少的話,這些數(shù)字的確很重要,但我們顯然擁有足夠多的文獻。
問:谷歌學術(shù)已經(jīng)推出了額外的服務(wù):例如作者的資料頁和一個推薦引擎。這意味著谷歌學術(shù)準備從一個搜索引擎轉(zhuǎn)向成為類似文獻計量學的工具嗎?
答:既是,也不是。推出資料頁的目的還是在于幫助用戶找到他們需要的文獻。有時候你可能忘了文獻的標題,但你可能記得它的作者,這樣你就能找到相關(guān)文獻。你還能追蹤某個作者的文獻和工作,著同樣是查找文獻的線索。當然資料頁還有別的用途,通過閱讀一個人的資料頁,我們可以了解他的學術(shù)的演化歷程、他的學術(shù)伙伴們都有誰,甚至可以向他推薦一些他的領(lǐng)域中別的研究人員關(guān)注的主題。
問:你擔心這種把戲嗎 -- 造假的文獻通過被谷歌學術(shù)檢索增加引用量?
答:不擔心。是的,你可以添加你想要的任何文件。但是,一切都是可見的 -- 你的資料頁上列出的文獻,引用你文獻的文獻等等。如果發(fā)現(xiàn)你造假,世界上的任何人都能打電話給你,基本上是你的學術(shù)生涯就結(jié)束了。我們沒有看到垃圾郵件正是由于這個原因。我有很多的經(jīng)驗處理垃圾郵件,因為我曾經(jīng)為搜索部門工作。當人們都是匿名的,垃圾郵件會變得更容易。但如果我要建立的是我的公開出版物的歷史,我會比較謹慎。
問:未來谷歌學術(shù)會有什么樣的改變?
答:我們非常擅長幫助用戶找到他們要搜索的文章。不過,下一步我們打算做的一件大事是幫助用戶找到他們需要但又不知如何搜索的文章。我們能否讓意外發(fā)現(xiàn)變得更加容易? 如何幫助每個人在無須翻閱上百篇論文導(dǎo)致一整天任何其他事都干不了的情況下,輕松掌握學術(shù)前沿?
我不知道我們將如何實現(xiàn)這個目標。盡管在這方面我們已經(jīng)做了一些初步努力如推出建議搜索引擎,但離想要的東西還相去甚遠。在向用戶推送不是其主動搜索的信息時,存在一個本質(zhì)性問題:內(nèi)容必須具有相關(guān)性,確保我們沒有浪費用戶時間,但又不能太相關(guān),因為用戶已經(jīng)知道這些文章。
問:怎么幫助用戶直接找到數(shù)據(jù)而不是文獻呢?
答:這是一個有趣的想法。在收費文獻里搜索數(shù)據(jù)是完全可行的。但當我們給用戶的搜索結(jié)果指向一個收費文獻時,用戶只能看到摘要。對全文檢索而言,我們也是依靠提供摘要信息讓用戶評估某篇文獻對他們是否有用。我們還沒有針對數(shù)據(jù)搜索建立類似文本搜索的模型。
問:許多人希望能通過谷歌學術(shù)開放API,這樣他們可以自己寫搜索的腳本或自動獲取別人的資料頁,在此之上提供更多的服務(wù)。這可行嗎?
答:我不能這么做。我們自己和出版商合作伙伴都不會喜歡這個想法。我們被允許掃描所有的文獻,而不是講這個信息分發(fā)出去。和出版商的合作非常重要,我們因此得以可以繼續(xù)構(gòu)建一個對所有人免費的全面搜索服務(wù)。這是我們的初心,其他任何東西都是次要的。
問:下一個十年你還會為谷歌學術(shù)工作嗎?
答:首先我從來沒想到我竟然為谷歌學術(shù)忙活了十年!我妻子在我(為谷歌學術(shù))工作了 5 年、7 年的時候提醒過我(工作了這么久),而我現(xiàn)在還沒離開。谷歌學術(shù)是我能想到我能做的最重要的事情,我們的工作使這個星球上最聰明的人更有效率。離開谷歌學術(shù)是一個非常有吸引力的命題,而我無法預(yù)見它會很快很輕松地實現(xiàn)。
問:當你還是印度理工學院的學生時,你是否想過要是有這么一個免費、有效的搜索引擎該多好?
答:(谷歌學術(shù)) 影響了我曾經(jīng)關(guān)注的問題。舉例來說,當時沒有任何工具可以對只提供摘要的收費文獻進行全文檢索。我認為這是需要被解決的問題,因為對讀者來說,需要知道信息在哪兒。如果你知道一個關(guān)鍵的信息在一篇收費文獻里,你可以寫信給作者。但在這一點上,谷歌學術(shù)有它自己的生命。
問:使用谷歌學術(shù)的用戶是否有必要擔心數(shù)據(jù)隱私問題?
答:我們采用標準的谷歌數(shù)據(jù)收集政策,谷歌學術(shù)也不例外。我在谷歌的角色主要是負責谷歌學術(shù),所以不會談太多更寬泛的問題。
相關(guān)閱讀