vivo結構工程師vivo結構工程師用什么軟件

建造師
結構工程師
2025-03-03
73

　　AI科技評論按：在谷歌 I/O 2017 的最后一日，主場館海岸線圓形劇場迎來了本屆 I/O 最具重量級的機器學習講座：由四位分屬不同領域的 AI 女性大牛展開巔峰對話，漫談 AI 的過去、現在與將來。四位嘉賓分別是語音識別、計算機視覺、數據可視化和生物計算領域的頂級 AI 學者與工程師。而本場對話無關技術，純是幾位杰出科學家對各自領域深度學習發展歷程的反思，以及對將來趨勢的思考。

　　四位嘉賓是：

Francoise Beaufays，谷歌語音識別技術研發帶頭人

李飛飛，谷歌云首席科學家，斯坦福 AI 實驗室負責人

Fernanda Viegas，計算式設計（computational design）專家，谷歌 Big Picture 數據可視化部門負責人之一

Daphne Kolller，Calico Labs 首席計算官，Coursera 聯合創始人

　　本講座由谷歌云副總裁 Diane Greene 主持（以下稱”主持人“），分為三個環節，每個環節的話題分別對應 AI 的過去、現在與將來。

　　話題一：AI 技術是如何發展到深度學習時代，走到今天這一步的？

　　Daphne Kolller：我認為，深度學習革命讓我們得以解決當今各領域的許多現實難題，它讓這一切成為可能。

　　這場革命，是一系列機器學習研究進展的結果——深度學習來臨之前，大約有 10 到 15 年相當艱辛的研究，用于研發人工設計的模型。構建這些模型需要大量其它領域的專業知識，以及深入細致的思慮考量。研究人員需要人工雕琢模型的大量細節，由于缺乏數據，往往要用我們的直覺判斷作為構建模型的依據。

　　而當我們得到更多數據，尤其在文字、圖像、語音領域，就逐漸開始用數據來替代這些主觀洞察力。但是，過去這 10 到 15 年間的技術研究成果，在今天仍然很有價值。這里有兩個方面：

在研究方法上，優化算法便是那時發明出來的，是深度學習得以成功的關鍵技術之一。

另一方面，如今我們一廂情愿得相信，大數據是解決一切的方案。但這僅僅對應部分領域。對其它領域而言，我們掌握的數據量充其量不過是中等，有的甚至可說是小規模。因而，仍需要在人類直覺和數據之間做平衡，充分利用兩者的長處。

　　李飛飛：我來稍微談一談歷史背景。在所有人類的科學領域里，AI 是一門相當年輕的學科，大約有 60 歲。但在我的觀點里，AI 啟蒙思想的根源，即對于智能的求索，可追溯到人類文明誕生的黎明時期。

　　大約 60 年前，機器剛剛能處理簡單的算術。但以計算機科學之父阿蘭-圖靈為代表的思想家，已開始提出挑戰人類社會的問題：“機器是否能思考？機器是否能擁有智能？那時，馬文·明斯基、John McCarthy 等計算機先驅聚到一起，創立了如今的人工智能學科。AI 之父們眼中的 AI，在技術上講，與今天十分不同。但核心的愿望是一致的：讓機器能學習、思考、感知、有邏輯，能開口說話，與我們交流。

　　AI 已經經歷了幾波技術發展：從一階邏輯（first-order logic），到專家系統（expert systems），然后是早期機器學習，再到如今的深度學習革命。

　　過去的 60 年，我把它稱為”in-vitro AI“，或者“AI in vitro”（雷鋒網注：可理解為“試管階段的 AI”）。這一階段為 AI 研究的基礎問題以及眾多子學科打下了基石。后者包括機器人、計算機視覺、自然語言處理、語音處理、生物保護學（conbio）等等。這同樣是一個研究人員們不斷理解數據、尋找工具集的過程。

　　而 2010 年左右是一個分水嶺。這時，三個不同領域的進步終于達到了一個前所未有的里程碑高度：統計機器學習領域工具的成熟、互聯網和傳感器帶來的大數據、摩爾定律預測的硬件計算性能提升。這三者的合力，把 AI 從 “in vitro”階段，推上了一個被我稱為 “in vivo” （雷鋒網注：可理解為“胚胎階段的 AI”）的全新階段。

　　“AI in vivo”，是一個 AI 技術向世界做出實際貢獻的階段。當下這個時間點，還僅僅只是個開頭——“It‘s just the begining”。我們在谷歌云所觀察到的每一個行業，都在數據、AI、機器學習的推動下經歷著革命性的轉變。在我眼里，這是一個歷史性的時刻：AI 終于開始發揮現實影響力，改造無數個行業。

　　我想要再強調一遍：一切剛剛開始?，F在 AI 領域的工具和革命性技術，僅僅是廣袤海洋中的幾滴水。剩下的可探索空間，即我們能借助 AI 實現的事情，幾乎是無限的，再怎么夸大也不為過。對此，如果你感到興奮激動，或許是應該的——有許多工作等著我們去做，來實現 “AI in vivo”。

　　主持人：Francoise，你處在語音識別研究的最前沿。當下，語音識別技術已經普及開來，能否向我們介紹下這一發展歷程？

　　Francoise Beaufays：當然。12 年前我加入谷歌，那時，我們都想用語音識別技術做點有用、好玩的事。但這相當得難——當時語音的質量完全不能和現在比。因此，我們從極其有限的產品著手，這樣識別一個人說的話并不過于復雜，然后一點一點地突破極限。我們需要做的，是打造一個成功的產品，讓用戶愿意使用；然后以此為基礎，不斷收集新數據導入模型、不斷迭代，每次提高一點點。

　　按照該思路，我們開發了 GOOG-411，我不知道有多少人還記得它。它是一個手機 APP：你撥打一個號碼，它會問你：查詢哪個城市或州？回答之后，它接著問：“查詢哪家公司？”說出名字之后，它會撥通該公司的電話。請注意，12 年前，沒有 iPhone 也沒有安卓，大家用的還是功能機。所以 GOOG-411 的功能也很基礎。幸運的是，谷歌高層對該技術的前景抱有憧憬，支持我們盡可能得打破技術極限。

　　當時我們很成功。然后 iOS 和安卓誕生，一切都變了——用戶有了視覺反饋。于是我們開始構想其他的 APP 產品，那便是 Voice Searchv用語音進行谷歌搜索。我們開始做語音轉錄，把麥克風整合進手機功能的各個入口，讓用戶可以用語音做任何事。

　　更后來，我們試圖把語音識別技術帶到家庭場景，比如 Google Home 這樣的設備。用語音來處理日常任務，是一個呼聲很高的訴求。我們認為智能助手是一個很好的入口。相比用口頭命令做簡單的事，智能助手可以用日常的自然語言與用戶問答，而不是麻煩的鍵盤打字輸入，使谷歌真正成為用戶的個人助手。

　　主持人：Fernanda，你曾表示要讓數據可視化民主化。如何才能實現？必要性在哪里？數據可視化分析又是如何進化的？

　　Fernanda Viegas：十多年前，我已經在從事數據可視化。當時的情況很不一樣：研究非常困難，設備和現在不能比，能獲得的數據也很少，大多數并不公開。

　　這情況逐漸改善，現在，數據可視化已可說是無處不在。比如，媒體也喜歡在數據可視化的幫助下，用統計數字表達復雜的新聞事件。我們喜歡的一個玩笑是：“對于統計，數據可視化是一道毒品”——你可能都不會意識到自己在做統計，因為數據可視化是如此善于在視覺上找規律、找異常。

　　數據可視化一直在一條更加民主化的軌道上。長久以來，AI、機器學習有一項重大挑戰：如何讓我們人類理解超高維數據。這方面，Geoffrey Hinton 和同事們搞出的 t-SNE，堪稱是 AI 領域的革命性數據可視化工具。它在數據可視化發展史上是一項相當關鍵的里程碑。我和飛飛有類似的感覺：我們正處于如何利用數據可視化技術推動 AI 進步的起點。

　　話題二：AI 在當下面臨的技術挑戰

　　Francoise Beaufays：語音識別從來都是基于機器學習，與更早期無關機器學習的技術沒什么關系。過去三十年間，機器學習技術一直在進化，語音識別也不斷進步，其中一個大轉折點是神經網絡的采用。這距今不到八年，但基于神經網絡的語音識別研究在很久以前就已開始。只是由于計算能力的限制，這條路在產生大量成果之后被學界放棄，直到幾年前重新采用。這期間，語音識別基于更基礎的技術，仍然在發展提升，例如 Gaussian 混合模型。

　　在技術上，采用深度學習確是一項較艱巨的工作，牽扯到延遲、規模、訓練能力等問題。當基于深度學習的語音識別技術在生產環境部署，這打開了一扇嶄新的大門，背后是一系列的提升。另外，由于有了強大的計算硬件支持，我們能快速地從一個神經網絡架構轉換到另一個。因此，我們開始探索 RNN（比如 LSTM）、CNN、基于 CTC 的序列建模等其他模型。簡而言之，采用神經網絡，為我們開啟了在支撐谷歌產品的核心技術上不斷創新的新空間。

　　主持人：這是用于語音識別的神經網路，我們再來聽聽能延長壽命、讓我們更健康的神經網絡。Daphne，給我們講講為什么 Calico Labs 需要你這位世界最頂級的分子生物學與機器學習專家之一，你在那做什么？

　　Daphne Kolller：很多人可能沒聽說過 Calico，我們的曝光很少。做個簡介，Calico 是最早剝離谷歌，直接歸屬 Alphabet 的子公司。Calico 的目標是理解衰老，幫助人們活得更長、更健康。

　　衰老其實是我們所面臨的最大的死亡風險，沒有之一。這對幾乎所有 40 歲之前發生的疾病都成立：當患者一年一年老去，死于該病的風險會指數級得增長，糖尿病、心腦血管疾病、癌癥均是如此。

　　但諷刺的是，沒人真正知道為什么。

　　沒人知道為什么在 40 歲之后，每一年過去，都會給我們增加死于這些疾病的風險。為了對此進行理解，我們很有必要研究導致衰老的生物系統機制，從分子層面一直到系統層面。雖然我不認為我們能永生，但也許通過技術手段介入，我們能活得更久更健康。

　　Calico 早期有一名研究人員，其研究顯示：僅僅某單個基因的變異，就能延長機體 30%-50% 的壽命。而且，我們不僅會活得更長，還會以更年輕的面貌、更飽滿的健康狀態生活。

　　但實現這些需要搞清楚許多尚不明了的東西，還需要收集所有生物系統在所有年齡狀態下的海量數據，包括酵母、蟲子、蒼蠅、老鼠、人——為什么這些不同物種在分子層面發生著同樣的事？

　　幸運的是，過去二十年間，科學家們發明出一整套衡量機制與方法，收集數據并試著幫我們理解衰老中的機體。這包括基因測序技術、微流體、跟蹤設備，記錄機體如何隨衰老發生變化。但是，沒人能把這些不同測量機制所產生的、從微分子層面一直到人口學層面的數據整合到一起。

　　如何整合所有信息，精確描繪出人體如何衰老的過程？

　　這就需要生物學家和機器學習專家之間的合作，后者能建立模型，整合所有信息。

　　我屬于少數極幸運的人，能在該領域的萌芽時期就投身進來：在 2000s 年早些時候開始從事計算生物學（computational biology）。如果說，我的機器學習算是母語造詣，我的生物學就在“流利”水平。這使我能夠與 Calico 的科學家們共事，在兩門學科之間建立真正的合作紐帶，開發能結合兩個世界的優點——大數據和人類直覺的模型。

vivo結構工程師vivo結構工程師用什么軟件第1張

　　由于生物機體的復雜度實在太高，即便是今天這個量級的數據，我也不認為僅用數據就能重建生物體從頭到尾的完整模型。正如我在講座的開頭所講:數據，和頂級科學家的直覺，我們都需要；用以最終建立對衰老的深度理解，并預測有效的干預方式。

　　主持人：下面聊聊計算機視覺（CV）。飛飛，有次在 TechCrunch，你說 CV 是 AI 的殺手級應用，你想表達什么？你一直提倡的 AI 民主化又是什么意思？這跟云計算有什么聯系？

vivo結構工程師vivo結構工程師用什么軟件第2張

　　李飛飛：我當時是想推動更多人認識到這一點。我堅信這一點。當時的原話是：“很多人問 CV 的殺手級應用是什么？我會說：CV 本身就是殺手級應用，AI 的殺手應用?！?/p>

　　我會這么說，有兩個理由：

五億四千萬年前，生物進化史上發生了濃墨重彩的一筆：由于某些不知名的原因，地球上的物種種類從極少，一下子爆發為極多。這被看作是進化史上的宇宙大爆炸——被稱為寒武紀大爆發。對其背后的原因，生物學家迷惑了許多年。直到最近，一個非常有說服力的理論浮出水面。這個猜想是：那時，生物進化出了眼睛。一下子，動物的生存變得主動：有了獵食者，有了被獵食者，整個物種進化軌跡從此天翻地覆。

　　今天，人類是最智能的視覺動物。大自然把我們腦容量的一半都分配給了視覺圖像處理，正是由于其重要性。

至于第二個理由，據估計，互聯網上超過 80% 的內容，為視覺內容。另外，傳感器收集的第一大數據形式，是由可見光或不可見光組成的圖像數據。無論在哪里，對于公司、消費者來說，以像素形式出現的數據都是最珍貴的。

　　和語音識別類似，有了深度神經網絡之后，CV 實現了多項突破和長足進步。在我看來，從 2010 到 2017 的七年間，CV 最主要的進步發生在基礎的感知任務領域（perception task）：物體識別、圖像標注、物體檢測等。我們也已經有了應用產品——谷歌照片（Google Photos）、自動駕駛汽車的行人檢測系統等。

　　我認為，下一波對 CV 的投資，將集中于 “Vision+X”，即 CV 和其他領域的結合應用。比如說，視覺在溝通、語言中是如此重要，CV 和語言的結合，會非常有意思。醫療、生物領域的視覺應用更不必說。機器人是另一個有無限潛力的 CV 應用領域。人類研究機器人的歷史幾乎和 AI 一樣久，但現在，機器人仍處在一個非常原始的階段。究其原因，這在很大程度上是由于其原始的感知系統（想想寒武紀大爆炸）。

　　簡而言之，我的確認為視覺是機器智能最重要的構成要素之一。

　　話題三：AI 在將來有什么趨勢？有哪些可供展望的愿景？

　　主持人：我們時間不多了，Fernanda，能否講講你眼中數據可視化的未來在哪里？

　　Fernanda Viegas：當然。順著剛才飛飛的思路，既然人類有這么復雜的視覺系統，我們不妨用它來理解機器做的事。機器學習運行于海量的數據、統計數字、概率，在某種意義上，可視化是幫助我們理解這些東西的秘密武器。

　　為什么我們應該重視數據可視化？這有三點：

可解釋性。你是否能解釋模型輸出的東西？

漏洞可修補性。更好地理解模型，能幫助你修補漏洞。

教育?？梢暬跈C器學習教學中扮演了重要角色。另外，如果我們利用可視化更好地理解了機器學習系統，我們能否從這些系統中學習，提升職業水平？

　　最后，我想講一個有意思的例子，我們用數據可視化發現了機器學習系統中原本并不知道的東西。前段時間，谷歌實現了 zero-shot 翻譯，即谷歌翻譯能處理未遇到過的語言組。研究人員對此產生了一個疑問：該系統的多語種數據空間是按照何種規律分布的？比如說，數據是按語種劃分？還是，系統把不同語種混到一起，“學到”了一些語法、語義的規律？

　　于是，我們開發了一個數據可視化工具來進行查看。結果發現，不同語種但相同語義的句子，組成同一個簇。不同句子形成一個個不同的簇，而無分語種。某種程度上，這可以說是世界通用語言的雛形，我們把這成為“interlingual”，即“跨語言的”。另外，我們發現，哪些相對更隔離的簇，都是翻譯質量不高的語句。這告訴了我們，數據空間的幾何分布是有涵義的。

　　目前為止，AI 仍讓人感覺到強烈的工程導向屬性。我很期待在將來，藝術家、UI 設計師、科學家會為 AI 帶來什么，有哪些我們全未想到過的可能性？這些會很值得探索。

　　主持人：Francoise，我想問你數據可視化會如何幫助語音識別（笑）。但我同樣想問你：如今數據越來越復雜，比如訓練模型的標記數據，還有越來越多的個性化，語音識別技術在走向何方？又有哪些令人興奮激動的挑戰？

　　Francoise Beaufays：在語音識別領域，每當遭遇一個新難題，我們必須要專注在它上面。我們開發 Youtube 兒童頻道的時候，就必須要專注于孩子的聲音——他們的說話方式、音域、斷句方式都和成年人不一樣。最終，我們找到了把學習成果加入通用模型的方法。因而 Google Home 現在能與兒童正常交互。

　　對于我們而言，Google Home 又是一個新環境，我們需要收集新數據。有了新數據之后，將其導入模型進行訓練就變得簡單直接。但是，第一次發布 Google Home 的時候，并沒有用戶數據。因此，我們做了許多模擬：采集數據，添加不同類型的噪音，在數據上做不同類型的混響（reverberation）。事實上，我們用的數據足以稱得上是海量。我們轉錄了數萬小時的語音，然后與模擬疊加增殖，最后導入模型的數據，相當于是數個世紀的語音。

　　世界上有如此之多的語言，語言學家說，光是使用人數在 10 萬人以上的，就有 1342 種。我們如何向如此之多的語種服務？這是一個需要在機器學習領域發揮很多創造性的難題。

　　李飛飛：我相信 AI 是第四次工業革命的驅動力量之一。我從一個哲學家那里聽來的、一句我最喜歡的話是這樣的：“獨立的機器價值觀并不存在，人類價值觀就是機器價值觀”。我很期待在將來，來自各門學科的技術專家在 AI 領域發揮所長，只有這樣，才能真正為全人類開發 AI，而不是為一部分人而研發。

　　Daphne：作為一名頂級機器學習專家，如果在五年前，有人問我五年后機器是否能像人類一樣準確用文字注解圖像，我會說不可能，二十年后還差不多。但由于飛飛等科學家的努力，這一天比我預想的早很多就到來了。

　　我離開 Coursera 重回生物領域的原因，是因為我認為生物技術現在已經到了指數級增長曲線的那個拐點。如果我們看看人類基因測序的歷史趨勢，其指數每七個月就翻倍，增長速度是摩爾定律的兩倍。按照該趨勢預測 2025 年的接受了基因測序的人口數量，保守估計是 1 億，正常估計是 20 億。而這只是測序，還沒有包含 RNA、蛋白質組、人體成像、細胞成像等等。

　　人體，是人類迄今所遇見的最復雜系統。我認為，我們正處于理解這一系統的開端——到底是什么讓我們活著？什么讓我們邁向死亡？我認為，有今天這一量級的數據以及不斷進步的機器學習技術，我們完全有機會用 AI 革新科學。

　　報名 |【2017 AI 最佳雇主】榜單

　　在人工智能爆發初期的時代背景下，雷鋒網聯合旗下人工智能頻道AI科技評論，攜手環球科學和 BOSS 直聘，重磅推出【2017 AI 最佳雇主】榜單。

　　從“公司概況”、“創新能力”、“員工福利”三個維度切入，依據 20 多項評分標準，做到公平、公正、公開，全面評估和推動中國人工智能企業發展。

　　本次【2017 AI 最佳雇主】榜單活動主要經歷三個重要時段：

　　2017.4.11-6.1 報名階段

　　2017.6.1-7.1 評選階段

　　2017.7.7 頒獎晚宴

　　最終榜單名單由雷鋒網、AI科技評論、《環球科學》、BOSS 直聘以及 AI 學術大咖組成的評審團共同選出，并于7月份舉行的 CCF-GAIR 2017大會期間公布。報名期間歡迎大家踴躍自薦或推薦心目中的最佳 AI 企業公司。

　　報名方式

　　如果您有意參加我們的評選活動，可以點擊【閱讀原文】，進入企業報名通道。提交相關審核材料之后，我們的工作人員會第一時間與您取得聯系。

　　【2017 AI 最佳雇主】榜單與您一起，領跑人工智能時代。