一塊GPU就能訓練語義分割網絡,百度PaddlePaddle是如何優化的
本來一塊GPU也是可以的,模型和用幾塊GPU沒有關系,多用幾塊是為了加快訓練速度,CPU都可以訓練網絡,就慢一點而已。
在百度工作是一種什么樣的體驗
百度是我第一家工作的公司,一轉眼3年了,對這家公司有一種特殊的情感。就從以下幾個方面說一下在百度工作的體驗吧:
生活:百度主要分為百度大廈和百度科技園,百度科技園是新建的,所以東西設施都比較全而且多,在科技園中有滑梯,可以直接劃下來,在樓頂有塑膠環形跑道,工作之余在上面跑跑步,聊聊天還是挺不錯的。大廈和科技園都會有自己的食堂,也會有吃飯補助,科技園的菜品會更為豐富一些,有韓餐、日料、東北菜、川菜、炸雞等等,味道很不錯,價格也比外面要便宜。同時有自己的蛋糕房,里面有奶油、水果各種蛋糕,有自己的咖啡廳,有時候說話談心也會在這塊進行。休息室里面有按摩椅,可以放松,也有母嬰室,提供媽媽們一個專門的地方。哈哈哈,也有理發的地方,不過理發師傅的技術還有待商榷。健身房科技園的器材很全,可以鍛煉,同時也有自己的籃球場、乒乓球場等等。兩個辦公地點往來的班車很多,不過有時會有些堵車。比較贊的一點是,百度有很多社團,比如動漫、游泳、跑步、音樂社團等等,極大的豐富了大家的生活,就像大學一樣。
工作:說完了生活來工作,工作的話,百度的大工位很爽,面積大,還有自己的衣柜,敲起代碼比較爽,就是會議室比較難定,工作氛圍很簡單,以結果為導向,同時每年會有兩次評定,會有晉升機制,當然啦,對應也會有money的增長,總之工作起來很舒服,哈哈哈,歡迎大家加入百度哦
ABC時代,百度如何扮演智能汽車新引擎
ABC(商業智能、大數據、云計算)等新技術的應用正在加速金融與科技的融合。如今,金融科技正在成為傳統銀行業集體轉型的大勢所趨。百度的技術積累將如何幫助銀行業轉型?一起聽聽百度副總裁怎么說。
人工智能時代,打造智慧數字銀行已經成為中國各大銀行轉型的方向,特別最近兩年隨著人工智能,大數據、云計算的發展,讓傳統銀行業產生了沉重的危機感。
銀行不能成為二十一世紀的恐龍,銀行必須走在金融科技發展的前列,成為業界共識。當前,中國經濟進入新常態,告別跑馬圈地、粗放式發展的中國銀行業更是將科技視為推動銀行業轉型的助推器,各主要銀行紛紛加大科技投入,希望通過擁抱新一輪技術革命,繼續保持領先優勢。
但知易行難,雖然中國銀行業科技水平近年來得到飛速發展,智能化水平顯著提高,但是從全球范圍來看,銀行業并不是新技術的創新者,引導新一輪技術革命的企業并不是銀行業,而是谷歌、百度等大型互聯網科技公司,銀行業一般是在其技術成熟時,通過技術引進,在金融業加以應用。
如何能讓新科技革命盡快服務銀行業,推動中國銀行業科技水平引領國際銀行業成為業界關注的焦點。
2017年12月,在銀行業科技年會上,百度公司副總裁、百度云總經理尹世明告訴與會的中國銀行業科技部門主要負責人,傳統的技術架構已經跟不上智能時代的需求,銀行要開始準備打破數據圍墻,迎接ABC時代(AI人工智能、BigData大數據、CloudComputing云計算)的來臨。
百度公司副總裁、百度云總經理尹世明
以下是演講內容全文:
各位銀行界的專家以及同仁,非常高興今天來參加這個會議。去年的12月,當時百度內部有個會議,這個會議在講云計算、人工智能、大數據到底會怎么發展?當時在想一個問題,就是有大量的企業其實是不愿意上云的。有人說是因為保守,也有人說是因為對于數據丟失的恐懼,還有可能是因為對數據的恐懼,對上云之后到底能帶來什么質的變化,能帶來業務流程的新變革嗎?心存疑慮。也許能夠帶來一些服務器資源的節省,但即使節省一半,那其實也沒多少錢,所以很多人會說為什么要上云。但是在我們看來,云計算的核心是說它很有可能是一個新的時代,就是因為云的產生,所以才有了大量的數據,因為有大量數據的產生才有了今天的人工智能,這三者是三位一體的。所以說從2016年11月份開始百度提出ABC(AI人工智能、BigData大數據、CloudComputing云計算)三位一體,應該是以這樣的一種方式去探討未來的技術架構,所以我們提出Cloud2.0。
今天我們談這個問題的時候,先來看幾個案例,這是國家開發銀行的授信評審的連接數據,大家可以看到很重要的一點就是引入了外部的數據。百度的爬蟲每天對全球的網頁進行抓取,某一個鋼鐵企業是不是發生了一些問題,或者這個鋼鐵企業可能在一個很偏遠的法院里面,已經被人訴訟了,這是不是個風險信號?這是不是比財務報告更加直接的一個風險的預警?顯然是的。另外一點,開始有一個集中區域里面有人員在說某一家鋼鐵或者另外一個放貸企業的老總的身體狀況,或者有人說欠薪怎么辦,那是不是一個風險的預警?這是非常顯性的風險的預警,但這些靠傳統的企業內部的數據是無法獲取的。這個案例就是大數據的應用。
什么叫大數據?如果我們定義大數據是企業內部的數據,它就不叫大數據。今天企業內部的數據量其實是很有限的,百度每天處理的數據量在100PB量級,這還是去年年初的一個數據。今年視頻一來之后,這個數據可能要成倍增長。那么大數據的核心是什么,大數據的核心在我們看來有可能是要開始突破企業的圍墻,不能夠再以一個企業作為數據來源維度,應該是要放寬視野,在更大的范疇里面去尋找數據的來源,所以要突破企業的邊界。
那么這里面,我在講這個架構的過程里面,我首先講兩個案例,一個案例是我們跟某一個銀行合作,在傳統的信用卡申請時,你擔心申請人不合規,不合法,之前的算法是基于規則引擎,大量的程序設計員或者算法設計員設計一個規則,由這個規則定義申請人是不是合規、合法,所以這些人的思想和想法,就限定了這個規則本身只能達到這個水平。但是,人工智能改變了這個游戲規則,怎么改變呢?可能是基于一個深度學習的平臺,比如Google的TensorFlow,百度的PaddlePaddle,以這個進行訓練,然后產生一個能夠科學評估并不斷根據新數據來進行自我修正的模型,我們跟這個銀行合作,作為一個試驗性的項目,其實訓練只花了一個禮拜的時間,模型的成功概率就達到了90%以上。以往最高也只能達到80%。人工智能基于對數據的學習和訓練,可以幫助你找到基于無窮變量的一個規則,而以前所有計算的規則是基于一個有限變量的規則,這是不一樣的。
再講一個實際的案例,我們跟首鋼(北京首鋼自動化信息技術有限公司)合作了一個基于計算機視覺的質量檢查,來提高首鋼在品控方面的效率和精度。以前是要通過一個非常昂貴的做法才能去辨別的。首鋼給了我們20萬張質檢車間的鋼材圖片,我們在四天之內完成了圖片所有特征的標注,在標注之前,在數據產生價值之前是純人工的智能,你要人工去標注它;標注完了之后,對這些數據進行了學習訓練,最終這個模型對瑕疵鋼材的識別準確率是99.8%。以前的我們會預定一些規則,我喜歡把它叫做pre-define,然后以預定的規則去指導我們的業務,但今天可能會發生變化,這個pre-define像pre-train,就是預訓練的規則。這個預訓練的規則你是不知道其所以然的,你只知道它確實管用,而且你只需要了解它管用就可以了,里面到底什么原因?不知道,也不需要知道。那么意味著什么?意味著我們要改變一種方法,這種方法就是我們的規則沒有必要靠人為去制定,而規則是要靠學習出來,靠訓練出來的,這是第二個重大的變化。
那么第三個變化,百信銀行今年二月底的時候我們開始為他做一個系統,我記得當時提的一些要求還是覺得蠻挑戰的。第一就是它一定要堅決地去掉Oracle,全部基于分布式架構搭建一套基于X86的架構,后來我們實現了,底層架構是完全基于分布式X86的架構,計算能力是完全可以靈活擴展的。另外一點,它基于X86和那個分布式系統之后,它的成本也就變得非常低。我們在上線的時候做到的TPS是4800,但其實對于我們來講,如果它要乘以10倍,做到五萬,對我們來說技術上完全沒問題。如果要更多的我們也可以探討,因為這個其實計算的算力以及算的方法已經完全不一樣了。
服務的連續性和可靠性,我們正在努力,希望使RTO和RPO兩者都接近于零。但是現在可能還不能完全做到,計算這個領域也發生了變化,可以看到它整個的架構搭建,底層是計算虛擬化了,存儲虛擬化了,網絡也虛擬化了,也完全符合監管的要求。而且一個海量的數據分析平臺可以完成各種各樣大數據的處理。
第三個方面是什么?目前對于算力的理解和計算的理解應該是不一樣的,算力如果乘以10倍之后還是用老方法做原來的事情,好像是有點兒不太對,對嗎?因為你已經有了本質的提升,但你卻還是用老的方法在做所有的事情。剛才其實我通過三個案例,一個是講了B,也就是BigData領域的一些內容,一些變化;一個案例講了AI,就是通過數據形成智能;講了C,CloudComputing的案例,三個領域的三個案例。所以三大特征,第一個是數據,我覺得一定是要打破數據的圍墻。對于銀行業有各種各樣的監管的要求,這一塊還是需要探討的,但是外面的數據實在是洶涌澎湃的,怎么去利用它?以傳統的架構利用它,還是用新的架構利用它?我覺得這是個問題。第二個,算法的規則已經發生變化,我們的規則應該既要涵蓋預定義的規則,也要涵蓋預訓練的規則,而預訓練的規則將可以打開一扇完全不同的窗。第三個,就是算力的邊界,所以ABC三者三位一體能有一些新的變化。但是剛才我講到所有的案例,從百度來看根本的變化在哪里?看到有C的變化,有B的變化,有A的變化,因為計算能力的提升產生了大數據,因為大數據的提升產生了一個人工智能新的一個時代,更核心的在哪里?1992年之前是大機的時代,大機的時代是非常封閉的,1992年之后可以發現整個IT行業迎來一股春風,也就是ClientServer,客戶服務器架構,而客戶服務器架構開始在硬件軟件和服務這塊進行解耦,你會發現硬件方面有IBM,也有Unix服務器,也有Dell。軟件方面你會發現ERP方面有SAP、有Oracle,數據庫方面有SyBase、Oracle和MySql。服務方面,你會發現有了埃森哲這種企業。
ClientServer造就了一個時代,這個時代持續到了2011年,在我個人看來,但隨后突然發現這個時代受到了巨大的挑戰,最佳業務實踐好像已經不再可以成為最佳了,咨詢公司的建議好像已經不再可以滿足快速發展的需求了,為什么?因為世界發生變化了。大機時代和客戶服務器時代是是企業級的時代,企業級還可以在里面說,我把企業這一環節統一起來之后,把企業的數據統一起來之后,可以產生巨大的紅利。但是今天突然發現一個分布式的時代來臨了,一個區域中心化時代來臨了,這個時候你突然發現,企業就是自建的圍墻,如果你在圍墻之內去運行的時候,你有很大的阻力,你的思維打不開,為什么?你是企業級的,企業級就是很大的問題。傳統的挖潛,已經達到一個相對極致的地方了。傳統的企業流程再造已經不足以去完成企業更大程度的優化了,這個時候要向外挖潛、向外整合,但是傳統的架構限制了我們的數據只能是企業級的,我們的流程只能是企業級的,我們的做法只能是企業級的,但是我們堅信ABC的時代來臨了。ABC的時代,計算這個環節是cloud,基于cloud的核心不在于是說做了幾個計算詞節省了一點,cloud的核心是說計算的資源可以沒有邊界。我可以在一個很大的一個范疇之內,完全計算。計算首先沒有邊界,而計算沒有邊界之后,隨后帶來一點,數據逐漸的就開始沒有邊界了,數據已經開始在各個領域里面流動,雖然不是一個有序的流動,但是已經是有大量的數據在外面流動,而這些數據并沒有被很好的利用起來,也沒有很好的規范把它做起來。有了這些數據之后,就會產生新的意思,就是AI,新的意思意味著新的業務流程。
同樣的一個人,如果他詐騙了一個地方,為什么其他的所有銀行沒有反應?因為這數據沒有觸發所有的信號,因為我們原來所有設計的軟件就是企業級的,所以我堅信一點,ABC(AI人工智能、BigData大數據、云計算CloudComputing)或者新的架構可能會開啟下一個20年,除了云計算之外隨后一定會帶來軟件這個層面設計的變化,隨后形成新的意識和新的做法。這是我們認為說它背后的邏輯在里面,正是因為背后的邏輯,那以后的銀行應該怎么搞?我們也不知道,我們只是說我們應該是那個ABC(AI人工智能、BigData大數據、云計算CloudComputing)組合起來的。那么A這一塊,就是說你要能兼容傳統的技術架構,基于CPU的計算,你要能基于創新的技術架構,什么叫創新的技術架構?假如說你是分步式的計算架構,你基于深度學習你應該怎么做。今天有很多企業可能會發現,你的機房可能就放不了GPU的服務器,因為功率不夠。那是很悲催的一件事情,也就是說你沒有辦法去嘗試所有的新一代的基于深度學習的這樣的一個框架。那進入到安全也是不一樣的,在大數據這個層面應該是基于大數據的風控。你可以有大量的數據可以用,還有可以去進行智慧網點布置,可以進行大數據營銷。其實現在的一些營銷的技術像百度因為做廣告出身的,剛才也說了像Google一樣在這個精準營銷用戶畫像、企業畫像方面積累了大量的經驗。隨后智能的金融,簡單一點像呼叫中心的這個創作,像新的業務的一個創新。這一塊其實在座的各位你們是專家,我們只是一個技術的提供方,我們深信這一點有可能帶來新的一種架構,然后支撐的業務在這里不再細講了。
這是我們相信的地方,我們在跟一些金融機構在合作的過程中也發現一個問題,就是說這個時候確實數據要開始突破企業的邊界了,但是監管方面到底應該怎么做能夠達到監管的要求,或者監管方面我們應該做一些不一樣的新的規定來確保安全性、保密性和穩定性,同時又能享受到這種開放的紅利。這一點其實百度不是專家,在座的各位是專家,我們只是說技術的趨勢已經洶涌而至,但是我們也希望得到在座各位的一些建議和引導,將來如果可以在技術上進行探討也非常好。百度方面也做了一些探討,這也是百信銀行的東西,利用機器學習規則實現在線的阻斷和離線的審計分析這樣一件事情。基于Giano(百度分布式安全系統)的統一身份管理,等等。
我相信這只是非常非常抽象的一個拋磚引玉,就是說,如果說數據開放已經成為一個洶涌澎湃的趨勢,是不是應該有一個機構去構建一個共享的數據平臺。你那個數據平臺真得不是任何一家可以構建的,然后使它比較安全的運行出來,這是第一個想法。第二點就是說,如果你的銀行、你的基礎架構,完全還是基于企業結構,我剛才說的企業級的核心說你才是基于企業級的,其實你就很難享受到一種新時代的技術的紅利,所以這一塊也是說基于全新的云服務架構,有沒有一種可能性建成一套,就是說既能夠滿足監管,又能夠實現對這種新技術的紅利的分享的一種新的云服務的一種模式?如果這也是能有一些碰撞的話,我覺得其實中國的銀行業可能發展會遠超國外,現在其實已經超過國外了,會大幅度的加快,這是我們希望探索的一點。
那可以看見的未來之路在哪里?我簡單舉一個例子。就說我剛剛講了ABC(AI人工智能、BigData大數據、云計算CloudComputing)三位一體,我們2016年11月提的ABC三位一體這樣一個概念,在2017年大概是九月份,我們提出了ABC的技術棧,就是如何施行一個完整的ABC技術棧。AI方面剛剛談到了人臉識別、語音識別、文字識別、圖像識別,深度學習的平臺、機器學習的平臺、自然語言的處理,那么這些東西都是很基礎性的工作。那百度我覺得還是比較自豪的,在AI方面我們基本上是有最全面的AI技術。
在大數據平臺也是一樣,如何實現一些基礎數據,包括像用戶畫像,還有其他的一些輿情的監控。云計算平臺就剛剛講的異構計算和同構計算,我其實也跟一些銀行溝通過一些云計算的可能性,我相信一點,銀行業可能真的是要開始思考異構計算這個方向了,有些企業已經在開始思考異構計算一定會帶來全新的可能性,基于GPU和FPGA這種計算,或者ASICFPGA這樣一些東西。這一塊其實你要動起來的時候你發現其實有很多事情要做,你的機房要改造,系統架構要改定,但是非常值得去探索。基于ABC(AI人工智能、BigData大數據、云計算CloudComputing),再去做一個全新的業務應用,這個業務應用可以讓你有更大的一個范疇去思考業務流程,這是不太一樣的。
異構計算這個領域,我剛才談了很多,這是一個基礎,我們異構計算,一定要談GPUFBGA。舉例像我們自己做異構計算,我們現在也可以在一個單幅,百度的機房里面已經沒有商用服務器,我們的服務器全是自研的。包括GPU這一塊,你看我們的服務器是單一的一個服務器可以做到64片卡,單集群可以并發調度的服務器已經有一千臺了,單集群并發調度的GPU卡數可以達到5000片,單集群的用戶數據達到1萬,單集群并發調度的作業水平可以達到10萬,這對一般性的銀行來說已經是夠用了。所以當你去進入異構計算,進入這個人工智能時代的一個深度學習,平臺的搭建,那我上面還有一些不太一樣,跟傳統的重構計算不太一樣的控制臺,分布式存儲,這是不一樣。當然你可以做出你個人各種各樣的其他一些專用的一些一體機也是可以做。
異構計算是個趨勢,數據也是個趨勢。數據一定要產生意識,它才有價值。我們這段時間跟工業領域的一些企業也有很多接觸,有很多工業企業積累了大量的數據,但這些數據基本就是沉睡在那里,產生不了意識,這種沒用的。所以一定要把數據用起來,輸出模型的能力做起來。我剛才講的那個第二個案例的時候我們跟某家銀行也做了這個合作,他只是把他用了信用卡的一些數據給了我們,那是一個禮拜的訓練周期就得出這個模型,這就是把數據真正的用起來。企業自身的數據價值可能超越很多人的想象。另外一點,像一些精準營銷的平臺,這個也是一樣的結合外部的數據。還有像通過廣告投放,還有企業數據接口,所有這些東西,大數據這個領域最核心的一點需要你真的是能夠有大數據處理的一種能力和一種可能性。
如何看待pandownload開發者被逮捕,以后還有沒有這種軟件
您好,很高興回答您的問題。
天下苦百度盤久已!
百度網盤的龜速,廣大網友應該是體驗過了的,不充錢,這種速度也只能忍受!直到IT技術宅提供了pandownload工具,讓一些網友看到了曙光,但這種未經許可將百度網盤中的數據共享出去,已經觸犯了法律,構成了犯罪!
Pandownload開發者結果所以結果大家也都知道了,警方發現使用這個工具后可以突破非會員限制,實現高速下載,導致百度損失上千萬元,4月初實施抓捕!
以后還有沒有這種軟件有,肯定會有,只是開發者在制作工具和傳播工具的時候會更加慎重,技術不是難點,難得是,小伙伴沒有獲取加速工具的渠道了,很可能開發人員就自己私用了不公開了。
就百度盤體驗不佳,百度官方也對此發了聲明,話說會悉心聽取大家反饋,讓百度網盤未來可以更棒,但是百度搜索競價排名,廣告滿天飛的事情都還沒解決,官方這話可信度、可行性多高呢?
總結技術無罪,用技術做違法的事情不提倡,即使是符合廣大人民群眾意愿的事情。
以上,感謝您的閱讀。