我今天演講題目是《大數據存儲的挑戰》和《人工智能大潮的新浪——ChatGPT》。我們談數字經濟,數字就是我們的基礎。我談三個小專題,數據需要存儲,容量有困境,紓困需要尋找出路。
數據的存儲這是一個最基本的問題。其實我們可以從數字信息技術的本質談起。我們所謂的數字信息技術的本質,就是將現實世界中的信息,轉換成二進制電子數據。現實當中有圖片、流量甚至金錢,我們變成二進制的電子數據,然後用計算機進行採集、蒐集、顯示等等,幫助人們進行正確的決策。所以數據本身就是支撐數字經濟的重要基石,也是推進著智慧管理的重要資料。數據,還是數字化的數據。
那麼為了引領數字經濟創新服務潮流。我們在IT這個領域已經奮鬥了上百年的歷史。從早期的打字機,到計算機主機、個人電腦、手機、可穿戴設備等等,這些數字化的手段,引領整個社會的數字化進程。在這個進程當中,我們一步一步地產生了電子商務、智慧地球、智慧城市、認知業務等等。就像一棵樹,我們看到了樹枝、樹葉、果實、樹乾等等。這裡面區塊鏈、人工智能、智慧城市等等很多琳瑯滿目的題目和應用。特別是像中國的美團、餓了麼、攜程等等。這些是我們肉眼可見的應用方面。就像我們看到一棵樹,我們看到樹枝、樹葉、果實在地面部分。這棵樹能夠成長,生根發芽,依賴的是樹根。根通常在地面之下,我們通常看不到,這就是數據,數據的存儲和存儲的關聯,這是我們要談論這件事情的關係。
這件事情,數據存儲的技術產品,已經沿革了上百年了。從早期一百年以前,大家用紙質的筆記本來記錄數據。我們用穿孔卡片,打洞,光線能穿過去,穿不過去這種形式記錄,當時寫程序就是一張卡片。然後變成穿孔紙帶,一個操作系統我們28層紙帶,然後做成了磁性的硬盤,磁性的軟盤,光盤,固態盤,以及未來將會出現的原子級存儲器,分子級存儲器。數據存儲技術在不斷地蓬勃向前發展,這是我們很多人不容易看到。因為我們看到樹的時候很難看到樹根,但是它在紮紮實實地引領著創新基礎技術的發展。
那這件事情有多重要呢?這就是我們今天要談論的的話題。首先是教育上的創新,數據存儲在任何的高校,很少會有一個專門的專業來開設。我們有計算機專業,這是八十年前IBM開創的計算機科學這樣一個教育學科。現在全世界的普通高校都有這樣一個學科。但是數據存儲,沒有一個獨立的學科。這涉及到教育上的創新。產業上的創新,目前的存儲器體積太大,效率太低,涉及到安全性等等一系列的問題,需要研發新型的數據存儲產品,於是需要技術深的創新,而數據存儲涉及到底層核心技術,涉及到了很多不為人知的短板。這就是我們現在亟待解決的問題。
數據存儲一直面臨很多困難。現在我們面對的一個很大的困難就是容量困境。現在的數據存儲技術無法回答未來我們將數據往哪裡放。那麼數據量是蓬勃的發展,不論是有疫情、戰爭,國與國的爭端,數據就是在增加。但是我們數據存儲空間的速度趕不上數據量增加的速度。
那怎麼辦呢?現在在中國,至少我們看到這樣的權宜之計:定期的刪除數據。比如說智慧城市,全國的智慧城市大概只能存一個月的數據。就是哪些十字路口的監控攝像頭等等,只能存一個月。那麼把老數據刪掉,才能把新數據存進來,這是目前的管理辦法,這是一個權宜之計,刪掉就沒有了。如果你想要看一個三個月前的視頻,就沒有了。不刪庫存,沒有地方。這就帶來了很痛苦的一個問題,現在我們搞大數據。歷史數據你把它刪掉了,這個數據的學習方法就受到限制了,這不是一個好辦法。但是目前這是權宜之計,全國各地都沒有辦法。
還有一個辦法,蓋房子,我去圈一塊地,然後拆遷蓋房子,把通水通電拉進去,一個數據中心建成,我可以存數據了。這也不是一個好辦法。耗費資源,耗費電力資源,人力資源,國土資源等等,這種形式都不是好辦法,我們認為這一些都是非技術手段,來對大數據容量的困境進行紓困,這是不可持續的。當然現在沒有辦法的辦法,國家的一個戰略部,叫東數西算,把東邊的數據放到西邊去,這個工程投資體量,達到一年上千億元。
傳統的基建是蓋房子,蓋房子這件事,我們認為這是一個房地產行業,絕對不是存儲技術。數據存儲中心的建設,如果靠房地產的方式來進行,有很多痛點,維護設備的痛點,運維人員的痛點,數據中心能耗的痛點,這涉及到雙碳等等。中國對國際上有一定保證,我們要達到一定的雙碳目標,如果鋪天蓋地蓋數據中心,這是不合理的。
那麼土地資源的佔比,雖然我們有很多國土,大家它還是有限的。據估計,減少一個PB存儲容量,可以減少三百塊錢,這是有利可圖的商務行為。特別要指出的,數據存儲的管理核心技術。是我們卡脖子關鍵技術清單中的基礎,我們有30幾項卡脖子關鍵技術清單,中間的操作系統、核心工業軟件、核心算法等等,基礎的核心技術是數據存儲的管理,都是建立在數據存儲之上的,所以這件事情非常重要。那麼怎麼樣做才是合理的呢?要用創新研發,應對擴容的挑戰。
我們至少可以講兩個容量紓困的思路,第一減少數據存儲空間的需求。比如開發數據驅重的產品。第二可以縮小數據存儲的體積。比如探索原子級的存儲器。紓困的思路,這兩者我們應該在這方面發力氣一來做這個事情。數據去重,這是一個減少數據存儲空間需求的方法,識別重組數據的模塊是操作系統之下的模塊,然後只存儲單一的模塊和存儲的鏈接關係。產生的效果就是我今年要採購十個存儲機櫃,經過數據去重處理之後,只要兩個就夠了。十個機櫃,五百萬美元。兩個,一百萬。節省了空間,節省了資金,這種原理簡單。
我們十年前,IBM已經將這個產品推向世界了。目前大型的企業,都在使用這類的去重技術。中國大型的銀行也使用。但是不是中國自主可控的產品,是國外的產品,IBM是一個國外公司,所以實用的產品技術要多年積澱,才能形成產品力量。這樣的產品市場需求十分旺盛,剛需的場景至少有兩個,一個是企業的通用數據災備系統,需要備份,備份一個月,備份三十個版本。這三十個版本中間,有大量的重溯數據,於是識別這種重溯數據進行有效存儲,是節省存儲空間的有效方法。
還有智慧城市監控視頻,對準著我們一個位置一天24小時拍攝下來的視頻,背後的立交橋是不變的,只有車身網能變動。所以這類的視頻信號有大量的重溯數據,地形、地貌、建築等等是可以進行去重處理的。曾經北京海淀區做過一個估算,他一年需要人民幣一億六千萬,如果使用數據去重產品,可以降低存儲空間一半,於是可以節省八千萬,全國有三百多個地級市,有近三千個行政區。所以這是一片億萬商機的海洋,目前是我們的空白點,沒有自主可控的產品。
第二個思路,探索原子級的存儲,大幅縮小數據存儲設備的體積。縮小多少倍,幾十倍,幾百倍,幾十萬倍,這是我們的目標。基本的想法是蓋一棟樓,是一個海量的數據存儲中心,我們希望中間所存的數據,可以存到一個便攜式的存儲設備上去,比如一個U盤,類似一個火柴盒,或者打火機。這是便攜式的,可能嗎?可能的,數十萬個原子表達一個零或者是一,就是物理鍵,不管你是光盤,U盤,還是磁盤,每表達一個零或者一,大概要幾十萬個原子。我們希望用一個原子表達0或者1,比如正轉為0,反轉為1,就這麼一個思路。當然這中間有一系列的專利,用這樣一個辦法,就指引著未來數據存在的發展方向,微型化數據存儲設備。這件事情,已經有了一些進展,但還沒有形成產品,它的要點就是採集原子狀態的切換,實現數據的微型化。這是一個創意的思路,需要進行頂盤的實踐,2017年3月份,IBM已經宣布成功在單個原子存儲一個比特的數據,這已經發表了論文。這種思路,會指引著我們來面對大數據存儲容量的困境。
我們還看到有一些公司,像微軟,也在做這件事情,用DNA的分子級數據,來存儲大數據。在這種情況之下,那我們的數據存儲設備也可以降到分子級別,於是可以節省存儲空間。
所以今天我的第一個話題就是數據存儲這件事情是一個問題,它的容量我們面對的困境。那我們提出來的紓困的思路是從技術上想辦法,減少存儲空間需求,縮小數據存儲設備的主機,這是我要分享的第一個題目。
第二個題目,是現在最為熱火的題目,ChatGPT,跟我們有著非常密切的合作關係。我們認為它是一個人工智能大潮的一個新浪。人工智能這個領域,它有一個漫長的發展過程,有幾百年了。很多傑出的科學家做了鋪墊工作。什麼是人工智能?怎樣實現人工智能?怎麼樣判定某一個機器具備了人工智能?著名的圖靈試驗,就是做這類的事情。那麼在90年代,當時IBM做了一個實踐,就是造了一個深藍計算機,下棋,戰勝了人類的象棋大師。這是人類歷史上第一次,我們用一代機器,它不是人,但是戰勝了人的某種智力,從那之後開闢了將人工智能用計算機設備來實現的一個方向。機器人、機器手,當然下象棋、跳棋,圍棋、打撲克,蓬勃的發展。
人工智能研究領域,我們在這張圖上簡單表示是這樣。右邊是人類的智能,我們作為人類,這個物種生活在世界上,我們擁有很多的智能。左邊是計算機所能做的事情,怎麼樣讓計算機越來越多越來越逼真地模擬人的能力,這是人工智能研究領域。中間的黃色部分是成千上萬的科研工作者,在用畢生的精力,論文、算法等等來做這件事情,這是我們在這個領域的概況。
那這個領域,目前有很多問題,但是並不妨礙它蓬勃的發展,影響著我們現代社會的實際應用。我們產生了人工智能技術的產業鏈群,有方案、應用技術、基礎設施,產生了一系列的細分的行業。這樣的行業不是我們今天的主題,它的要點,只要有一個現實生活中的應用,我們就希望用信息技術的手段來提高這個應用的使用效率。客戶的滿意程度和它的生產過程、質量等等。這是我們的基本思路。
所以人工智能沿著這個思路在發展。這個思路最早是棋類游戲,下棋,它的規則是固定的,但是計算數量非常大。人忙不過來,那用計算機的大量算力,來跟人力智力比。下一個級別是智力問答,它就是回答問題,背後是海量數據,將這些問題分類,然後演示出來,用跟人自然對話的方式進行交流。然後是辯論比賽。兩個辯手,一個是真實的人,一個是計算機進行辯論,產生題目,然後製造話題,互相聽取論點,然後進行反駁,最後結尾,這個已經到了這一步。下一步是高級決策,幫助我們的企業經理、決策人、政府官員提供數據型的關鍵性的的人工智能的方案。
這個方案現在遇到了強勁的風口,人工智能正在進軍人類的獨有領域。以前我們認為這個領域只有人類才能做到,機器不可能做到的,現在人工智能新的設備不斷登場。早期已經有幾個,在去年的時候,Lthaca幫助歷史學家恢復古代銘文,並追溯銘文的起源,這裡面有很多智能的算法和數據集。 AlphaCode,它可以編程序,編出來的程序和初級程序員寫出來差不多。這個DeepNash可以學會下西洋的陸軍棋,現在他的冠軍永遠是計算機了,人類已經下不過它了。還有像AlphaFold和ESM-Fold,它可以預測一種蛋白質結構,過去結構,生物化學裡面很重要的手段是分析預測蛋白質的結構,一個實驗室一年分析出四五個人來,花費大量的人力,現在不用了,人工智能可以做這個事,一年可以做各級億個。像ALpha Tensor就是矩陣式相乘的運算,今天我們要談的是ChatGPT,回答複雜的問題,我們叫做生成內容式的人工智能,叫IAGC。它本身就是讓計算機非常聰明的與人進行對話。計算機是計算機,但是它對話的時候,就像我們跟一個人進行交談一樣。這個手段不是唯一的,不是ChatGPT全世界獨一的。有很多聊天機器人,谷歌有,facebook有,當然openAI出盡了風頭,ChatGPT做得最好。
ChatGPT它適合人機對話,它結合了目前處於巔峰狀態的人工智能機器學習的方法,變成一個人工智能機器人。在這種對話的方式當中,它模仿人類的對話。過去我們在計算機上要搜索一個東西,它會給你一個答案,或者給你一組答案,讓你自己去學。現在不是了,現在它相當於人坐在背後,找到這個答案之後,經過邏輯思考,推理出來很有條有理地表述這個答案,像是在聊天的過程。這種方式是企業為客戶服務非常需要的一種方式,像聊天的實時交流的方式。
所以ChatGPT目前有一些主要功能,我就是在ChatGPT上諮詢了這個功能,我說你有什麼功能,它說我可以做這樣一些事,聊天對話,文本生成,翻譯,摘要等等。它可以做這樣一些事情,這些事情可以有很多實際的應用,比如說自動化的客服,你打電話問銀行,你們的利率多少,幾點鐘開門,地址在哪裡。另外它可以產生文章,產生一些內容來進行宣傳,產生一個連續的問答系統,這一些都是ChatGPT的非常有意思的地方,也是目前人們非常關注它,願意跟它交流和學習的方式。
它的很重要的一個作用,影響到了我們整個人的思考,就是它對知識傳遞方式產生了顛覆。我們過去知識的傳遞方式,最早那是口口相傳,古人就是把自己過去的經驗傳給下一代,口頭傳授,效率非常低,準確性很差,能夠傳遞下來的東西很少。後來有了書寫系統,這個書寫系統進一步演變成了印刷技術。這時候信息傳遞已經蓬勃地展開,人類的智力得到很大的開發。
然後數字媒體,現在是智能對話。就是這樣將知識傳遞的方式,逐漸的演化,顛覆了過去的傳遞方式。當然現在對於教育系統,有了極大的壓力,在北美、美國,加拿大我們已經開過好幾次討論會了,我們談論過這個話題。教育界向何處去。因為教育界基本上做這樣三件事,傳遞知識,告訴學生你要記住這個,記住那個。這件事情,只要問ChatGPT,不應該這樣教學生了,需要死記硬背的動了,要大量的減少。還有要教給學生獲取知識的技巧方法,什麼方法是最有效的?這個是需要深思的。另外就是能力,思考的能力,結合已有的知識提煉邏輯思考判斷的能力。這個ChatGPT給很多行業帶來了深度的思考。那麼巧妙地使用ChatGPT,特別是它的API,才能創造新的商機。這是我們目前公認的結論。也希望跟大家分享這樣一件事。
ChatGPT是一個軟件,中間有很多數據,從過一個API,一個接口,我們可以讓它做很多事情。換句話說,利用ChatGPT為我們的實際應用服務。甚至為我們對話機器,語音識別,翻譯等等,可以在醫學、交通、警務、政務、教育等等,用這種洽談的方式,引領著人工智能的應用。這場智能的交流,就會變得無所不在。很多朋友都談到這樣一個共識。現在你買一個計算機,沒有操作系統的計算機,你是很難想像的。一定是有操作系統的計算。但是,最早的計算機沒有操作系統的。我們為了把它計算機各個部件管理起來,比如軟件、硬件、CPU、進出口、網絡等等。我們才組成了操作系統這樣一個軟件系統。這是目前電腦的情況。未來可能所有的電腦或者是所有的電子設備,都應當有人工智能的方法。如果說你買了一個計算機,買了一個電子設備,沒有AI的功能,就像你現在買了一個電腦,沒有操作系統,沒法用。這可能是現在跟未來的比較。這個未來的發生,可能不會很久。未來三五年就會有,所有的計算機可能都有AI的功能。
ChatGPT雖然還有很多問題,但是這個方向一定走的。所以我們使用計算機,充滿了人工智能,而不是像我們現在簡單的打字或者是用鼠標。得到的答案,也一定會有人情味和人類的友好的界面。
ChatGPT面對著挑戰,這是我們一直在探討的事情,它的挑戰就是如何在商務應用上獲得創新,那麼這種思考和比較,你可以思考IBM Watson,這是企業級的服務。和Microsoft ChatGPT。 IBM Watson是15年前,20年前一種經典的聊天機器人,當然它是商用的老手,目前號稱整個商業世界都有應用。典型的應用就是銀行機構,70%的全球銀行季候都會應用到Watson,這是商用的一種手段。那麼ChatGPT它是一個非常聰明能幹的聊天機器人。但是它目前在商用還是菜鳥,怎麼用?目前不知道。能不能用?也不知道,需要創新。那麼目標是什麼呢?用了它,對它商務業務,對於具體不同的企業有什麼好處,怎麼樣幫助企業的業務得到成長,滿足客戶的需求,擴大生產,提高營業額、增加利潤率等等。 IBM Watson已經做到了,ChatGPT能不能做到?這是挑戰。
如何在區塊鏈中使用ChatGPT,我也特地問了一下ChatGPT,你在區塊鏈中如何使用?它談到了這樣一些內容。
很多人都在關心ChatGPT會影響到哪一類人的工作崗位,這是有的。很多人類的一些初級勞動,重複性的勞動,可複制的工作,都會被這樣一類自動化的手段代替,但是衝擊人類工作的不是人工智能,而是掌握了人工智能工具的人。所以我們在座的每一個朋友,我們經常在美國、中國都是談論這樣一件事情。要駕馭AI這樣一個浪潮,而不是被這樣一個浪潮淹沒。這裡列出來的崗位,都會收到它的影響。如果你覺得這個崗位太累太繁瑣,好的,讓機器去做。這是ChatGPT在這個領域當中的一個貢獻。未來趨勢也是不可阻擋的,就是人工智能日趨頻繁,變成一個尋常的手段。
一個典型例子,就是2022年6月,facebook meta它做了一個人工智能的戰略轉型,它原來有一個人工智能專門的研究機構,也做了很多很有意義的機構,他現在解散這個機構了,讓這個團隊中的人深入到各個產品組去。當然了,人工智能已經不是一個獨立的研發機構,要融化到我們的產品細節當中去,這是一個指標。
我們也遇到很多朋友在談論,AI for Finance,就是人工智能在哪個領域中具體應用?金融領域,智慧城市,在社交媒體,在軍事領域,醫療領域等等。人工智能將會滲入到我們生活的各個方面。
ChatGPT從我們角度來看,它是技術發展的一小步,但是這是人工智能普及應用的一大步。這是我們對於這件事情的觀點。我們認為未來是數字技術的認知時代,認知是我們人類所具備的一個基本功能,我們用數字技術的手段,從早期的讀卡、計算、製表系統,到現在大量可變成計算機系統,將來會出現智能化的認知計算機系統,這個認知計算機系統的核心就是人工智能它的自動發現,自動識別,自動和人打交道。這樣一個系統的出現,就是用大數據來驅動我們整個數字技術邁向越來越智能的人工智能時代。