每日經(jīng)濟新聞 2023-03-20 10:11:38
每經(jīng)編輯 畢陸名
3月19日晚間,機構(gòu)路演直接把進門財經(jīng)APP擠爆了。券商分析師、基金經(jīng)理、投資者都在聽360紅衣教主周鴻祎聊AI,一起來看看都說了哪些干貨。
據(jù)了解,進門財經(jīng)定位是專業(yè)投資機構(gòu)的路演工具,一般是券商、公募、私募、資管、保險等等機構(gòu)的人用??梢韵胂螅?strong>現(xiàn)在的市場熱點全在ChatGPT概念板塊上。
據(jù)悉,民生證券請來了三六零(SH601360)紅衣教主的周鴻祎。據(jù)說參會人數(shù)超過千人!
Q:上游哪些場景很關(guān)鍵?
A:算力不是最關(guān)鍵的問題,場景和數(shù)據(jù)是關(guān)鍵。我們二線隊伍,賬上200多億人民幣,之前國家搞了很多超算中心,沒事情干,現(xiàn)在發(fā)現(xiàn)配了GPU就有東西看。Transformer算法是谷歌發(fā)明的,實現(xiàn)靠的是大力出奇跡,幾千億參數(shù)。這是個工程問題。從1到n中國能做的很快,OpenAI中國做的很快,谷歌和Meta會很尷尬。Meta開源了他的大語言模型,技術(shù)的knowhow會快速傳播。
關(guān)鍵的東西,第一是數(shù)據(jù),有知識量的數(shù)據(jù)做訓練,聊天的語料不包括知識ChatGPT中文語料占了不到5%,大量知識在外文期刊里面,只用中文訓練語料是不夠的。很多機構(gòu)說用了很大的參數(shù),但是不敢拿出來說,大概率是數(shù)據(jù)不夠。還需要人類的槍花反饋學習和調(diào)優(yōu),激發(fā)GPT理解人類的查詢意圖,這個是問題的關(guān)鍵。
還有個很重要的是場景,微軟放棄了自己的小娜的研究,全力幫助AI,在場景化上可以讓大家看到人工智能有什么場景。搜索引擎一直在做NLP,自然語言處理,大家都在跟蹤使用,搜索引擎在獲取海量數(shù)據(jù)方面優(yōu)勢。我們和百度抓取的網(wǎng)頁在千億萬億的規(guī)模,需要清洗辣雞網(wǎng)頁進行工程化的索引。我們搜索引擎要抓取英文的維基百科和語料,對于我們是現(xiàn)成的。初創(chuàng)公司可能會卡在工程化的初始階段,這個對工程化的要求比較高。還有人工標注的調(diào)優(yōu),微軟做了很多貢獻,搜索引擎幫助很大。360搜索份額占比30%,百度占比60%。微軟幫助OpenAI占據(jù)了很多的場景,下一步可能會把teams(視頻會議)等TO B的場景做結(jié)合。
Q:以后會不會很多行業(yè)不存在了,機器把人替代了?
A:我不是很認同。我認為這是個洗牌的機會,如果你不重視他,抓上這班車就不行。我們企業(yè)內(nèi)部要起每個部門都用AI提升我們的能力,用AI的大語言模型賦能,這樣會成為我們手里有力的競爭武器。GPT-4的知識能力和考試的能力已經(jīng)超越了每一個地球人,GPT-4可能是用3.5和4互相訓練。我們也考慮過這種,用bert這種理解性的模型進行反饋和獎勵。這是個生產(chǎn)力工具,是能給各個產(chǎn)業(yè)賦能的,關(guān)鍵是你需要找到相應(yīng)的場景和場景化的能力。
Q:以后小孩長大了應(yīng)該會學什么專業(yè)嗎?
A:這個問題很奇怪,該學什么專業(yè)學什么專業(yè)啊,對prompt很敏感。
Q:關(guān)于我們360,行業(yè)現(xiàn)在是巨頭扎堆,360的核心優(yōu)勢?
A:第一個問題已經(jīng)講了,第一是數(shù)據(jù)的能力,不能光用中文的數(shù)據(jù),要有全球數(shù)據(jù)的抓取能力,要能做到對垃圾的判別和清洗。用戶上億次搜索的數(shù)據(jù),我們和百度有知識問答的欄目,這種涉及用戶的真實的使用場景來進行訓練。數(shù)據(jù)我們有優(yōu)勢。GPT2和bert是開源的,真要做到上千億上萬億的模型,幾千張GPU的顯卡,幾個T的數(shù)據(jù)進行幾個億的訓練,這個對工程化要求很高。第三,搜索引擎我們市場份額是百度的一半。搜索引擎不具備生成性,不會編出林黛玉倒拔垂楊柳的故事,生成式AI會無中生有,如果編的結(jié)果是不對的普通人很難驗證就很麻煩。我們做泛化,泛化的知識圖譜的搜索,前面的十條二十條結(jié)果給大語言模型做提煉,這樣就不會讓生成式AI無中生有。我們搜索引擎dau有一個億,大語言模型可以做及時的翻譯和推薦,我們這種場景可以很好的讓用戶體驗到人工智能的場景,形成商業(yè)化的閉環(huán)。我在政協(xié)叫了個提案,大家忽視的是這個東西真正的破圈了。之前無論是阿爾法狗和蛋白質(zhì)折疊,離生活比較遠。得益于微軟工程化產(chǎn)品化的能力。一方面要打造核心技術(shù),全方位最大化的調(diào)用公司的資源。大模型的方向已經(jīng)出來了,要做到大力出奇跡,500億到1000億的參數(shù)訓練,用有質(zhì)量的語料。谷歌現(xiàn)在很尷尬,模型做出來了商業(yè)化的場景可能也被微軟搶完了。微軟專注場景和產(chǎn)品化的結(jié)合,OpenAI專注技術(shù),這樣能實現(xiàn)很好的效果。
圖片來源:視覺中國
Q:360的場景和應(yīng)用?
A:并行的。360也在做TO B,也是我們很重視的機會。我們的安全大腦幫助企業(yè)抵御攻擊。我們的機會是,中國企業(yè)不接受公有云,希望有個私有化部署的GPT和數(shù)據(jù)。未來每個企業(yè)可能有自己的大腦。只做垂直行業(yè)的訓練肯定是不行的(說的就是科大訊飛)。我們離GPT還有24個月到36個月的差距,第一個版本能做到幾百億參數(shù)的模型的時候,做到GPT的六成的功力,做到企業(yè)內(nèi)部是夠用了。TO B和TO G端是有大量的機會的。面對中小企業(yè)端,我們打算推出生成式AI的辦公套件和應(yīng)用。OpenAI找了100家垂直的SaaS公司,會專門訓練垂類的應(yīng)用。我們這兩年很關(guān)注sme(中小企業(yè)),中小企業(yè)對企業(yè)數(shù)字化的要求功能明確,少花錢使用簡單,SaaS更合適,我們?nèi)ツ晖泼嫦蚱髽I(yè)的SaaS云服務(wù),一年120萬家客戶。我們?yōu)g覽器國內(nèi)份額最大,做了個SaaS商店,我們會找合作伙伴做一些場景。TO C我們有大量的使用場景,瀏覽器加上AI插件變成AI個人助力。TO B,TO SME和TO C三十多個場景使用不同的能力,盡快占據(jù)用戶的使用場景。
Q:我們會和百度一樣芯片模型全覆蓋的平臺嗎?
A:我們肯定不是這個方向。谷歌自己搞過GPU,也就自己用。訓練最好還是用A100和A800,框架沒必要自己搞,自己搞個框架還要花精力和別的芯片適配。微軟這么強大微軟只做應(yīng)用,OpenAI用的框架也是用的行業(yè)通用框架。我不認為產(chǎn)業(yè)鏈全都做了是好事。我們堅定的沿著transformer框架把模型干到千億。首先是要占據(jù)應(yīng)用場景。
Q:百度內(nèi)測效果不錯,對于360未來應(yīng)用的推廣是不是更有信心了?
A:百度搜索一哥肯定能做好的,微軟的搜索份額比谷歌要小,可以放開手要做創(chuàng)新。百度為什么做一個聊天機器人我不理解,我要做的話可能更愿意和搜索相結(jié)合。國內(nèi)我不認為會和美國一樣一支獨大,頭條和其他互聯(lián)網(wǎng)廠商大家不會相互支持,會互相競爭,360啊微博啊B站啊知乎啊小紅書啊美團滴滴等等,他也不敢用巨頭的服務(wù),肯定要自己搞。還是希望在這個模型上做出幾個超級應(yīng)用。有應(yīng)用有場景的公司加上模型會有價值。
Q:中國電信布局了企業(yè)版的ChatGPT,對這個的關(guān)注提升到了國家戰(zhàn)略的高度,國家的重視會對行業(yè)產(chǎn)生什么影響?
A:國家隊干這個事肯定不是壞事,互聯(lián)網(wǎng)上大家都做過。從目前擁有的數(shù)據(jù)和團隊能力來看,民營企業(yè)和國企都在一個起跑線上。只要不是只要牌照才能搞大語言模型,這樣都有機會。GPT是個生產(chǎn)力工具,這將決定未來國際競爭當中的國運。美國人對于大語言模型也有政治正確的要求。
Q:中國和美國比有24到36個月的時間差?
A:不是和微軟比。GPT-4驗證了我們很多觀點,他的參數(shù)量我覺得應(yīng)該到了萬億,訓練的數(shù)據(jù)比原來大了5到10倍。人類反饋強化學習不再是十萬組,而是幾十萬組的答案對,有很強的智能的能力。目前來看多模態(tài)是勝過國內(nèi)的能力的。國內(nèi)的圖像識別還是傳統(tǒng)的圖像識別,OpenAI把所有都看做序列,圖像也是序列,他能把圖像組成部分的關(guān)系和邏輯相關(guān)性總結(jié)出來。他在閱讀文檔上的能力國內(nèi)做不到。他能支持5萬字的輸入,表示他的深度記憶能力越強,對上下文的理解越好。GPT3.5我們認為國內(nèi)和他的差距18個月,GPT-4是24個月。云談了這么多年,企業(yè)上云的比例也還不高。這比光刻機的難度小多了。
Q:怎么看GPT-4,會不會取代操作系統(tǒng)成為戰(zhàn)略級的入口?
A:這是兩個概念,需要host一個應(yīng)用需要操作系統(tǒng),操作系統(tǒng)還是需要的。人工智能沒有突破之前大數(shù)據(jù)給企業(yè)用不好用。GPT相當于是發(fā)電廠,這個比喻比較貼切。純做GPT的公司有點來不及,要么是有GPT豐厚的場景。場景越大爆發(fā)性就越大,如果場景很小,就做了個虛擬人掛個GPT跟人對話,這個場景就很小。場景未來可能有多家服務(wù)提供商。
Q:場景是我們非常關(guān)注的點,特斯拉的機器人也是爆款,多模態(tài)和機器人的關(guān)系?人形機器人是終極目標嗎?
A:我不這么認為。不考慮機器人的外形,音響之類的用自然語言和人交流這關(guān)就是過了。GPT能否處理好機械手臂,尋找空間定位也是,出了GPT之后傳統(tǒng)的做語言識別的圖像識別的就有問題了。人形機器人有個最大的問題,機械手臂抬起的力量,這和人工智能沒有關(guān)系。如果機器人手里拿不了太重的東西,這可能會成為妨礙。自動駕駛汽車也是個機器人,只不過長了4個輪子。GPT的大語言都可以賦能。你們和智能音箱聊過天,聊兩句就能知道他是個滯脹,GPT肯定通過了圖靈訓練。橡膠娃娃也是仿真機器人。
Q:GPT-4在物聯(lián)網(wǎng)終端的廣泛應(yīng)用是大趨勢了,邊緣計算的需求?
A:這跟邊緣計算有什么關(guān)系呢?構(gòu)不成邊緣計算的節(jié)點。真正的能力都在云端,運算都在云端。
3月15日,周鴻祎在直播中透露了公司的人工智能發(fā)展戰(zhàn)略。“360將“兩翼齊飛”,一方面繼續(xù)全力自研生成式大語言模型技術(shù),造自己的‘發(fā)動機’;另一方面將占據(jù)場景做產(chǎn)品,盡快推出相關(guān)產(chǎn)品服務(wù)。”周鴻祎表示。
周鴻祎認為,目前中國發(fā)展GPT技術(shù),首先要占據(jù)應(yīng)用場景,同步全力發(fā)展核心算法技術(shù)。GPT的應(yīng)用場景需要復雜的工程化和商業(yè)化的能力,以及豐富的數(shù)據(jù)清洗和人工標注的經(jīng)驗,等算法趕上GPT-4再上馬,市場就錯過了。
在場景市場上,周鴻祎透露,360將人工智能技術(shù)與現(xiàn)有業(yè)務(wù)緊密結(jié)合,充分發(fā)揮公司技術(shù)創(chuàng)新、工程化、場景化優(yōu)勢,從個人(ToC)、中小微企業(yè)(ToSME)、政府及大型企業(yè)(ToB&ToG)三個維度入手,全面布局生成式大語言模型技術(shù),賦能數(shù)字中國發(fā)展。
在ToC端,360將借鑒微軟與OpenAI能力結(jié)合所推出的New Bing模式,推出新一代智能搜索引擎,并基于搜索場景推出人工智能個人助理類產(chǎn)品;在ToSME端,360將基于生成式大模型推出SaaS化垂直應(yīng)用,如結(jié)合生成式AI的“蘇打辦公套件”和“企業(yè)即時通訊工具-推推”等,以解決中小微企業(yè)數(shù)字化轉(zhuǎn)型難題;在ToB&ToG端,360已將核心的數(shù)字安全能力融入安全AI模型,計劃結(jié)合數(shù)字安全業(yè)務(wù)推出企業(yè)私有化AI服務(wù),滿足客戶對私有知識、資產(chǎn)的索引需求。
周鴻祎透露,360的大語言模型能力一方面依托于自有知識產(chǎn)權(quán)技術(shù)創(chuàng)新,一方面將綜合利用已有技術(shù),提升產(chǎn)品智能化水平。
每日經(jīng)濟新聞綜合民生證券、公開報道
(免責聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前核實。據(jù)此操作,風險自擔。)
封面圖片來源:視覺中國
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP