石南跨境工具导航
登录
网站目录

谷歌推出最强大模型Gemini,称语言能理解人类

石南1492023-12-08 16:36:42

image.png

Google正式推出了原生多模态的大型语言模型Gemini,可以同时支持文字、图片和声音的输入。在32项AI测试中,有30项的评分超越了OpenAI的GPT-4V。Google执行长Sundar Pichai强调,Gemini是Google有史以来最强大也是最通用的模型。Gemini预计推出三种版本,包括了模型最大的Ultra版、通用性最广的Pro版,以及可以在手机装置上运作的Nano版。

image.png

Gemini可以同时分辨和理解文字、图片和声音,也可以用来分辨和解释几种热门开发语言,包括Python、Java、C++和Go语言,可以理解跨开发语言来推论複杂讯息。Google也用了Gemini打造了新版的程式码生成系统AlphaCode 2.比2年前的第一代改进很多,可以解决两倍的问题。

Gemini使用了Google自行开发的晶片TPU训练而成,而且使中了v4和v5e版TPU。Google同时宣布了新版TPU v5p,可用来加速Gemini模型的开发,供企业用来客制化训练自己的LLM模型。TPU v5p单一丛集可支援到8.960颗TPU,和TPU v4相比,能够提供2倍FLOPS的算力,记忆体频宽也提高了3倍。

Google目前先在Bard中使用一个微调过的Gemini Pro版本,可提供推理和计画的回答能力。目前先释出英语版,可再全球170个国家和地区使用,预计近期会支援更多语言。

Google展示了一段让人震惊的实测影片,来呈现Gemini多模态的回答能力,让Gemini一边看著(输入)影片来解读影片中画面的内容。例如Gemini可以一边解读影片中,展示人员用手即时画图过程,每一个动作所对应的意义,这是只鸭子,现在在水上游泳,有蓝色外观。当展示人员拿出实体玩具鸭子按压发生声音时,AI甚至有趣的说,真的拿出了呱呱叫的鸭子,AI还能纠正展示人员对于“鸭子”中文发音的重音位置错误。 AI能分辨人手势代表的意义,也能分辨不同物体的异同,例如都是食物,或都是圆体。看影片还能推理出哪个杯子藏了硬币,彷彿就像人边看影片边解说的行为。


本文链接:https://www.zkjds.com/post/155.html ,转载需注明文章链接来源:https://www.zkjds.com/

分享到:
标签:谷歌
  • 不喜欢(0
本文转载自互联网,具体来源未知,或在文章中已说明来源,若有权利人发现,请联系我们更正。本站尊重原创,转载文章仅为传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如其他媒体、网站或个人从本网站转载使用,请保留本站注明的文章来源,并自负版权等法律责任。如有关于文章内容的疑问或投诉,请及时联系我们。我们转载此文的目的在于传递更多信息,同时也希望找到原作者,感谢各位读者的支持!

本文链接:https://www.zkjds.com/post/155.html

图片名称

猜你喜欢

热门文章
文章推荐
随机文章
热门标签
侧栏广告位
图片名称
图片名称

服务热线

pq041688

微信号

微信客服

微信客服