谷歌推出最强大模型Gemini，称语言能理解人类

石南11162023-12-08 16:36:42

Google正式推出了原生多模态的大型语言模型Gemini，可以同时支持文字、图片和声音的输入。在32项AI测试中，有30项的评分超越了OpenAI的GPT-4V。Google执行长Sundar Pichai强调，Gemini是Google有史以来最强大也是最通用的模型。Gemini预计推出三种版本，包括了模型最大的Ultra版、通用性最广的Pro版，以及可以在手机装置上运作的Nano版。

Gemini可以同时分辨和理解文字、图片和声音，也可以用来分辨和解释几种热门开发语言，包括Python、Java、C++和Go语言，可以理解跨开发语言来推论複杂讯息。Google也用了Gemini打造了新版的程式码生成系统AlphaCode 2.比2年前的第一代改进很多，可以解决两倍的问题。

Gemini使用了Google自行开发的晶片TPU训练而成，而且使中了v4和v5e版TPU。Google同时宣布了新版TPU v5p，可用来加速Gemini模型的开发，供企业用来客制化训练自己的LLM模型。TPU v5p单一丛集可支援到8.960颗TPU，和TPU v4相比，能够提供2倍FLOPS的算力，记忆体频宽也提高了3倍。

Google目前先在Bard中使用一个微调过的Gemini Pro版本，可提供推理和计画的回答能力。目前先释出英语版，可再全球170个国家和地区使用，预计近期会支援更多语言。

Google展示了一段让人震惊的实测影片，来呈现Gemini多模态的回答能力，让Gemini一边看著(输入)影片来解读影片中画面的内容。例如Gemini可以一边解读影片中，展示人员用手即时画图过程，每一个动作所对应的意义，这是只鸭子，现在在水上游泳，有蓝色外观。当展示人员拿出实体玩具鸭子按压发生声音时，AI甚至有趣的说，真的拿出了呱呱叫的鸭子，AI还能纠正展示人员对于“鸭子”中文发音的重音位置错误。 AI能分辨人手势代表的意义，也能分辨不同物体的异同，例如都是食物，或都是圆体。看影片还能推理出哪个杯子藏了硬币，彷彿就像人边看影片边解说的行为。

谷歌

本文链接：https://www.zkjds.com/post/155.html ,转载需注明文章链接来源：https://www.zkjds.com/

分享到：

标签：谷歌

喜欢（0）
不喜欢（0）

本文转载自互联网，具体来源未知，或在文章中已说明来源，若有权利人发现，请联系我们更正。本站尊重原创，转载文章仅为传递更多信息之目的，并不意味着赞同其观点或证实其内容的真实性。如其他媒体、网站或个人从本网站转载使用，请保留本站注明的文章来源，并自负版权等法律责任。如有关于文章内容的疑问或投诉，请及时联系我们。我们转载此文的目的在于传递更多信息，同时也希望找到原作者，感谢各位读者的支持！

本文链接：https://www.zkjds.com/post/155.html