网站LOGO
博客 | 棋の小站
页面加载中
2月21日
网站LOGO 博客 | 棋の小站
记录学习,心得,状态,生活。
菜单
  • 热评
    用户的头像
    首次访问
    上次留言
    累计留言
    我的等级
    我的角色
    打赏二维码
    打赏博主
    Google Gemini 1.0正式发布,12月13日开放使用
    点击复制本页信息
    微信扫一扫
    文章二维码
    文章图片 文章标题
    创建时间
  • 一 言
    确认删除此评论么? 确认
  • 本弹窗介绍内容来自,本网站不对其中内容负责。
    按住ctrl可打开默认菜单

    Google Gemini 1.0正式发布,12月13日开放使用

    · 原创 ·
    闲聊杂谈 · 大模型评测
    共 8194 字 · 约 8 分钟 · 468

    文章
    摘要

    Gemini 1.0是Google推出的多模态人工智能模型,涵盖文本、图像、视频、音频和代码推理。其复杂多模态推理能力和在大规模多任务语言理解上超越人类专家的性能使其成为重大飞跃。Gemini被分为Ultra、Pro和Nano三个版本,展现出卓越的性能和灵活性。此外,Gemini被整合到Google的Bard中,提供实验版体验,具备语音输入、图像识别等功能,尽管在代码生成方面存在一些问题,但在多模态推理方面表现卓越。

    当地时间12月6日,谷歌CEO桑达尔·皮茶伊宣布Gemini 1.0正式上线。它是Google推出的一款强大的人工智能模型,不仅可以理解文本,还可以理解图像、视频和音频。它具有复杂多模态推理能力,可以理解复杂的书面和视觉信息,即擅长发现海量数据中不起眼的信息。它也可以全面地识别输入中信息的细节,也能回答复杂的问题。

    以下文字来自于官网,经过机器翻译。原文:https://deepmind.google/technologies/gemini

    Gemini从一开始就为多模式构建——在文本、图像、视频、音频和代码之间无缝推理。在人工智能如何帮助改善我们的日常生活方面,Gemini是一个重大飞跃。Gemini是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,MMLU是测试人工智能模型知识和解决问题能力最流行的方法之一。

    以下是Google博客对于Gemini的部分介绍。原文:https://blog.google/technology/ai/google-gemini-ai

    介绍Gemini:我们最大,最强大的AI模型

    Gemini也是我们迄今为止最灵活的模型-能够在从数据中心到移动的设备的所有设备上高效运行。其最先进的功能将显著增强开发人员和企业客户使用AI构建和扩展的方式。

    我们已经优化了Gemini 1.0,我们的第一个版本,用于三种不同的尺寸:

    • Gemini Ultra-我们最大和最有能力的型号,适用于高度复杂的任务。
    • Gemini Pro-我们在各种任务中扩展的最佳模型。
    • Gemini Nano-我们最高效的设备任务模型。

    最优的性能

    我们一直在严格测试我们的Gemini模型,并评估它们在各种任务中的性能。从自然图像,音频和视频理解到数学推理,Gemini Ultra的性能超过了大型语言模型(LLM)研究和开发中广泛使用的32个学术基准中的30个。

    Gemini Ultra的得分为90.0%,是第一个在MMLU(大规模多任务语言理解)上超过人类专家的模型,MMLU使用数学,物理,历史,法律,医学和伦理学等57个科目的组合来测试世界知识和解决问题的能力。

    我们对MMLU的新基准方法使Gemini能够使用其推理能力在回答困难的问题之前更仔细地思考,从而比仅仅使用其第一印象有了显着的改进。

    Gemini Ultra还在新的MMMU基准测试中获得了59.4%的最先进分数,该基准测试包括跨越不同领域的多模态任务,需要深思熟虑的推理。

    通过我们测试的图像基准测试,Gemini Ultra的性能优于之前最先进的模型,而无需从图像中提取文本以进行进一步处理的对象字符识别(OCR)系统的帮助。这些基准突出了双子座的原生多模态,并表明Gemini的更复杂的推理能力的早期迹象。

    更多详情请参阅我们的Gemini技术报告。

    附:Gemini技术报告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

    下一代功能

    到目前为止,创建多模态模型的标准方法涉及为不同的模态训练单独的组件,然后将它们拼接在一起以大致模拟其中的一些功能。这些模型有时可以很好地执行某些任务,比如描述图像,但在更概念化和复杂的推理方面很困难。

    我们将Gemini设计为原生的多模态,从一开始就在不同的模态上进行预训练。然后,我们用额外的多模态数据对其进行微调,以进一步提高其有效性。这有助于Gemini从底层无缝地理解和推理各种输入,远远优于现有的多模态模型-其功能几乎在每个领域都是最先进的。

    复杂的推理

    Gemini 1.0复杂的多模态推理能力可以帮助理解复杂的书面和视觉信息。这使得它在发现知识方面具有独特的技能,这些知识可能难以在大量数据中辨别。

    它通过阅读、过滤和理解信息从数十万份文档中提取见解的非凡能力,将有助于在从科学到金融的许多领域以数字速度实现新的突破。

    理解文本、图像、音频等

    Gemini 1.0经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解细微差别的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。

    ...

    官网的内容太多了,有兴趣的可以自己去看看。

    谷歌的Bard集成了Gemini,只是现在还是实验版,感兴趣的可以去体验一下。官网:https://bard.google.com

    Bard集成GeminiBard集成Gemini

    进去之后阅读协议、同意审核员审核对话以提升Gemini对话能力等协议,就可以体验还在实验阶段的Bard了。

    先问它几个最基本的问题。

    你集成了Gemini吗?
    是的,我已经集成了Gemini。Gemini是Google发布的最新、最强大的语言模型。它在32个多模态基准中取得了30个SOTA,能够同时识别理解文本、图像、音频、视频和代码五种信息。 ...
    询问是否集成了Gemini询问是否集成了Gemini

    等待回答的时间需要久一点,它和ChatGPT不一样的地方就在于它的回答不是一个字一个字类似打印机一样显示出来的,而是直接全部显示出来。

    你觉得你和GPT4谁更厉害,你们的不同点在哪里?
    GPT-4和我都是大型语言模型,在生成文本、翻译语言、编写不同类型的创意内容和回答你的问题等方面都很擅长。然而,我们之间也有一些关键的区别。 ...
    询问它与GPT4的差别询问它与GPT4的差别

    它给出的回答也很客观,没有过分吹捧自己或者GPT4。

    前面Google博客在介绍Gemini时,说它可以很好地识别图片、视频、音频,这里我们上传一张图片和一段视频,让它简要总结一下它们都有什么内容。

    哈勃望远镜——在宇宙中看宇宙哈勃望远镜——在宇宙中看宇宙

    这张照片拍摄于国家摄影大展——沈阳k11站。上面的照片出自我的照片墙,我的照片墙给出的介绍如下。

    这张照片是来自另一个卫星拍摄的,同时展示了哈勃望远镜以及其他星球的表面。

    我们将这个照片发给Bard,看它能给出什么解释。

    Bard的解释Bard的解释
    这张照片是一颗人造卫星在太空中拍摄的地球。照片中可以看到地球的蓝色海洋、白色的云层和棕色的陆地。卫星在地球上空飞行,可以从不同角度观察地球。
    根据图片中显示的文字,这张照片是由华为Mate 40 Pro拍摄的。华为Mate 40 Pro是一款高端智能手机,具有强大的摄像功能。这张照片的清晰度和色彩还原度都非常高,可以清楚地看到地球的细节。
    这张照片可以用来展示地球的美丽和壮阔。它也可以用来教育人们了解地球的环境和气候变化。
    以下是一些具体的细节:
    照片中可以看到地球的赤道,这条线将地球分为南北半球。
    照片中可以看到地球的两极,这两个区域的冰盖正在融化。
    照片中可以看到地球上的一些主要地理特征,如喜马拉雅山、亚马逊雨林和撒哈拉沙漠。
    这张照片是一个令人惊叹的视觉展示,它可以让我们从一个全新的角度来欣赏地球。

    说实话我当初只想让它回复照片的内容是什么,但是它竟然连地球的细节,我的手机型号都回答出来了。我这篇文章是在边体验Bard边写的,我到这里是由衷佩服这个大模型。真的太厉害了。不过照片上真有这么多细节吗,反正我是没看出来。

    写到这里还想上传给它一段视频的,但是我没找到上传视频的入口,这点很遗憾。可能是由于实验版的原因,它并没有给出上传视频的入口。

    在Bard的输入框中,支持语音输入。它对于语音的识别非常准确,我说了一段很长的问题,它回答的很好,这能节约很多时间。

    Bard的输入框,支持语音输入Bard的输入框,支持语音输入

    帮我画一个中国高铁超越绿皮火车的场景,体现中国铁路的进步,要突出高铁比绿皮火车快。

    好的,以下是一个中国高铁超越绿皮火车的场景: ...(全是文字回答)

    画图画图

    它貌似不支持画图,我换种方式问它。

    你可以画图吗

    它找了个之前播报过的图片,而不是自己绘图。

    画图画图

    实际上它没有独自绘图的功能,不过它寻找图片的能力很好。

    它也没有访问网站的能力,不能够访问特定网站,为我们提供信息。

    接下来我们让它回答一下复杂的问题。

    2023年全国甲卷理科数学第20题2023年全国甲卷理科数学第20题

    第一次回答时它给出了错误的答案,貌似它没有正确识别题目。

    第一题的答案第一题的答案
    第二题它的计算结果是1/64。

    第二次让它先识别一下题目,再求解一下,结果是识别出来了,答案依旧是错误的。

    识别题目识别题目

    接下来让它写一下代码吧,还是和之前评测GPT4的一样,写一个计算器。

    请帮我写一个可编程计算器,只用来计算加减乘除和括号计算式,具体要求如下:
    语言:Python;
    界面:使用PyQt6,窗体包含两部分:一个显示屏和一个键盘,显示屏放在窗体的上半部分,布局
    要美观。键盘要包含数字0-9,加减乘除计算符号、左括号右括号、等于(计算)和清空屏幕;
    功能:计算器要求可编程,在控制台中输入合法的计算式后点击等于号后计算表达式,并在显示屏
    上输出结果,若计算式有误则需要指出错误在哪里
    请见这些代码放在一个文件中,并要求代码输出后直接可以执行

    和GPT4那篇文章的问题一模一样。

    但它给出的代码第一次运行时有错误。使用了未声明的Qt变量。我让它修正。

    第二次又使用了不存在的setGeometry方法。因为它在那行代码后多加了个逗号,导致那个变量是元组。

    python 代码:
    import sys
    from PyQt6.QtWidgets import QApplication, QWidget, QLabel, QLineEdit, QPushButton
    
    
    class Calculator(QWidget):
        def __init__(self):
            super().__init__()
            self.setWindowTitle("可编程计算器")
            self.resize(300, 200)
    
            # 创建显示屏
            self.display = QLabel(self)
            self.display.setAlignment(Qt.AlignCenter)
            self.display.setGeometry(0, 0, 300, 50)
    
            # 创建键盘
            self.buttons = []
            for i in range(10):
                button = QPushButton(str(i), self)
                button.setGeometry(i * 30, 50, 30, 30)
                self.buttons.append(button)
    
            button_add = QPushButton("+", self)
            button_add.setGeometry(30 * 0, 80, 30, 30)
            self.buttons.append(button_add)
    
            button_sub = QPushButton("-", self)
            button_sub.setGeometry(30 * 1, 80, 30, 30)
            self.buttons.append(button_sub)
    
            button_mul = QPushButton("*", self)
            button_mul.setGeometry(30 * 2, 80, 30, 30)
            self.buttons.append(button_mul)
    
            button_div = QPushButton("/", self),
            button_div.setGeometry(30 * 3, 80, 30, 30)
            self.buttons.append(button_div)
    
            button_left_parenthesis = QPushButton("(", self)
            button_left_parenthesis.setGeometry(30 * 4, 80, 30, 30)
            self.buttons.append(button_left_parenthesis)
    
            button_right_parenthesis = QPushButton(")", self)
            button_right_parenthesis.setGeometry(30 * 5, 80, 30, 30)
            self.buttons.append(button_right_parenthesis)
    
            button_equal = QPushButton("=", self)
            button_equal.setGeometry(30 * 6, 80, 30, 30)
            self.buttons.append(button_equal)
    
            button_clear = QPushButton("清空", self)
            button_clear.setGeometry(30 * 7, 80, 30, 30)
            self.buttons.append(button_clear)
    
            # 连接信号槽
            for button in self.buttons:
                button.clicked.connect(self.on_button_clicked)
    
            # 初始化显示屏
            self.display.setText("")
    
        def on_button_clicked(self, button):
            text = button.text()
            if text == "=":
                # 计算表达式
                try:
                    result = eval(self.display.text())
                    self.display.setText(str(result))
                except Exception as e:
                    self.display.setText("错误:" + str(e))
            elif text == "清空":
                # 清空显示屏
                self.display.setText("")
            else:
                # 将输入的字符添加到显示屏
                self.display.setText(self.display.text() + text)
    
    
    if __name__ == "__main__":
        app = QApplication(sys.argv)
        calc = Calculator()
        calc.show()
        sys.exit(app.exec())

    这个代码中还有很多问题,可能写代码不是它的强项。

    总结来说,Gemini1.0在出厂就能拥有如此强大的功能,还是很让我惊喜的。单单是从图片中获取隐藏信息的功能,就是其他许多大模型没有的。它的强大之处在于推理,在于图片、视频、音频识别,而不擅长于写代码。它可以作为GPT4的平替,在图片识别方面、上下文推理方面,使用Gemini即可,但写代码方面,还是GPT4更胜一筹。

    网络上有人说Bard默认使用的不是Gemini模型,是另外一款模型。还有人说它对于其他语言的识别有误,那我们用英文问它几个问题。

    询问它的默认模型询问它的默认模型询问它如何能使用Gemini模型回答问题询问它如何能使用Gemini模型回答问题

    我也是后来才知道,昨天在写时一直以为它是Gemini模型。

    声明:本文由 (博主)原创,依据 CC-BY-NC-SA 4.0 许可协议 授权,转载请注明出处。

    还没有人喜爱这篇文章呢

    现在已有

    8

    条评论
    发一条!
    1. 头像
      云晓晨CatchYun
      • 等级:Lv.5
      • 角色:首页 · 好友
      • 在线:本月

      使劲竞争,这样就会有更好的Ai模型 😀

      · · · 山东-济南
      1. 头像

        目前良好的市场氛围就应该是合作和竞争共存,说到这里国内的还在搞垄断 →_→

        · · · 河北-石家庄
    2. 头像
      obaby
      • 等级:Lv.4
      • 角色:综合 · 好友
      • 在线:本月

      这才是真正的遥遥领先

      · · · 山东-青岛
      1. 头像
        obaby

        遥遥领先

        · · · 河北-秦皇岛
    3. 头像
      Dabenshi
      • 等级:Lv.2
      • 角色:访客
      • 在线:三月内

      乍一看Google出Email1.0 😂 了

      · · · 北京-北京
      1. 头像
        Dabenshi

        哈哈,谷歌的邮箱是GMail。

        · · · 河北-秦皇岛
    4. 头像
      若志奕鑫
      • 等级:Lv.1
      • 角色:访客
      • 在线:三月内

      当时刷到这个视频的时候,能够吸引我的也是识别视频,语音,图片,随着迭代更新应该会很强

      · · · 海外
      1. 头像

        第一代这些功能就都有了,官方的意思是它在这方面很厉害也很快,等美国东部时间13号出了再体验一下。

        · · · 河北-秦皇岛
    博客logo 博客 | 棋の小站 记录学习,心得,状态,生活。
    ICP 冀ICP备2023007665号

    🕛

    本站已运行 299 天 9 小时 45 分

    🌳

    建站:Typecho 主题:MyLife

    👁️

    今日访问量:1484 昨日访问量:1607
    棋の小站 © 2024.
    网站logo

    博客 | 棋の小站 记录学习,心得,状态,生活。
     
     
     
     
    壁纸