AI创投周报|谷歌连发Gemini1.5、Gemma两种大模型,Groq让模型输出速度快18倍
阿尔法公社
2024-02-23 21:26:37

原标题:AI创投周报|谷歌连发Gemini1.5、Gemma两种大模型,Groq让模型输出速度快18倍

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者(AlphaFounders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

本图由“千象”(网址:www.hidreamai.com)生成

本周,我们观察到以下AI领域的新动向和新趋势:

1.谷歌连发Gemini1.5和Gemma两种大模型,其中Gemini1.5采用MoE架构,并拥有100万token上下文长度,相比Gemini 1.0性能大幅提升。Gemma是谷歌新推出的开源模型,采用Gemini同源技术,性能比同参数尺寸的Llama 2更强。

2.Groq的LPU让其模型输出速度比GPT-4快18倍,用LPU集群推理的速度超快,但在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

3.Stable Diffusion 3发布,文字渲染和多主题生成能力提升。它采用了与Sora同样的Diffusion Transformer架构,能够正确的生成文字效果,大大减少拼写错误和“胡编滥造”。

人工智能产品和技术的新突破

1.谷歌Gemini1.5上线:MoE架构,100万上下文

谷歌最新推出的Gemini 1.5基于先进的专家混合(MoE)架构,旨在提高训练和服务效率。其首个版本Gemini 1.5 Pro是一款中型多模态模型,针对多任务扩展进行了优化,性能与Gemini 1.0 Ultra相似,该模型能够无缝分析、分类和总结大量内容,提供跨模态的复杂理解和推理能力。

Gemini 1.5 Pro的上下文窗口容量大幅增加,现在可以处理多达100万个token,意味着模型能够一次性处理大量信息,如1小时视频、11小时音频、超过30,000行代码或超过700,000单词的文本。

Gemini 1.5 Pro在文本、代码、图像、音频和视频的大语言模型的基准测试中,87%的性能优于Gemini 1.0 Pro,与Gemini 1.0 Ultra的表现大致相似。谷歌正在不断开发新的评估和基准来测试Gemini 1.5 Pro的新颖功能,并计划将其推广给全球数十亿用户、开发者和企业客户。

2.谷歌发布开源大模型Gemma,笔记本可跑,可商用

谷歌推出全新开源模型系列"Gemma",Gemma系列包括Gemma 2B和Gemma 7B两种尺寸的模型,每种尺寸都提供了预训练和指令微调版本,用户可以通过Kaggle、谷歌的Colab Notebook或Google Cloud访问这些模型。这一系列模型不仅免费可用,还允许商用,权重也一并开源。

Gemma模型在关键基准测试中已经明显超越了更大的模型,如Llama-2 7B和13B,以及Mistral 7B,而且能够直接在开发人员的笔记本电脑或台式电脑上运行。

Gemma模型在18个基于文本的任务中的11个优于相似参数规模的开源模型,尤其在数学和编码基准测试中表现突出。Gemma 7B模型在GSM8K和MATH基准上的表现超过其他模型至少10分,在HumanEval上的表现比其他开源模型至少高出6分。

Gemma模型的架构基于Transformer,采用了多查询注意力、RoPE嵌入、GeGLU激活等改进技术,训练基础设施使用了自研AI芯片TPUv5e。

Gemma模型的预训练在来自网络文档、数学和代码的2T和6T主要英语数据上进行,通过监督微调和RLHF对模型进行微调和对齐,以提高下游自动评估和模型输出的人类偏好评估性能。Gemma模型的发布,标志着谷歌在开源大模型领域的重要一步。

3.Stable Diffusion 3发布,采用Sora同源技术,文字终于不乱码了

Stability AI最近发布了其最新的文生图模型—Stable Diffusion 3,这一版本采用了与OpenAI的Sora同源的Diffusion Transformer架构。

相比上一代,Stable Diffusion 3进化了三大能力,首先是文字能力,它能够正确的生成文字效果,大大减少拼写错误和“胡编滥造”;其次,是多主题提示能力,多个主题和元素搭配在一起,也不会混乱;最后是图像质量,分辨率和逼真程度再上一个台阶。

Stable Diffusion 3背后的关键技术包括Diffusion Transformer和Flow Matching。Diffusion Transformer框架允许模型在像素空间进行高分辨率训练,而Flow Matching技术则提升了采样效率。

目前,Stable Diffusion 3还没有全面开放,权重也未公布。团队表示,他们正在采取一些安全措施以防止不法分子滥用。对于想要尝鲜的用户,可以通过提交申请来获取早期访问权限。Stability AI首席执行官Emad Mostaque表示,待收到反馈并进行改进后,他们计划将该模型开源。

4.Transformer作者创立独角兽推出超强多模态LLM,性能超Gemini Pro

由Transformer论文作者创立的Adept AI近日推出新的多模态大模型Fuyu-Heavy,它的性能在多模态领域甚至超过了Gemini Pro,并且尺寸不到前者的10%。

Adept AI的目标是开发能够提高工作效率的AI智能体,Fuyu-Heavy将作为其未来产品的基础模型。通过特定的测试题目,Fuyu-Heavy能够进行复杂的计算和逻辑推理,显示出其在多模态任务中的强大数理能力。Fuyu-Heavy的性能在多模态性能评估中超过了Gemini Pro,并在长对话能力的评估中超过了Claude 2。

Fuyu-Heavy的开发过程面临了多种挑战,包括处理原生多模态大模型在文本和图像数据上的各种问题,以及图像数据对模型带来的压力。Adept团队投入了大量精力收集、整理甚至创建高质量的图像预训练数据,并对Fuyu的架构和训练过程进行了大幅调整以应对图像模型的不稳定性。

5.比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU速度是英伟达GPU 10倍

Groq模型以每秒输出近500个token(ChatGPT-3.5的速度是每秒40个token)的速度刷新了大语言模型的生成速度纪录,成为“世界上速度最快的LLM”。在一项简单代码调试问题的测试中,Groq的输出速度比Gemini快10倍,比GPT-4快18倍,尽管在答案质量上Gemini表现更佳。

Groq模型的高速性能得益于其背后的自研语言处理单元(LPU),而非传统的GPU。Groq公司开发的这种LPU,名为张量流处理器(TSP),采用时序指令集计算机架构,避免了频繁的数据加载需求,从而降低了成本并提高了效率。

不同于NVIDIA GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

Groq模型的推理引擎在基准测试中表现出色,其LPU推理性能比顶级云提供商快。但是AI专家贾扬清算了一笔账,因为Groq的内存容量只有230MB,在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

6.NVIDIA推出新工具,允许在PC上运行AI模型

NVIDIA发布了一款新工具“Chat with RTX”,使得GeForce RTX 30系列和40系列显卡的拥有者能够在Windows PC上离线运行一个AI驱动的聊天机器人。

这个工具允许用户自定义一个AI模型,并将其连接到可以查询的文档、文件和笔记。“Chat with RTX”默认使用Mistral的开源模型,但也支持其他基于文本的模型,包括Meta的Llama 2。NVIDIA提醒,下载所有必要的文件将占用相当大的存储空间—根据所选模型,需要50GB到100GB不等。

目前,“Chat with RTX”能将应用指向包含任何支持文件的文件夹将把这些文件加载到模型的微调数据集中。此外,“Chat with RTX”还可以获取YouTube播放列表的URL,加载播放列表中视频的转录,使所选模型能够查询其内容。

然而,需要注意的是,“Chat with RTX”不能记住上下文,应用的回应相关性可能受到多种因素的影响。因此,“Chat with RTX”目前更像是一个玩具,而不是用于生产的工具。尽管如此,使运行AI模型本地化的应用程序还是值得称赞的,这是一个日益增长的趋势。世界经济论坛预测,能够离线运行GenAI模型的设备将会“戏剧性”增长,包括PC、智能手机、物联网设备和网络设备。

7.普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据

普林斯顿大学和DeepMind的科学家Sanjeev Arora和Anirudh Goyal通过数学方法证明了大语言模型并非仅是随机组合训练数据的“随机鹦鹉”,而是随着模型规模的增大,其能力确实会得到提升。

他们的研究基于随机图理论,特别是二分图的概念,来模拟大语言模型的工作原理。在这种模型中,一类节点代表文本片段,另一类节点代表理解这些文本所需的技能。通过分析这些节点之间的连接,研究人员发现,随着大语言模型规模的增加,模型能够更好地组合多种技能来生成文本,即使这些技能组合在训练数据中未曾出现。

这一发现揭示了大语言模型的“涌现能力”,即在没有直接训练的情况下发展出新的能力。研究人员进一步利用神经缩放定律,这是一种描述模型规模、训练数据量与测试损失之间关系的方程,来支持他们的理论。他们的实验结果表明,更大的大语言模型在技能混合测试中表现更好,能够展示出更高的泛化能力。这项研究不仅为大语言模型的工作机制提供了数学上的解释,也为未来大语言模型的设计和应用提供了理论指导。

人工智能初创公司的新融资

1.为企业提供交互式AI平台的Rasa获PayPal Ventures、a16z和Accel参投的3000万美元C轮融资

官方网站:rasa.com

近日,Rasa宣布完成由PayPal Ventures和StepStone Group共同领投的3000万美元C轮融资,参投方包括a16z、Accel和Basis Set Ventures。目前,Rasa的累计融资额超过7000万美元。

Rasa将最先进的AI模型与用户友好的低代码UI相结合,提供了一个开放且适应性强的AI聊天机器人搭建平台,与企业的业务逻辑完美契合。它的核心技术CALM系统将LLM的创造性与传统基于NLU聊天机器人的控制和确定性相结合,确保用户交互保持连贯和自然。

它有两种产品Rasa Pro和Rasa Studio,Rasa Pro是开放核心对话式AI框架,公司客户可以通过模板框架按需定制对话助手。Rasa Studio通过拖放设置增加了自定义选项,用于设计生成式AI驱动的聊天机器人。

PayPal和德国电信等大公司已经在利用Rasa的解决方案,这些解决方案可以自动执行客户服务任务并提高参与度,其开源软件的下载量超过5000万次。

Rasa由Alex Weidauer(CEO)和Alan Nichol(CTO)于2016年共同创立,Alex Weidauer毕业于伦敦政经,曾创立云生产力工具开发公司treev,Alan Nichol也是他这次创业的伙伴。Alan Nichol本科毕业于爱丁堡大学,博士毕业于剑桥大学。

2.企业级AI助手搭建服务商Kore.ai获FTV Capital领投的1.5亿美元D轮融资,英伟达参投

官方网站:kore.ai

近日,为企业提供对话式AI助手和其他生成式AI应用程序的Kore.ai获得FTV Capital领投,英伟达、Sweetwater Capital Partners等投资者参投的1.5亿美元D轮融资。

Kore.ai搭建了一个企业级的无代码平台,公司可以自定义搭建对话式AI应用程序或部署预构建的“域训练”聊天机器人。Kore.ai的应用能够帮助企业的客户更方便地找到答案和解决方案,从而节省企业的人力资本,让企业员工完成更有挑战性、更具体和更有创造性的任务。Kore.ai吸引了诸如AT&T、可口可乐、雅虎等客户。

Kore.ai的AI能力由经过微调的AI模型支持,与从头训练一个AI模型相比,这样只需要非常少的企业数据,并能提供更高的效率、更好的准确性、更快的响应速度,最重要的是减少了延迟和成本。”

Kore.ai由Raj Koneru创立于2013年。Raj Koneru是一名经验丰富的连续创业者,曾先后创立云数字应用开发商Kony Inc、离岸外包咨询公司iTouchPoint等企业。

3.LLM应用开发框架LangChain获得由红杉资本领投的2500万美元A轮融资

官方网站:www.langchain.com

LangChain是一家通过其开源框架促进大语言模型应用程序开发的初创公司,近期获得由红杉资本领投的2500万美元A轮融资。目前,LangChain的总融资额已达到3500万美元。

LangChain致力于使AI应用程序的开发过程更加简明,凭借其开源框架,LangChain为开发人员提供了一个编程工具包,其中包含一套通用的最佳实践和可组合的构建块,用于构建LLM驱动的应用程序。

这个开源框架适用于诸多场景,包括聊天机器人、检索增强生成、文档摘要和合成数据生成。如今,已有超过50000个LLM应用程序使用LangChain构建。

此外,它还推出首款付费LLMOps产品LangSmith,LangSmith允许开发人员通过涵盖项目的整个生命周期(从开发和测试到部署和监控)来加速他们的 LLM 应用程序工作流程。

LangChain由Harrison Chase(CEO)和Ankush Gola创立。Harrison Chase此前担任Robust Intelligence的机器学习工程师,当时他将LangChain作为一个业余项目创建。但在他发布第一个版本后,项目反馈很好,因此他很快开始与Robust的明星同事Ankush合作并创立了LangChain。

4.AI驱动编程生产力平台Codeium获Kleiner Perkins领投的6500万美元B轮融资

官方网站:codeium.com

AI驱动编程生产力平台Codeium获Kleiner Perkins领投的6500万美元B轮融资,Greenoaks和General Catalyst参投。据彭博社报道,本次融资对Codeium的估值为5亿美元,并使其总融资额达到9500万美元。

Codeium是一款由AI驱动的编程工具包,它由专用的编码大模型来提高开发人员的工作效率,它支持70多种语言,并与40多种集成开发环境 (IDE) 集成,例如Visual Studio Code、JetBrains套件、Eclipse和Jupyter Notebooks。

Codeium正在开发的一项新功能,用于简化修复网络安全漏洞和其他错误的任务;它还打算推出新的AI工具,用于对应用程序的遗留代码组件进行现代化改造。

Codeium正与Atlassian等知名IT公司合作,也获得了众多财富500强客户,它的平台拥有超过300000名开发人员用户。

Codeium由Varun Mohan(CEO)和Douglas Chen于2021年创立,Varun Mohan曾在智能驾驶机器人公司Nuro担任技术主管,Douglas Chen曾在Facebook担任机器学习工程师,他们是MIT计算机工程专业的校友。

5.医疗AI助手Ambience Healthcare获Kleiner Perkins和OpenAI Startup Fund共同领投的7000万美元B轮融资,a16z参投

官方网站:www.ambiencehealthcare.com

Ambience Healthcare获得Kleiner Perkins和OpenAI Startup Fund共同领投的7000万美元B轮融资,参投方包括a16z和Optum Ventures。本轮融资使Ambience Healthcare的总融资额超过1亿美元。

Ambience Healthcare旨在通过AI系统帮助临床医生完成繁杂而具有法律诉讼风险的行政工作,减轻医生的负担。

它的AI系统由一整套应用程序组成,例如AutoScribe能帮助医生完成临床笔记并与其他医疗系统集成;AutoCDI帮助生成审计跟踪,AutoAVS则是一款诊后总结工具,可为患者、家属和护理人员创建全面的教育讲义。作为医疗生态系统的一部分,这些应用程序协同工作,帮助卫生系统将文档时间平均减少78%,提高医疗文档处理的完整性,并实现至少5倍的投资回报。

Ambience Healthcare由Michael Ng(CEO)和Nikhil Buduma(CTO)于2020年联合创立,他们此前也联合创立了人工智能护理分析平台Remedy Health。Michael Ng毕业于悉尼大学商学院,曾在Morgan Stanley担任分析师,Nikhil Buduma则毕业于MIT计算机科学与工程专业。

6.人工智能化制造工厂开发商Daedalus获NGP Capital领投的2100万美元A轮融资,Khosla Ventures参投

官方网站:www.daedalus.de

Daedalus获得2100万美元A轮融资,由诺基亚成长基金NGP Capital领投,参投方包括Addition和Khosla Ventures。

Daedalus旨在通过开发人工智能驱动工厂,改变精密零件制造业过于分散,数字化程度低,且依赖少数专家工匠的现状。Daedalus采用独特的软件驱动和垂直整合方法,利用其专有的制造AI平台协调和自动化整个制造过程,从报价、扩展到交付提升生产各种复杂零件时精度和效率。

Daedalus旨在使半导体、能源、移动和制药等行业能够可靠、大规模地采购和交付关键任务产品。Daedalus的智能工厂不使用特殊硬件,也不需要客户改变原有的工作流。它的特殊之处在于其软件可以自动化生产特定零件所涉及的许多手动任务。

目前,Daedalus的客户已经包括半导体、能源、电动汽车、国防和制药行业的领先企业,他们依靠Daedalus来精密制造其关键任务定制组件。

Daedalus的总部位于德国卡尔斯鲁厄,它的创始人兼首席执行官Jonas Schneider毕业于卡尔斯鲁厄理工学院计算机科学专业,他此前在Stripe工作,此后作为OpenAI的第一位工程师加入OpenAI。在OpenAI工作期间,他担任软件工程技术主管,共同创立并领导了OpenAI机器人团队。

7.无服务器数据平台Upstash获得a16z领投的1000万美元A轮融资

官方网站:upstash.com

近日,无服务器数据平台Upstash获得1000万美元A轮融资,本轮融资由a16z领投,种子轮的领投机构Earlybird Venture Capital跟投。

Upstash帮助数据密集型的应用端公司解决数据储存和计算基础设施过于昂贵的问题,它的平台可以让客户按需使用,避免资源闲置时的额外开支。

它的产品包括Redis、Kafka、Vector、Qstash。例如,它可以让客户创建上百个Redis数据库和Kafka集群,只要不请求和访问数据,就不会被收取额外费用。QStash则是一种基于HTTP的消息传递和调度解决方案,不需要服务器便能将消息推送到API。

Vector无服务器向量数据库则是Upstash在AI时代的新产品,它主要是面向AI开发人员,帮助他们存储和查找AI应用程序中的各项信息。

Upstash由Enes Akar创立,他是连续创业者,此前曾联合创立数据平台公司Hazelcast,Upstash的CTO Mehmet Dogan也是他在Hazelcast时期的伙伴。

8.人工智能安全公司Guardrails AI获GitHub Fund参投的750万美元种子轮融资

官方网站:www.guardrailsai.com/

Guardrails AI旨在帮助公司在构建人工智能应用程序时管理风险,它获得Zetta Venture Partners领投的750万美元种子轮融资,Factory、Pear VC、Bloomberg Beta、GitHub Fund以及著名人工智能专家Ian Goodfellow等参投。

随着大模型驱动的AI应用逐渐被大型企业采用,人工智能的安全测量和维护日渐重要。Guardrails AI能够对AI应用程序进行结构化输出到质量控制,提高大模型和AI应用程序的可靠性并防止混乱输出,Guardrails AI通过创建一个类似防火墙的边界框(Guard)来实现这一点。

Guardrails的开源软件在Github有2900个星标,每月有上万次下载量。他们也推出了Guardrails Hub的市场,Guardrails允许开发人员提交称为“验证器”的模块化组件,用于探测GenAI模型的某些行为、合规性和性能指标。

Guardrails成立于2023年,由Shreya Rajpal(CEO)领导,Shreya Rajpal曾在自动驾驶初创公司Drive.ai工作,在苹果收购Drive.ai 后,在苹果的特殊项目组中,与Diego Oppenheimer、Safeer Mohiuddin和Zayd Simjee共同创立了Guardrails。Oppenheimer曾领导机器学习运营平台Algorithmia,而Mohiuddin和Simjee则在AWS担任技术和工程领导职务。

本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。

关于阿尔法公社

相关内容

热门资讯

新模型发布、新实验完成……浦东... 近日,浦东机器人企业接连取得最新技术成果。智元具身研究中心推出两项新成果,为机器人产业注入新动能。微...
兴鸿辉科技取得一种充电桩外壳专... 国家知识产权局信息显示,惠州市兴鸿辉科技有限公司取得一项名为“一种充电桩外壳”的专利,授权公告号CN...
北大团队创出全新计算架构提升算... 1 月 10 日消息,据新华社今日报道,北京大学科研团队在计算技术领域取得一项重要突破,其创造的一种...
对话创维创始人黄宏生:去年光伏... 1月11日,创维集团(00751.HK)创始人黄宏生在2026年度演讲中提及最多的是光伏、AI家电和...
专家解读 | 数据要素推动完善... 文 | 国家工业信息安全发展研究中心副总工程师 汪礼俊 国家数据局发布的《工业制造、现代农业等九个领...