AI创投周报|AI发现首批新抗生素,Perplexity AI获7360万美元新融资
阿尔法公社
2024-01-06 23:57:46

原标题:AI创投周报|AI发现首批新抗生素,Perplexity AI获7360万美元新融资

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者(AlphaFounders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

本图由“千象”(网址:www.hidreamai.com)生成

本周,我们观察到以下AI领域的新动向和新趋势:

1.斯坦福炒虾机器人爆火,这个机器人能做包括烹饪和清洁等家务,而且成本仅需要32000美元。

2.AI发现首批新抗生素,MIT的新研究登上Nature,他们利用AI,发现了能够减少抗耐药性金黄色葡萄球菌的化合物。

3.Perplexity AI融资7360万美元,新融资由IVP领投,英伟达和贝索斯参投,它是一款领先的,AI驱动的搜索引擎。

人工智能产品和技术的新突破

1.斯坦福炒虾机器人爆火,华人团队成本22万元,能做满汉全席还会洗碗

斯坦福大学华人团队近日发布炒菜机器人Mobile ALOHA,这款机器人仅需50个演示就能完成各种复杂任务,包括烹饪和清洁等。而且的打造成本仅为32000美元(约22万元人民币),且项目全部开源。

Mobile ALOHA机器人能够烹饪多种菜肴,如滑蛋虾仁、干贝烧鸡、蚝油生菜等。在干贝烧鸡的制作中,机器人能够煎制鸡腿肉并加入干贝等调料烹饪。此外,机器人还能够切蒜末、清洗平底锅等,展现出其多功能性。

Mobile ALOHA机器人的开发团队由斯坦福大学的三名华人研究人员组成。机器人通过模仿学习执行各种复杂任务,不仅可以自主操作,还支持全身远程操控。

研究人员表示,机器人还能在受干扰的情况下正确操作,展现出其强大的学习能力和适应性。关键在于利用静态ALOHA数据共同训练模仿学习算法,这能持续提高性能,尤其是在需要精确操作的任务中。

2.大模型正在重构机器人,谷歌DeepMind这样定义具身智能的未来

过去一年中,大模型在机器人研究领域取得了显著进展,尤其是谷歌DeepMind的成果。DeepMind推出的RT-2是全球首个控制机器人的视觉-语言-动作(VLA)模型,能够通过简单的对话式命令识别物体并执行任务。紧接着,DeepMind又提出了Q-Transformer,这是专为机器人设计的Transformer模型,使机器人能够在减少对高质量演示数据依赖的同时,更加依赖自主“思考”来积累经验。

DeepMind还与其他机构合作推出了Open X-Embodiment数据集,这一举措改变了以往针对每个任务、机器人定制模型的方法,为训练通用机器人提供了新思路。基于这些研究,谷歌宣布了一系列机器人研究进展,包括AutoRT、SARA-RT和RT-Trajectory,这些技术能够帮助机器人更快地做出决策,更好地理解环境,更有效地完成任务。

AutoRT结合了大型基础模型和机器人控制模型,创建了一个能够在新环境中部署机器人以收集训练数据的系统。AutoRT系统能够安全地协调多达52个机器人,通过执行各种任务收集了涵盖77,000个机器人试验的数据集。

SARA-RT则是将机器人Transformer模型转换为更高效的版本。它采用了一种新颖的模型微调方法,将二次复杂性转换为线性复杂性,从而大幅降低了计算要求。这种转换不仅提高了原始模型的速度,还保持了其质量。

RT-Trajectory模型通过解释具体的机器人动作,使RT模型能够理解“如何完成”任务。它能自动添加视觉轮廓,描述训练视频中的机器人动作,为模型学习机器人控制策略提供了低层次、实用的视觉提示。这使得RT-Trajectory控制的机械臂在执行未见过的任务时表现出色,成功率达到63%,远高于现有的SOTA RT模型。

3.维基百科+大模型,斯坦福WikiChat的事实准确性高达97.3%

斯坦福大学最新研究成果WikiChat,能够达到97.3%的事实准确性,远超GPT-4的66.1%。

WikiChat的研究团队发现,通过检索增强生成(RAG)技术并添加关键步骤,可以有效减轻幻觉现象,提升对话的相关性、信息性、自然性、非重复性和时间正确性。

WikiChat的独特架构基于信息检索(IR)和从可信语料库中检索信息,再结合LLM生成响应。这一过程包括生成维基百科查询、总结和过滤检索到的段落、从LLM生成响应、提取声明、进行事实核查、起草和完善响应等多个阶段。值得一提的是,WikiChat能够根据需要访问外部信息,如直接问题或需要更全面回答的情况,从而提高对话的准确性和相关性。

WikiChat的成果为未来的聊天机器人和语言模型研究提供了新的方向和思路。

4.Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%

近年来,Transformer架构在AI领域的多个方向(如语言、视觉、音频、生物等)发挥了重要作用。然而,其核心模块“注意力机制”的计算复杂度随着输入序列长度的增加而呈二次方增长,这限制了其在处理长序列数据时的应用能力。例如,Transformer难以一次性处理整本书或处理千兆像素级别的图像。

为了解决这一问题,Together Research最近开源了新型语言模型StripedHyena,这是一种针对长上下文设计的新架构,能够处理高达128k个token的长上下文。StripedHyena不仅改进了Transformer架构在训练和推理上的性能,还在OpenLLM基准任务上与现有最佳开源Transformer模型(如Llama-2和Mistral 7B)展现了相当的性能,尤其在长上下文摘要任务上表现更为出色。

StripedHyena采用了混合架构,包括多头、分组查询注意力和排列在Hyena块中的门控卷积。它通过将卷积表示为状态空间模型(SSM)或截断滤波器,在Hyena块中进行常数内存解码。实验结果显示,StripedHyena在处理32k、64k和128k个token序列的端到端训练中,比传统Transformer快30%、50%和100%以上。此外,与Transformer相比,StripedHyena在自回归生成期间的内存占用减少了50%以上。

此外,Hyena在语言和视觉领域的应用也得到了验证。在语言建模方面,Hyena在标准数据集(WikiText103 和 The Pile)中的无稠密注意力架构中实现了新的最佳性能,并与Transformer的质量相当。在视觉领域,Hyena在图像分类任务中的准确率也与注意力相媲美。

5.60年首次!AI发现首批新抗生素,MIT重磅研究登Nature!人类有望对抗超级细菌

在AI的协助下,MIT的科学家们实现了60年来的重大突破,发现了一种新的抗生素类别,有效对抗耐药性金黄色葡萄球菌(MRSA)。这一发现被认为是对抗抗生素耐药性的转折点,相关研究成果已发表在《自然》杂志上。

MRSA是一种对多种抗生素产生耐药性的细菌,可引起从皮肤感染到生命威胁的严重疾病。根据欧洲疾病预防控制中心的数据,欧盟每年约有150,000例MRSA感染,导致约35,000人死亡。MIT的研究团队利用一种可解释的图神经网络,在数百万化合物中筛选出283种有前景的化合物,并在小鼠模型中验证了其中几种对MRSA的治疗效果。

这项研究的核心是深度学习模型的应用,该模型通过人工神经网络自动从数据中学习和表征数据,无需显式编程。研究团队使用扩展的数据集训练了一个广泛扩展的深度学习模型,评估了约39,000种化合物对MRSA的抗生素活性,并将所得数据与化合物化学结构的细节输入模型中。

最终,研究人员从约1200万种市售化合物中筛选出5种不同类别的化合物,并在实验室环境中对MRSA进行了测试。结果显示,这些化合物能够显著减少MRSA的数量。

6.骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

近日,美团、浙江大学等机构联合推出了MobileVLM,这是一款专为移动设备设计的多模态大模型,标志着大型多模态模型向移动端的重要转移。MobileVLM结合了面向移动设备的架构设计和技术,包括从头开始训练的1.4B和2.7B参数的语言模型、以CLIP方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。

在各种视觉语言基准测试中,MobileVLM的性能可媲美大型模型,并在高通骁龙888 CPU和英伟达Jeston Orin GPU上展示了最快的推理速度。

MobileVLM的架构包含三个组件:视觉编码器、定制的LLM边缘设备(MobileLLaMA),以及高效的映射网络(LDP),用于对齐视觉和文本空间。它能够在低功耗的移动设备上高效运行,在高通的移动CPU和65.5英寸处理器上的测量速度为21.5 tokens/s。MobileVLM和大量多模态大模型在benchmark的表现不相上下,证明了其在众多实际任务中的应用潜力。

7.挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型

自Transformer在2017年的NeurIPS大会上发布以来,其作为核心网络架构在自然语言处理和计算机视觉等领域得到了广泛应用。然而,大多数大模型仍基于标准的Transformer架构,其在数据工程和训练策略上进行了优化,但模型架构设计这一关键环节并未得到足够重视。

华为诺亚方舟实验室和北京大学的研究者们提出了一种新的网络架构——盘古π,旨在构建更高效的大模型架构。研究者们发现,特征坍塌问题严重影响了Transformer架构的表达能力。为了解决这一问题,盘古π架构在FFN(前馈网络)和MSA(多头自注意力)模块中引入了更多的非线性,以增强模型的表达能力,同时保持模型复杂性不显著增加。具体来说,研究者们在FFN中引入了基于级数的激活函数,以及在MSA模块中并行处理主分支和增强型短路,从而避免特征秩的坍塌。

盘古π架构的实验结果表明,其在多种NLP任务上的表现优于同体量的现有模型,尤其在准确性和效率方面。研究者们还构建了两个不同大小的盘古π大模型版本:盘古π-7B和盘古π-1B,并在大规模语料库上进行了训练。此外,研究者们还将盘古π-7B模型应用于金融和法律领域,开发了名为云山的专门LLM,在实际商业应用中展现出了其价值。

8.AI绘图模型不会写字的难题,被阿里破解了

阿里巴巴最近推出了一款名为AnyText的AI绘图工具,成功解决了AI绘图模型在文字生成方面的难题。这款工具不仅能够在图像中精准地添加文字,而且支持中文、英文、日文和韩文这四种语言。

传统的AI绘图模型在向图像中添加文字时面临着重大挑战,尤其是在处理结构复杂的文字如中文时。AnyText的出现,使得用户可以在任意指定位置向图像中加入文字,且文字的字形和风格能够与图片完美融合。这意味着,无论是修改图片中已有的文字,还是向图片中新增文字,AnyText都能轻松应对。

AnyText的实现基于扩散模型,主要由隐空间辅助模块和文本嵌入模块组成。辅助模块负责对字形、文字位置和掩码信息进行编码,构建隐空间特征图像,以辅助视觉文字的生成。文本嵌入模块则将描述词中的语义部分与待生成文本部分解耦,独立提取字形信息后与语义信息融合。这种模块化的处理方式不仅提高了文字的书写精度,还增强了文字与背景的一致性。

在实际测试中,AnyText能够准确模仿各种文字材质,如黑板上的粉笔字、传统书法等,甚至能处理街景中的文字和电商促销海报。此外,AnyText还能处理立体风格的文字,并且在文本编辑功能上也表现出色,能够在不留痕迹的情况下修改已有图片中的文字。

9.安徽,全面瞄准通用人工智能

安徽省正全面投入通用人工智能(AGI)的发展,通过一系列政策和措施吸引AI公司和人才。2023年,安徽在全国通用人工智能创新应用大赛中展示了对AI领域的重视,承诺对在安徽落地的优秀AI项目和团队提供高达3000万元的综合支持。

安徽省政府发布了《安徽省通用人工智能创新发展三年行动计划(2023—2025年)》和《打造通用人工智能产业创新和应用高地的若干政策》,旨在到2025年将安徽打造成具有全球影响力的人工智能科技创新策源地和新兴产业聚集地。这些政策涵盖了智算平台加速、数据资源全面开放、关键核心技术攻关、全时全域场景应用、市场主体培育壮大、一流生态构建等六大重点行动。

特别值得注意的是,安徽在智能算力方面的投入。省政府提出到2025年建成运营智能算力调度平台,新建智能算力超12000P。此外,安徽还在推动算力生态的国产化进程,例如科大讯飞与华为联合发布的基于昇腾生态的“飞星一号”国产算力平台。

10.多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突

香港科技大学、南方科技大学和华为诺亚方舟实验室的联合研究团队发现,对多模态大模型进行“多任务指令微调”时,由于不同任务之间的冲突,可能导致模型的泛化能力下降。例如,在多模态问答任务和文档理解任务中,由于任务要求的差异,一个大模型难以在多个下游任务中均达到最优性能。为解决这一问题,研究团队提出了一种结合混合专家模型(MoE)和通用专家的方法,以提高多模态大模型的泛化性能和理解能力。

研究中,团队通过将数据进行分类,如视觉问答(VQA)、图像描述(Captioning)等,并对InstructBLIP进行微调,获得三个专家模型。实验结果显示,多模态指令微调存在任务冲突,即引入其他任务的数据反而可能降低模型性能。为了解决这一局限,研究团队利用稀疏专家模型(MoE),让不同的专家处理不同的任务,并设计了一种基于指令聚类的数据划分方法,将相似的任务交给同一个专家处理。

研究中还提出了一种基于指令聚类的稀疏专家多模态大模型。通过Kmeans将所有的指令聚为64类,有效表示数据的任务类型,省去了人力划分数据的成本。此外,研究团队还引入了通用专家来从所有数据中学习指令泛化能力。这种方法不仅缓解了任务冲突问题,还保证了稀疏模型对任务的泛化能力。

实验结果表明,引入该方法后,InstructBLIP相较于基线模型在所有下游任务上都有提升,特别是在VSR、IconQA、TextVQA和MSVD-QA等任务上提升尤为明显。研究团队认为,稀疏专家多模态大模型加上通用专家模块的组合,有效缓解了任务之间的冲突,并保证了稀疏模型对任务的泛化能力,使得多模态大模型能够更有效地适配不同的下游行业应用。

人工智能初创公司的新融资

1.AI搜索引擎Perplexity AI获7360万美元新融资,英伟达贝佐斯参投

Perplexity AI,一款AI搜索引擎,正在飞速崛起,它近日获得了一笔7360万美元的融资,由IVP领投,英伟达和亚马逊创始人杰夫·贝索斯跟投。这笔融资创下了互联网搜索初创公司融资金额的新纪录,使Perplexity AI的总融资额超过1亿美元,市场估值达到5.2亿美元。

Perplexity AI开发的是全球首个AI加持的对话式搜索引擎,自公司成立一年半以来,月活用户已达1000万。该公司的产品在2023年度全球最火爆AI工具Top50中排名第13,且几乎未在传统营销上投入资金,主要依靠口碑和社交媒体平台吸引用户。图灵奖得主Yann LeCun、OpenAI科学家Andrej Karpathy、英伟达科学家Jim Fan等众多科技界人士对此表示祝贺。

该搜索引擎由大语言模型驱动,提供免费版本和Pro专业版付费版本。其界面无传统的SEO垃圾信息和赞助链接,能够自动抓取信息并生成答案,同时提供完整的来源和引用,还具有图片生成功能。

Perplexity AI还推出了Copilot AI助手,引入生成式用户界面的概念,通过定制后续问题来调整搜索查询,减轻用户的提示工程负担。该公司的成功吸引了包括谷歌高管在内的多位知名投资者的关注,其中谷歌AI掌门人Jeff Dean也进行了个人投资。

Perplexity AI的CEO Aravind Srinivas表示,他们的存在旨在改进搜索,提高信息访问的效率,给出简洁明了的个性化答案,这与谷歌的财务和业务目标不符,为其他人重新思考产品和业务提供了机会。

本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。

关于阿尔法公社

相关内容

热门资讯

新模型发布、新实验完成……浦东... 近日,浦东机器人企业接连取得最新技术成果。智元具身研究中心推出两项新成果,为机器人产业注入新动能。微...
兴鸿辉科技取得一种充电桩外壳专... 国家知识产权局信息显示,惠州市兴鸿辉科技有限公司取得一项名为“一种充电桩外壳”的专利,授权公告号CN...
北大团队创出全新计算架构提升算... 1 月 10 日消息,据新华社今日报道,北京大学科研团队在计算技术领域取得一项重要突破,其创造的一种...
对话创维创始人黄宏生:去年光伏... 1月11日,创维集团(00751.HK)创始人黄宏生在2026年度演讲中提及最多的是光伏、AI家电和...
专家解读 | 数据要素推动完善... 文 | 国家工业信息安全发展研究中心副总工程师 汪礼俊 国家数据局发布的《工业制造、现代农业等九个领...