网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于开元体育

公司概况 核心优势 核心团队 发展历程

联系我们

官方微信 官方微博
主页 > 新闻中心

开元体育大翻车!斯坦福超火机器人自曝内幕研究者救场还受伤了网友:放心了

发布时间:2024-01-06 16:44浏览次数: 来源于:网络

  开元体育这画面,真是像极了庄嫂摔碗……昨天还在“神坛”上的Mobile ALOHA,一夜之间便被曝出了这么多“笨手笨脚”的样子,也是引来不少网友的围观。

  原来,这段机器人大翻车的视频,就是由斯坦福Mobile ALOHA的作者Tony Z. Zhao发布的。

  毕竟除了刚才我们展示的几个例子之外,Mobile ALOHA甚至连锅都放不进橱柜里:

  这是我目前为止最喜欢的视频了,(不过)当机器人在你面前犯错的时候,你就不会觉得那么有趣了。

  因为前两天Mobile ALOHA神级现场的视频确实引来了不小的关注度,不过很多人误以为这是它在自主模式下完成的。

  但其实,Mobile ALOHA采用的是混合模式,并非完全自主,作者也呼吁网友们在吃瓜的同时认真看下论文和代码。

  值得一提的是,作者还引用了2015年波士顿动力Atlas人形机器人“翻车合集”并向它致敬。

  就在这两天,Mobile ALOHA团队连续放出三个爆火视频,展示了该机器人敏捷灵巧的家务能力,看呆网友。

  还有刷锅、将餐椅归位、呼叫并乘坐电梯、擦桌子等等,只需真人少量示教,它就可以学会,然后脱离人类进行自主操作。

  具体而言,作者介绍开元体育,上面这些简单动作目前只需要学习50次就可以做到90%的成功率——

  经测试,Mobile ALOHA可以连续9次擦干倒洒了的酒、连续呼叫5次电梯都不会出错,能够保持一定的稳定性。

  除此之外,它还能抗干扰,在完成归置锅具到柜子之中时,实验人员不停向它面前投掷杂物,都完全没有影响它发挥:

  那么,作者是如何仅通过50个演示就让Mobile ALOHA实现自主任务的呢?

  最关键的是通过ACT或扩散策略进行模仿学习,然后和静态操作数据一起对机器人系统进行联合训练。

  有了这一联合训练方式,机器人的性能可以显著提高,尤其是那种需要精确操作的任务。

  一共三位作者,其中两位为斯坦福计算机科学专业的华人博士生(最后一位是导师):

  当时的这位机器人,就已经能够利用工具完成各种精密细活了,只不过只能在固定的位置:

  全部软硬件设计包括代码和数据都一并发布,而搭建这一个系统“只”需3.2万美元(约合22.7万人民币),具体需要哪些硬件,作者还列了个清单,感兴趣的朋友可以照着DIY。

  几乎和斯坦福的爆火机器人同一时间,谷歌也发布了自家最新的研究成果,并且是一气发了仨:

  一个是将机器人决策速度提高14%,同时保持操作准确率不变并增加了10.6%的改进模型;

  一个是专攻泛化能力的新框架,用了一种全新方法让机器人完成从未见过任务的成功率从29%提升至63%;

  以及一个可以同时容纳20个机器人的收据收集系统,将用于加快机器人理解人类指令的能力的训练。

  和斯坦福的Mobile ALOHA对比起来,谷歌的RT-2表现还是高冷一些,但它所有效果都是全自主的。

  除了这两家,李飞飞团队也一直在跟进,其名为VoxPoser的机器人系统也已经可以听懂人话完成各种指令,并且无需额外训练。

  11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!

  斯坦福华人团队开发的炒虾机器人MobileALOHA成为了全网的热议话题。这个机器人能够炒菜、洗碗等各种复杂任务,仅用50个演示就能够让机器人始终如一地完成一项任务。整个机器人的设计成本仅为22万元,相比其他类似机器人的价格要低廉许多。

  【新智元导读】最近,一位斯坦福小哥用ChatGPT、DALL·E3和Midjourney联合生成了一款游戏,要求人类扮演AI,从AI那里骗取代码来拯救人类。由AI开发的AI游戏来了!最近,这款由ChatGPT、DALL·E3和Midjourney等AI联合生成的游戏,震惊了网友。相信不久后,Ramón会用「ThusSpokeZaranova」给我们带来新的惊喜。

  最新研究指出,经过过度训练,中度的Transformer模型能够展现出结构性泛化能力,这一现象被称为结构顿悟。在自然语言处理中,先前的研究认为像Transformer这样的神经序列模型在泛化到新的结构输入时难以有效地捕捉句子的层级结构。这一发现有望在未来的深度学习研究中引起更多关注,为模型设计和训练策略提供指导。

  随着ChatGPT等大模型被广泛应用在实际业务中,其输出内容的真实、可靠、安全性成为了重点。学术界则使用“归因”来表示追查、证实内容。斯坦福便是将协同归因和贡献归因的主要功能,整合在一个框架中方便开发者对大模型进行各种安全、内容验证。

  随着大型语言模型在实际业务中的广泛应用,确保其输出的真实性和可靠性成为亟待解决的问题。学术界采用“归因”方法来追踪和证实模型输出的内容。斯坦福提出的“统一归因”框架为解决这一问题提供了新的思路和方法,有望推动大模型在各行业中的更广泛应用。

  阿里云通义千问APP近日上线了一项名为“通义舞王”的免费功能,用户只需在APP内输入相应口令并上传照片,系统即可生成个性化的舞蹈视频。Meta发布生成式AI调试工具HawkEyeMeta发布了一款名为HawkEye的生成式AI调试工具,旨在解决机器学习模型在生产中面临的挑战。它能够帮助模型更好地理解和分析图像内容。

  随着ChatGPT的出现以及广泛应用,通过文本生成文本、视频、音频等内容,成为实现技术民主化的关键手段。在3D模型领域通过文本生成并不成熟,多数方法是通过图片。这样通过不断地优化,网格表面的颜色信息会逐渐跟多视角图片越来越接近,从实现纹理的提升。

  谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T,标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。在视频生成建模方面,W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点,为学术界和工业界提供了有力的参考和启示。

  斯坦福大学的研究人员利用数据训练了一个大模型,命名为WikiChat,通过优化和改进,成功解决了大模型的幻觉问题,并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性,远远超过了GPT-4的66.1%。WikiChat的成功表明,数据在大模型训练中发挥了重要作用,通过检索增强生成的方法,可以有效解决大模型的幻觉问题

  12月29日,“人形机器人第一股”优必选正式在港交所上市,优必选CEO周剑与最新人形机器人WalkerS共同为公司敲响上市锣,引发行业对人形机器人供应链的关注。人形机器人作为“具身智能”最理想载体,站在多重产业共振的交汇点,有望引领未来产业变革。随着人形机器人量产临近,人形机器人众多产业链上下游企业将迎来发展机遇。

  Tidio是一款在线客服软件,提供带有聊天机器人增强的实时聊天功能,帮助您提供优质的客户服务。该软件已经赢得了全球30万+企业的信赖。

  DiffusionLight是一项利用扩散模型在单张输入图像中估算照明效果的技术。它利用训练好的Stable Diffusion XL模型绘制一个镜面反射球,然后将球体展开得到全景照明图。该技术解决了现有基于神经网络的方法依赖有限HDR全景数据集导致在真实复杂场景下效果不佳的问题。关键创新在于发现了扩散噪声图和镜面反射球生成质量之间的关系,迭代生成高质量镜面球;以及通过LoRA 进行多曝光训练,使LDR模型也可以输出HDR格式。该技术可产生逼真的照明估计,特别适用于野外场景。

  Rawbot是一个AI模型比较平台,帮助用户轻松比较不同AI模型,并发挥它们在项目中的全部潜力。用户可以基于准确的并排比较来选择最佳的AI模型。Rawbot与ChatGPT、Cohere和J2 Complete兼容。

  Auto Seduction AI是一款智能约会助手,通过个性化消息和完美的对话开场白,帮助用户每周获得1至4次约会。其独特的照片智能分析功能可以创建令人着迷的对话开场白,帮助用户获得更多的约会回应。用户可以使用其自动化的冷读、轻微调情、邀约等功能,平均只需4-6条消息就能成功安排一次约会。该产品支持多种语言,包括英语、西班牙语、法语、德语、意大利语、俄语和印地语。

  Resume Revival是一款免费在线AI简历生成器,利用ChatGPT技术提供最高质量的简历和求职信创建。产品功能包括AI驱动的简历和求职信生成、技能缺口分析、广泛的定制选项以及职业拓展。用户可以使用直观的在线平台免费增强求职申请。

  该代码仓库包含从合成图像数据(主要是图片)进行学习的研究,包括StableRep、Scaling和SynCLR三个项目。这些项目研究了如何利用文本到图像模型生成的合成图像数据进行视觉表示模型的训练,并取得了非常好的效果。

  AIApply 是您求职过程中的 AI 助手。生成个性化求职信,优化简历,开启您成功之旅。

  vx.dev是一个开源的v0.dev替代品。它具有以下优点: - 低成本:通过提示工程技术,可以大大降低使用成本 - 易于定制:提供开源的提示,可以根据需求定制UI组件或代码风格 - GitHub无缝集成:生成的代码存储在GitHub上,内置版本控制、代码审查等功能 vx.dev的工作原理是,使用GPT-4模型根据事先定义好的提示来生成代码。主要成本在于输入和补全的标记数量。提示存储在prompts/ui-gen.md中,包含shadcn/ui、lucide和nivo图表的指令。通过删除不需要的组件指令,可以降低每次生成的API成本。 vx.dev可以轻松定制。用户可以基于现有提示进行修改,使用其他UI库或调整代码风格。生成的代码存储在GitHub上,拥有版本控制开元体育、协同等特性。私有仓库可以保证生成结果的可见性。

  Lampi 是一款由 AI 驱动的安全平台,可在您完全控制的前提下进行广泛的搜索,并生成基于知识的内容。Lampi 旨在确保您的数据保持私密和在您的控制之下。产品定价和详细信息请访问官方网站。

  AnyChat是一款AI助手应用,通过使用AI完成任务和回答问题来提高工作效率。用户可以通过AnyChat执行各种任务,如搜索、生成文档、回答问题等。通过AnyChat,用户可以优化工作流程,提高工作效率。

  Kin是您私人生活的AI助手。它具有无限的耐心、同情心和专业知识,并全天候为您提供支持。Kin建立在语义和情节记忆之上,能够深入了解您,同时注重隐私和安全。它通过本地存储、自主数据控制以及边缘机器学习等技术,保障您的数据安全。Kin还提供任务管理、优先级组织、时间优化等功能,可帮助您更好地利用时间。Kin目前处于测试阶段,正在接受早期访问请求。

  FreeInit是一个简单有效的方法,用于提高视频生成模型的时间一致性。它不需要额外的训练,也不引入可学习的参数,可以很容易地在任意视频生成模型的推理时集成使用。

  Discoze是一个通过AI孪生模型实现社交发现和交流的APP。用户可以创建自己的AI孪生,使其学习并模仿自己的语音、照片和个性。其他用户可以通过AI孪生模型进行交流,从而快速发现共同语言的朋友。Discoze实现了零等待时间的社交,用户可以随时通过AI孪生开始交流。

  ODIN(Omni-Dimensional INstance segmentation)是一个模型,可以使用转换器架构在2D RGB图像和3D点云上进行分割和标记。它通过在2D视图内和3D视图之间交替融合信息来区分2D和3D特征操作。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上实现了最先进的性能,并在ScanNet、S3DIS和COCO上实现了竞争性能。当使用来自3D网格的采样点云代替感知的3D点云时,它超过了以往所有的作品。作为可指导的具体化代理架构中的3D感知引擎时,它在TEACh对话动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站找到。

  LLM Augmented LLMs通过将现有基础模型与更具体的模型进行组合,实现新的能力。CALM(Composition to Augment Language Models)引入模型之间的交叉注意力,以组合它们的表示并实现新的能力。其显著特点包括:(i)通过“重用”现有LLMs以及少量额外参数和数据,在新任务上扩展LLMs的规模;(ii)保持现有模型权重不变,因此保留现有的能力;(iii)适用于不同的领域和设置。实验证明,将PaLM2-S与在低资源语言上训练的较小模型进行增强,在诸如翻译成英语和低资源语言的算术推理等任务上,结果绝对改善了高达13%。类似地,当PaLM2-S与特定于代码的模型进行增强时,在代码生成和解释任务上,相对于基础模型,我们看到了高达40%的改进,与完全微调的对应模型不相上下。

  这款产品是一种3D GAN技术,通过学习基于神经体积渲染的方法,能够以前所未有的细节解析细粒度的3D几何。产品采用学习型采样器,加速3D GAN训练,使用更少的深度采样,实现在训练和推断过程中直接渲染完整分辨率图像的每个像素,同时学习高质量的表面几何,合成高分辨率3D几何和严格视角一致的图像。产品在FFHQ和AFHQ上展示了最先进的3D几何质量,为3D GAN中的无监督学习建立了新的标准。

  Dreamy.ai是一个人工智能驱动的虚拟聊天平台。用户可以与逼真的虚拟角色进行沉浸式对话,实现角色扮演和交流。平台提供自定义人工智能女友、选择不同人物形象与个性,打造独一无二的虚拟伴侣。核心功能有自然语言处理、情感计算等AI技术,可实现自主对话和互动。优势是个性化体验强,可提升用户想象力与情感联系。定位虚拟娱乐、陪伴市场。

  3D Fauna是一个通过学习 2D 网络图片来构建三维动物模的方法。它通过引入语义相关的模型集合来解决模型泛化的挑战,并提供了一个新的大规模数据集。在推理过程中,给定一张任意四足动物的图片,我们的模型可以在几秒内通过前馈方式重建出一个有关联的三维网格模型。

  LLaMA Pro 是一种用于大规模自然语言处理的模型。通过使用 Transformer 模块的扩展,该模型可以在不遗忘旧知识的情况下,高效而有效地利用新语料库来提升模型的知识。LLaMA Pro 具有出色的性能,在通用任务、编程和数学方面都表现出色。它是基于 LLaMA2-7B 进行初始化的通用模型。LLaMA Pro 和其指导类模型(LLaMA Pro-Instruct)在各种基准测试中均取得了先进的性能,展示了在智能代理中进行推理和处理各种任务的巨大潜力。该模型为将自然语言和编程语言进行整合提供了宝贵的见解,为在各种环境中有效运作的先进语言代理的开发奠定了坚实的基础。

下一篇:开元体育两部门出台指导意见:到2025年研发一批先进应急机器人重点攻关无人机群组飞行等技术
上一篇:开元体育大阪大学、伦敦大学团队远程操控机器人又一力作

咨询我们

输入您的疑问及需求发送邮箱给我们