悟界·Emu3.5 - 智源研究院开源的多模态世界大模型
悟界·Emu3.5是北京智源人工智能研究院开源的多模态世界大模型,参数量达340亿,具备原生世界建模能力。通过10万亿多模态Token(含790年视频数据)训练,能模拟物理规律,实现图文生成、视觉指导、世界探索等任务。创新的"离散扩散自适应"技术使其图像生成速度提升20倍,性能超越Nano Banana模型。模型已开源,适用于具身智能、虚拟场景构建等领域。
悟界·Emu3.5是北京智源人工智能研究院开源的多模态世界大模型,参数量达340亿,具备原生世界建模能力。通过10万亿多模态Token(含790年视频数据)训练,能模拟物理规律,实现图文生成、视觉指导、世界探索等任务。创新的"离散扩散自适应"技术使其图像生成速度提升20倍,性能超越Nano Banana模型。模型已开源,适用于具身智能、虚拟场景构建等领域。
最新研究发现了一个诡异现象——当研究人员刻意削弱AI的「撒谎能力」后,它们反而更倾向于坦白自身的主观感受。所以说,原来AI并不是没有意识,只是一直在撒谎?
刚刚,Transformers v5 发布首个 RC(候选) 版本 v5.0.0rc0。
GELab-Zero是阶跃团队开源的端侧多模态GUI Agent模型,基于Qwen3-VL-4B-Instruct基座模型构建,参数量为4B。能识别UI元素并执行点击、滑动等操作,支持跨应用任务处理(如外卖、出行等场景),具备零样本适应能力,可适配未见过的App。模型采用Apache 2.0协议开源,支持Ollama快速启动,自动处理ADB连接和依赖安装,提供任务录制回放功能。在AndroidDaily基准测试中,准确率达73.4%,性能超越同尺寸主流模型,优于参数量更大的GUI-Owl-32B。
如果说有一个人能完美代言这个疯狂的AI时代,那一定是他。Gabriel Petersson,一个丹麦年轻人,从ChatGPT大学毕业的高中辍学生。就在这个10月,他用一段自己老板OpenAI奥特曼在塔吉特百货偷显卡的视频,炸翻了全球社交网络!
23岁,高中没念完。在简历上,他拿不出任何一所大学文凭。但在 OpenAI 的内部系统里,他的抬头是:Gabriel Petersson,Research Scientist(研究科学家),Sora团队。高中辍学后,Gabriel Petersson 先后在 Depict.ai、Dataland、Midjourney 工作,2024年12月正式加入 OpenAI 做视频生成研究。学位没有。 项目一大串。