FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了来自 200 多个来源的数据,具有多模态和多轮对话的特点,支持视觉和语言的结合。每张图像都配有文本标题,有助于模型理解和生成自然语言。FineVision 在 10 项基准测试中帮助模型平均提升了超过 20% 的性能。使用 Hugging Face 的 datasets 库可以轻松加载和使用数据集。
>>展开阅读
Claudable 是基于 Next.js 的开源 Web 应用构建器,结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力,以及 Lovable 简单直观的应用构建体验。用户只需用自然语言描述需求,Claudable 能快速生成生产就绪的 Next.js 代码,支持即时预览和热重载,无需复杂的设置即可开始构建。提供美观的 UI 生成、一键部署到 Vercel、自动设置版本控制和持续部署、连接生产就绪的 PostgreSQL 数据库等功能。
>>展开阅读

>>展开阅读
在线代码托管平台「GitHub」旨在为开发者提供版本控制和协作工具。不过对于新手用户来说全英文界面上手难度比较高,所以有开发者制作了一款扩展插件油猴脚本,实现 GitHub 界面的全面中文化。使用方法,先安装 Tampermonkey 插件,再导入 GitHub 中文化脚本。
>>展开阅读
最近火爆全网的 AI 神器「Nano Banana」是谷歌推出的 Gemini 2.5 Flash Image 图像模型,可以生成超逼真手办人像,还支持场景换背景,修复老照片、转换艺术风格等等。
>>展开阅读
据海外媒体Winaero报道,微软近日以开源许可形式,正式发布了1976年由比尔·盖茨(Bill Gates)与瑞克·韦兰德(Ric Weiland)共同开发的MOS 6502 BASIC解释器源代码。这一举措不仅让这段承载早期个人电脑发展历史的代码得以公开,也为技术爱好者和研究人员了解早期计算机语言发展提供了珍贵素材。
>>展开阅读
一款基于 Chrome 浏览器内置的 AI 做的离线划词翻译的插件,据介绍该 API 内置于 Chrome 中,模型会在网站首次使用该 API 时下载,所以支持离线翻译。功能上和谷歌翻译一样,支持多语言选择,支持 AI 语言检测。
>>展开阅读
HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持沿着自定义相机轨迹进行世界探索的3D一致场景视频生成,可生成对齐的深度和RGB视频,用于高效直接的3D重建。模型包含两个关键组件:世界一致视频扩散和长距离世界探索,通过高效的点剔除和自回归推理实现迭代场景扩展。提出了一个可扩展的数据引擎,用于生成RGB-D视频训练的可扩展数据。
>>展开阅读
- «
- 1
- ...
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- ...
- 127
- »