• 网页
找到约 4 条相关结果

LocateAnything是英伟达推出的视觉语言定位模型,基于并行框解码技术,用户输入自然语言即可在图像中精准框选目标。模型支持多目标检测、GUI定位、OCR文本检测和点级指向等任务,推理速度达12.7 BPS(H100),较Qwen3-VL快10倍,在LVIS等基准达SOTA,适用机器人、文档智能与自动驾驶场景。...详情>>