lywebsite

新闻

新闻 活动

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型,性能对标GPT-4o

英伟达当地时间6月14日开源Nemotron-4 340B(3400亿参数)系列模型。据英伟达介绍,开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。

 

Nv.png


Nemotron-4 340B有可能彻底改变训练LLM的方式。从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4一较高下。

 

具体来说,Nemotron-4 340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。

 

训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。值得一提的是,指令模型的训练是在98%的合成数据上完成的。

 

Nemotron-4-340B-Base在常识推理任务,如ARC-Challenge、MMLU和BigBench Hard基准测试中,可以和Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型媲美。而Nemotron-4-340B-Instruct,在指令跟随和聊天能力方面也超越了相应的指令模型。Nemotron-4-340B-Reward在发表时,在RewardBench上实现了最高准确性,甚至超过了GPT-4o-0513和Gemini 1.5 Pro-0514这样的专有模型。在BF16精度下,模型的推理需要8块H200,或16块H100/A100 80GB。如果是在FP8精度下,则只需8块H100。

 

除此之外,Nemotron-4 340B还有一个非常显著的特点——对商用十分友好的许可。高级深度学习研究工程师Somshubra Majumdar对此表示大赞:「是的,你可以用它生成你想要的所有数据」假使LLM无法获得大规模、多样化标注数据集,怎么办?Nemotron-4 340B指令模型,可以帮助开发者生成合成训练数据。这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制LLM的性能和稳定性。而且,为了进一步提高AI生成数据的质量,开发者还可以用Nemotron-4 340B 奖励模型,来筛选高质量的响应。它会根据有用性、正确性、一致性、复杂性和冗长性这5个属性,对响应评分。另外,研究者可以使用自己的专用数据,再结合HelpSteer2数据集,定制Nemotron-4 340B 基础模型,以创建自己的指令或奖励模型。

 

 

用NeMo微调,用TensorRT-LLM优化推理

 

利用开源的NVIDIA NeMo和NVIDIA TensorRT-LLM,开发者可以优化指令模型和奖励模型的效率,从而生成合成数据,并对响应进行评分。所有Nemotron-4 340B模型都利用张量并行性经过TensorRT-LLM优化,这种模型并行性可以将单个权重矩阵分割到多个GPU和服务器上,从而实现大规模高效推理。其中,基础模型可以使用NeMo框架进行定制,以适应特定的用例或领域。广泛的预训练数据使得我们可以对它进行微调,并且为特定的下游任务提供更准确的输出。通过NeMo框架,英伟达提供了多种定制方法,包括监督微调和参数高效微调方法,如低秩适应(LoRA)。为了提高模型质量,开发者可以使用NeMo Aligner和由Nemotron-4 340B奖励模型标注的数据集来对齐模型。

 

 

在各行业的潜在影响:从医疗到金融及其他领域

 

显然,Nemotron-4 340B对各行业的潜在影响是巨大的。在医疗领域,如果能生成高质量合成数据,可能会带来药物发现、个性化医疗和医学影像方面的突破。在金融领域,基于合成数据训练的定制大语言模型,则可能会彻底改变欺诈检测、风险评估和客户服务。在制造业和零售业方面,特定领域的LLM可以实现预测性维护、供应链优化和个性化客户体验。

 

不过,Nemotron-4 340B的发布,也提出了一些隐忧,比如数据隐私和安全怎样保证?随着以后合成数据的普及,企业是否有防护措施来保护敏感信息,并防止滥用?如果用合成数据训练AI模型,是否会引发伦理问题,比如数据中的偏见和不准确可能引发意料外的后果?但至少在目前,越来越多迹象表明,只有合成数据才是未来。


© 热控科技 版权所有  隐私政策