StableVicuna 是由 StabilityAI 推出的首个通过人类反馈强化学习(RLHF)进行训练的大型开源对话机器人,背后由 Stable Diffusion 团队支持。它是基于 Vicuna v0 13b 版本进行指令微调和 RLHF 训练后的成果,实际上是对 LLaMA 130 亿模型的进一步优化和指令调教。
本文转载自互联网,如有侵权,联系 478266466@qq.com 删除。