大型语言模型专场上线！四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机

2023-07-20 21:14 176 0

「AI新青年讲座」由智东西公开课出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

在这个大模型的时代，开源的力量正在影响着整个AI社区。MiniGPT-4、LLaMA、Gorilla 等各种开源的大模型纷纷出现，并且在快速的迭代着。相比于 ChatGPT、GPT-4，这些开源模型的效果具有更强的可定制性，并且可以免费使用。

为了让大家更好地了解学习这些开源的大型语言模型，7月起，AI 新青年讲座开辟推出「大型语言模型专场」。

阿卜杜拉国王科技大学在读博士朱德尧、新加坡国立大学在读博士薛复昭、美国威斯康星大学麦迪逊分校在读博士柳昊天和加州大学伯克利分校人工智能实验室（BAIR）在读博士张天均将参与此次专场。

四位 AI 新青年将分别针对 MiniGPT-4、LLaMA、Gorilla，以及大型语言模型所面临的 Token 危机进行直播讲解。

第一讲｜阿卜杜拉国王科技大学在读博士朱德尧：使用大型语言模型为 MiniGPT-4 构建视觉语言理解能力

GPT-4 展现出了前所未有的视觉语言能力，例如解释表情包的笑点，或者根据网站草图直接生成网页代码等等。这样的能力是之前的视觉语言模型所无法企及的。然而，OpenAI 并没有公开 GPT-4 的任何技术细节，其非凡的视觉语言能力的来源是一个谜。

我们认为 GPT-4 的秘密在于其强大的语言模型。为了验证我们的想法，我们构建了一种新颖的训练方法，将开源的视觉模型与开源的先进的大型语言模型进行对齐。我们的模型系统 MiniGPT-4，成功地复现了许多 GPT-4 的视觉语言能力，并验证了我们的猜想。

MiniGPT-4 开源地址：

https://github.com/Vision-CAIR/MiniGPT-4

第二讲｜新加坡国立大学在读博士薛复昭：大型语言模型的 Token 危机

训练数据集的大小，即 tokens 数量对大型语言模型的性能有很大影响。然而网络上高质量的文本数据已接近 LLMs 的扩展极限。为了进一步增强 LLMs 的性能，一种直接的方法是重复使用预训练数据进行额外的迭代。

在本次分享中，首先将向大家介绍重复使用预训练数据进行额外迭代影响是什么？进而分析预训练大模型的性能下降原因。之后，将讲解降低多 epochs 影响的方法：正则化（Dropout），以及基于混合专家（MoE）的超参数调整等。最后，也将对 LLM 高效开发的未来进行探讨。

第三讲：美国威斯康星大学麦迪逊分校在读博士柳昊天：基于视觉指令调整的多模态聊天机器人 LLaVA

LLaVA（Large Language and Vision Assistant）是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。其有着接近多模态 GPT-4 的图文理解能力：相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答（Science QA）上进行微调时，LLaVA 和 GPT-4 的协同作用实现了 92.53%准确率的新 SoTA。

在本次分享中，将首先向大家介绍 LLaVA 的开发背景。之后将讲解多模态指令微调训练多模态聊天机器人 LLaVA，包括如何使用仅支持语言输入输出的聊天机器人（ChatGPT）生成多模态指令微调数据集、仅使用单层全连接网络联通语言大模型（如LLaMA）与视觉大模型（如CLIP）的模型结构等。最后，也将向大家分享 LLaVA 的涌现能力 OCR、表情包理解以及后续的研究工作。

LLaVA 开源地址：

https://github.com/haotian-liu/LLaVA

第四讲｜加州大学伯克利分校人工智能实验室（BAIR）在读博士张天均：Gorilla——链接海量 API 的大型语言模型

大型语言模型在近年备受关注，ChatGPT 和 GPT-4 都展现了非常令人吃惊的能力，在聊天代码等方面尤为显著。但当语言模型作为助手去完成一项任务时，它会需要学会使用各种工具。这在当前的语言模型里还是比较匮乏的。ToolFormer 等文章为大家展现了一个语言模型和工具互动的范例，但其实用的工具非常局限。

我们提出了 Gorilla，一个可以和 1600+ API 互动的语言模型，我们在 HuggingFace，Tensor Hub 和 Torch Hub 上的表现都超过了 GPT-4。Gorilla 很大程度上减少了语言模型的幻想，能更准确的使用 API。

Gorilla 开源地址：

https://github.com/ShishirPatil/gorilla