2023中国高新技术论坛主旨演讲_人物

人物

2023中国高新技术论坛主旨演讲

来源：财联社
2023-11-20 20:05

大模型有很多优势也有很多挑战，我最近提出一个问题，人工智能的挑战在哪里呢？除了算法、算力、数据三驾马车，我又加了三个，叫赋知识识、可解释、低能耗，为什么叫赋知识？就是我在能源上用的AI和医疗不一样，你不懂医疗就做不好，所以大模型只是一个框架，一定要在行业和领域用得好。

谢谢王老师的介绍，各位老总，各位朋友们，大家好！

今天我介绍的就是AIGC，大家知道AIGC这个领域自从有了Chat GPT以后非常火，我们介绍一下我在这里面做的工作。昨天李彦宏在西丽湖论坛讲到一个问题，现在是模型太多，应用太少，我也这么认为，所以我今天讲的就是我们做的应用，但是我们做的应用是在Chat GPT以前就做，所以不是吹牛，是追赶潮流。我来介绍一下，当前Chat GPT是一个程序，是AIGC里面的一个东西，现在我们用AIGC来产生音乐、图像都很好，当然我们也有很多大模型，特别是meta的模型都不错，大家都在用。有些公司用LLAMA。我觉得这是操作模型，我们用模型没关系，把自己的应用做得好才是标准。

我讲一下AIGC的问题，原来人工智能只能做1和0的区别，AIGC突然可以产生内容了，老百姓用得更好，写一个文本确实非常好，也可以搞电影，搞音乐，甚至产生话语，这是改革性的革命，非常好，所以我们现在的大模型很多，每个公司都在搞，包括清华的唐杰的模型也不错，但是我没有测试过他的模型，是否跟Chat GPT一样，我不清楚。昨天李彦宏说要支持大模型，要去用文心一言，我觉得对，只是去用才能鉴别哪个好，哪个不好，我们现在用的是Open AI的Chat GPT为主的模型。

华为的云盘古大模型也是这样的情况，里面包括很多模块，它也是底层逻辑加上上面的行业逻辑，再加上应用逻辑，我今天要讲的是有了底层逻辑与行业逻辑，比如农业和医疗里面，医疗里面还有场景，我们要怎么样去做。在一月份的时候，Chat GPT出来的时候，有一个对我的采访，我当初就说Chat GPT肯定是太消耗CPU了，今后的可能性一定是专有的GPT，比如写个诗歌，你就把李白、杜甫的诗歌放进去产生的新诗歌。我和黄旭东在新加坡讨论，他给我一个例子，他说专用GPT很好，但是有缺点，比如LawGPT是法律的，涉及到医疗还需要配合Bio GPT。律师找相关资料需要用Law GPT和BioGPT。我平时用自己的LawGPT，需要的时候出去用ChatGPT调用一下资料，问题导回来以后再用law GPT，可以省钱。他的意思就是一个臭皮匠合成诸葛亮的概念，这个概念很好，文心一言做不好的地方，可以到别的地方调用信息来做，这是一个方法。最近美国有一个4岁的孩子，看了很多的医生，17个医生看不懂一个病，Chat GPT诊断以后出来了诊断。这个案例告诉我们，Chat GPT有一个功能，但是一定要有一个检查功能，以后我们问题产生后，我们要有一个检查功能，比如说最近美国有一个法律的律师的证据是假的，我们要一个辅助工具帮助，我们医生是ABCD六种疾病，Chat GPT判断出第七种，医生要去检查是否是真的。现在哈佛有一个实验，Chat GPT给出的癌症治疗建议有62%还是比较不错的，也就是说Chat GPT还是给出建议，哪怕有50%有错误，人工进行检查之后还可以用，但是不能百分之百的信赖，它的东西还是有错误的。这里面是具体的数据，60%是怎么得来的，很多东西还是比较准的，请看这个表。比如哪个时候吃药、休息等等。

大模型有很多优势也有很多挑战，我最近提出一个问题，人工智能的挑战在哪里呢？除了算法、算力、数据三驾马车，我又加了三个，叫赋知识识、可解释、低能耗，为什么叫赋知识？就是我在能源上用的AI和医疗不一样，你不懂医疗就做不好，所以大模型只是一个框架，一定要在行业和领域用得好。我今天举两个例子，我们把我们做的工作给大家介绍一下。我们BIOTECH里面的生成式内容有数据恢复、信息学、文献摘要、创新药设计等等。我现在用了两个例子，比如说文献摘要，你把这个文章灌进去以后，它给你产生的内容给你记录。创新药我举一个例子，我今天讲的是这么一个故事，我们做了一个自闭症的语言模型的向量库的系统，底下是LLM，模型是别人的，我们在应用。比如一个自闭症的家长问一个问题，医生的知识是有限的，比如问他自闭症是父母产生的吗，自闭症跟家族有关系吗，是哪一年产生的？Chat GPT都可以回答。我们做了一个什么系统呢？因为Chat GPT有一些胡说八道的问题，我们用专业只是的文章，我们不看别的文本，我们输入一百篇专业知识有关联的自闭症的文章，我们这个系统做出来以后，回答出来的东西就比较准确，也就是说它要么回答不出来，当然说不知道。还有可能就回答出来基本上准的，因为它是一百篇文章搜集出来的东西。当然也有缺点，缺点就是知识面局限，只有这一百篇文章。Chat GPT的文献是几十万的文献进去的，它都有各自的问题，我们下一步要做的就是看看我们的系统和Chat GPT究竟好还是不好，这个质量很难判断，比如我有一个系统产生一个答案，Chat GPT产生的好，还是我们好，这是人类很难回答的问题，因为我们不能用数量来回答，因为这个是文字的，所以今后也可能用五个专家来评分，如果五个专家有四个认为好，我们就可以确定。我们最终是一百篇自闭症的综述、文件输入进去，我们来训练。我们这个系统的好处是模型是别人的，我们只有一百篇论文，数量比较少，时间比较短，还是有优点的，大家可以从这个意义上学一下，从这方面看还是有很多好的好处，至少时间训练少。

下面我要讲的是一个药。大家知道制药是很费钱的，今后AI制药，你看这个曲线，今后是AI制药来预测药和制造药方面，AI制药也是时间长，钱花得多等等。今天我要讲的故事是用AIGC，就是Chat GPT出来以前我们已经做的工作，我们用药物数据库、蛋白质数据库、疾病数据库、集成数据库等等产生药，这就是我们的先进性，Chat GPT还没有产生，我们已经做了。大家设想一下，这个故事就是这样，Chat GPT再造就是一个模型再造，我们的输入的李白的诗歌产生一个新的诗歌，无非就是把老的诗歌打乱产生一个新诗歌，这个药也是一样。我们看看这个药怎么做呢？我们用了深度学习等等，什么叫药？药实际上就是有一个靶标，有一个匹配的分子给它吻合，就是非常融合得好，这就是药。再举一个例子就是咬合点，蛋白的一个靶标，这个靶标是生物学家告诉你，药就是把它怎么咬合，就是这样找到这个药。

这里面我举一个例子，这个药就是一个钥匙，靶标有了，药有了，我怎么找到这个钥匙开这个锁，这个钥匙就是用生物做实验，要做几万次、几亿次，一个一个去做太花时间，计算机怎么做？我就一个一个试，很快试出来，很快做好了，钥匙找到了，生物学家就做实验了。这个故事就是这样，我们现在蛋白质已经有预测的结构，AI设计的蛋白质也已经有很多的算法，怎么去设计AI算法。

我今天讲三个故事，匹配的项目、作用、预测，也就是这个蛋白质跟我的匹配，我们这篇文章就是我们的AI可以预测这个靶标和里面的关系预测，我们的文章牛，牛在哪儿？意思是我们质量高，做好了以后，下面人家找不到的小分子，我们找到了，这个不具体讲。接下来我讲的是筛选药，我们BIOTECH上面找到筛选的药。还有是新冠病毒的S蛋白和ACE2蛋白质，我们用8888个小分子库，进入以后，经过我们的筛选以后减成5个，最后一个一个层次，每个软件层次减少，什么叫减少呢？有没有紧密，紧密了，我们放进去。有没有稳定性？什么叫稳定性？就是它的能量很低，稳定很好，放进去，能量很高，稳定性不好就抛弃，最后找到5个。5个以后就做生物试验，两个红的是最后成功了，就是生物试验告诉我们这两个紧密合作，也就是说AI起的作用是原来8888个要做几年，要花费几亿才能找到这两个，现在AI马上找到5个，做出两个就成功，这个就是我们要做的工作。

下面我来讲讲小分子问题，我们知道假如说这是一个Chat GPT，诗歌进去产生新的诗歌，同样的内容呢？想想别人的小分子已经找到了，癌症有关小分子，我把它打乱，把它小分子弄成一段一段小的，把它输入进去以后产生新的小分子，新的小分子有可能是更好的药，李白的诗歌进去产生诗歌，当然有可能是臭的诗歌，比他差，当然也是一个新型的诗歌，也不错。我们的药也是一样，老的进去打乱产生新的药，这就是小分子设计的概念。这个工作我们在2021年做了，在2022年发表了文章，是在Chat GPT以前恩。大家可以看到这个关键就是小分子进去产生新的小分子，新的小分子也有可能产生新的药，所以我们用了三个概念，三篇文章，这三篇文章都是2022年发表的，意味着Chat GPT还没火，我们用AIGC，人工智能产生内容，我们已经产生新药，设计药。设计药什么意思呢？这个概念就是把老药打进去以后，我们始终在那儿转，产生新的小分子，产生一万个新的小分子，很可能都是旧的，但是这一万个其中有两个跟靶标契合，我们就成功了。也就是李白的诗歌进去了，产生一万个诗歌，但是有一个诗歌王族喜欢，这个诗歌比李白更好，有一个诗歌李总认为更好，就够了，我们的靶标无非就是有一个诗歌，有一个小分子跟靶标匹配就行了。我们最后发现有有的小分子产生确实生物试验还是不错，就是匹配得很好。当然一个药匹配只是万里长征的第一步，最后还要毒性等等，还要很多的系统做。

下面是多肽药和小分子不一样，它是比小分子大一点的药，我们也可以把它一段一段放进去，就像诗歌把它弄成一个一个词汇，词汇弄进去打乱之后产生新的词汇，就是新的诗歌。以后元宇宙可以让我们所有的体外实验、动物实验、临床实验用数字来做，也许能更好。所以今天我讲的人工智能生成内容就是用在医疗上，第一个我产生的文本比Chat GPT有可能质量高，但是计算量少得多，因为一百篇，当然今后有一千篇跟自闭症有关的输入。Chat GPT是输入所有的东西，我是一百篇好的文章。第二是内容生成，我进来是旧的小分子，我产生一个新的小分子，有可能产生新的药，药库里面有四万种药，我产生一个新的小分子，有可能跟靶标匹配。

这就是我讲的内容，谢谢大家。