2023-04-21 信息来源:校报记者团 文字:陶致桦 景月琦 罗晶晶
近日,山西大学智能信息处理研究所研究团队于《ieee transactions on pattern analysis and machine intelligence》期刊发表了题为《evaluating classification model against bayes error rate》的论文。山西大学计算机与信息技术学院的博士研究生陈庆强为该论文的第一作者,通讯作者为曹付元教授和梁吉业教授,合作者为博士生邢颖。该研究以评估分类模型为目的,针对贝叶斯错误率难以被估计的关键科学问题开展准确的贝叶斯错误率估计研究。
如何精准估计贝叶斯错误率是机器学习中的一个研究难题。贝叶斯错误率是分类器所能达到的最低错误率,可为模型性能提升提供理论上的参照标准。近年来,基于散度估计贝叶斯错误率的方法受到了较多的关注,但这些方法只能提供贝叶斯错误率的上下界,并不能为模型性能提升提供精准的参照。针对在精准计算贝叶斯错误率时面临的挑战,该研究提出了一种基于贝叶斯决策理论和渗透理论的贝叶斯错误率计算方法。
我们专访了论文第一作者——2019级计算机科学与技术专业博士研究生陈庆强。他担任学院第四党支部组织委员,曾获一等奖学金、优秀共产党员等荣誉。
百般打磨,功不唐捐
贝叶斯错误率是指在给定的特征空间下,分类器能够达到的最小错误率。它在机器学习领域中发挥着重要的指导作用。然而,在实际问题中估计贝叶斯错误率是一个公认的难题。关于贝叶斯错误率估计问题的研究已经持续了近五十年,尽管研究者们一直在尝试突破这一难题,但进展甚微。至于为何选择估计贝叶斯错误率作为研究课题,还要追溯到陈庆强刚读博士的时候。读博伊始,他准备从模式分类这一研究领域中选择一个研究课题,但一直找不到一个合适的切入点。在与导师曹付元教授交流后,曹老师给了他一些指导和建议。曹老师说:“博士阶段的研究和硕士阶段不同,博士阶段要选择一个既具有前瞻性又具有挑战性的课题进行研究。在选题的时候,要从问题本质出发来寻找研究的切入点”。怀揣这几条良言,他开启了选题之旅。饱经思索之后,他猛然想到:对于一个分类任务,现有研究大多致力于提升分类模型在该任务上的分类精度,那么提升的上限在哪里呢?如果把分类精度的上限计算出来,那是不是就可以反过来指导分类模型的研究呢?他将这一想法和曹老师进行了讨论,曹老师觉得这一想法有一定的研究价值。后来,在一次偶然的报告会上,曹老师让他将这一想法和学科带头人梁吉业教授进行了汇报,梁老师也认为这是一个有意义的工作,鼓励他继续做下去。在得到老师们的认可后,他开始翻阅大量参考文献,发现所要研究的问题即为贝叶斯错误率估计问题。然而,估计贝叶斯错误率需要精确估计复杂的类条件概率密度函数,而这在实际问题中这几乎是不可能的。因此,计算贝叶斯错误率一直被学术界认为是一大难题。虽然早在五十年前就已经有相关工作进行了尝试,但当时的方法误差较大,无法完全解决贝叶斯错误率估计难的问题。而且,近年来关于贝叶斯误差率估计的研究也寥寥无几,学术界似乎已被这一难题束缚住了。他一度感到,这是一个不可逾越的难题,内心不免打起了退堂鼓。在这个关键时刻,曹老师的一句话让他坚定了信念。曹老师说:“只有在面对挑战时,才能发掘自己内心的潜能,并不断创造出属于自己的辉煌”。在坚定信念之后,他慢慢地找到了研究热情。在经过几个月的研究后,他想到:既然直接估计类条件概率是困难的,那是不是可以绕开估计类条件概率这一难题,通过一种等价关系将贝叶斯错误率估计问题转换成一个相对简单的问题呢?基于这一思路,他构造了一种从噪声数据处理角度来估计贝叶斯错误率的方法,并通过实验验证了方法的可行性。然而,一个经得起考验的方法必须有理论基础做支撑,不然就无法确保其正确性、有效性和稳定性。为了夯实理论基础,他花费了将近大半年的时间来查阅与机器学习和统计学习理论相关的文献,但一直找不到合适的理论来证明方法的合理性,这使他再次陷入迷茫之中。冷静下来之后,他觉得既然在本学科中找不到yb体育app官方下载的解决方案,那就在其他领域中寻找类似的答案。为此,他查阅了与物理学、流体力学以及随机过程等相关的文献。功夫不负有心人,最终,他通过随机环境中聚簇现象理论证明了方法的有效性。然而,科研的道路总是崎岖不平。在实验过程中,他突然发现所提的方法在处理大规模数据时计算成本太高,难以应对大数据时代下的贝叶斯错误率估计问题。为了解决这一难题,他又开启了降低算法时间复杂度的征程。然而,由于受算法设计机制的限制,在很长时间内都没有把时间复杂度降下来,这使他的研究再次陷入了困境。痛定思痛,他决定摒弃现有的算法设计思路,对算法的架构进行重新设计。在经历了数月的研究后,他最终提出了一种更为高效的贝叶斯错误率估计方式,算法的时间复杂度得到了显著降低。当他看到算法可以在很短的时间内就可以处理百万级别的数据时,他感到一切的努力都是值得的。毅力与恒心的付出,使得这篇文章在不断的完善和修改后,最终于2023年1月19日被顶级期刊ieee模式分析与机器智能汇刊(tpami)录用。
图为论文中的算法示意图
信实创新,感慨良多
在人生的旅途中,每个人都需要一位指引人生方向的引路人。在学术研究领域,导师就是学生们的引路人。他们不仅是知识的传授者,更是学生们的良师益友。他们用自己的智慧和经验,为学生们开拓了前进的道路。在硕博期间,陈庆强深感自己是幸运的,在追求学术的道路上,得到了多位充满智慧的导师的悉心指导和关怀。曹付元、王文剑、梁吉业等教授的言传身教,对他的成长和发展产生了深远的影响。曹付元教授是他的博士生导师。曹老师注重细节、追求卓越的治学态度,让他对科学研究的本质有了更深刻的认识。“这篇文章历经了几十轮的修改,每一轮修改,曹老师都会耐心指导,详细解说每一处改动的必要性和益处。也正是这些精雕细琢,才让我的写作技巧不断提高。”陈庆强说道。硕士生导师王文剑教授则是他进入学术大门的引路人。在王文剑教授的悉心帮助下,陈庆强对学术、科研的认知不断加深,并坚定了读博的信心。在选择读博的路上,王文剑教授严谨、扎实的治学理念也为他现在的研究奠定了坚实的基础。教育是要去启迪而不是灌输,是要“点燃一把火”。在陈庆强的研究工作中,梁吉业教授的悉心指导就是点燃这把“火”,让“火”烧得更旺的关键。“如果没有梁老师对这个工作的大力支持,这篇文章可能不会有今天这个结果。”陈庆强如是说,“在这段求学路上,导师们的关怀和指导让我更加坚定了自己的学术信仰和追求。他们的帮助和鼓励,将永远铭刻在我的心中,成为我学术生涯中最宝贵的财富。”
科研是一条漫长而曲折的道路,我们需要极大的耐心和不懈的坚持。但除了这些,我们还需要一种发散性思维来发掘问题背后的多样性机理。这一切在陈庆强的亲身经历中得到了淋漓尽致的体现。在第一次投稿后,陈庆强接到了期刊的拒稿意见,其中一个审稿人指出文章中所提出的算法缺乏理论基础而不能让人信服。这个消息让他既沮丧又欣喜,沮丧的是他的工作再次被拒稿,欣喜的是他的方法似乎得到了审稿人的认可。为了增加理论基础,他不断地翻阅关于机器学习理论方面的论文与书籍,但却一直没有太多的收获。每一次的失望都像是一只无情的蚕虫,啃噬着他仅存的欣喜,让他的内心渐渐沉重起来。在那段时间里,他的心理承受了极大的压力,常常彻夜难眠。在被困扰了大半年后,他意识到如果完全从机器学习领域入手,可能无法找到合适的答案,所以他开始发散自己的思维,试图通过一些物理现象来解释方法的可行性。在某一天深夜,他突然意识到可以通过自然界中的渗透现象来解释方法的有效性。基于这一灵感,他查阅了大量关于渗透现象的文章,最终在随机环境中聚簇现象理论的指引下,他证明了所提方法的有效性。
陈庆强对有意愿从事科研工作的学弟学妹们说:“时下风头正劲的方向未必就是康庄大道,备受冷落的研究领域也未尝毫无机会。要发挥主观能动性,审慎思考,要选择一个基础性、具有前瞻性的研究领域,方能掀起革命性的创新浪潮。”
紧跟时事,面向未来
近期,《流浪地球2》大火,影片中出现的智能量子计算机备受关注,对于这种拥有自我意识、自我迭代、自我更新能力的人工智能机器人,网上掀起热烈的讨论:moss是否会在不久的将来成为现实?在现实中,关于chatgpt的词条屡上热搜,chatgpt不仅能写文章、敲代码,甚至可以与人类进行对话,它的横空出世,更是激起了人们对于未来人工智能发展的讨论。
在陈庆强看来,虽然人工智能技术在某些特定领域的任务上已经能够超越人类,但在开放环境中,人工智能的表现仍然有限。人工智能的学习和推理是基于预先设定好的模型和规则进行的,而人类的学习能力则是基于自主探索和实践而获得的,可以从经验中不断学习和改进。因此,人工智能很难达到零失误的程度。尽管人工智能的准确性在不断提高,但它仍然存在一些局限性,例如chatgpt对于新领域的处理能力相对较弱。在开放环境中,人工智能需要处理大量的未知信息和不可预测的情况,这可能会导致错误的决策或结果。此外,人工智能还受到数据偏差、算法失效等问题的影响,这些问题可能导致其表现不稳定或出现错误。因此,在开放环境中,人工智能技术可能很难达到零失误的程度。然而,人工智能的应用仍然具有巨大的潜力。在未来,我们或许可以通过人工智能与人类相互协作,将人类的智慧与人工智能的计算能力结合起来,从而实现更为精准、高效和智能的决策和服务。
谈到贝叶斯错误率对于未来人工智能发展的影响,陈庆强表示,贝叶斯错误率对于未来人工智能的发展有一定的促进作用。我们可以利用贝叶斯错误率来评估和改进人工智能模型的性能,从而提高人工智能的智能水平。然而,人工智能技术会以怎样的方式发展仍然是一个未知数。虽然贝叶斯错误率可以帮助我们评估机器学习模型的性能,但是在未来人工智能会发展到怎样的地步仍然是一个未知数。这我们需要不断地探索和研究,以便更好地理解人工智能的发展。此外,贝叶斯错误率的魅力不仅仅在于它在计算机领域的应用,更在于它对误差的阐述——“正因为有不确定性,未来才有无限的可能”,这一句话提醒我们,在未来的发展过程中,我们需要有开放的心态和创新的精神。只有不断地探索和尝试,才能够实现人工智能技术的不断进步和发展。