文献综述
课题研究现状以及趋势:
随着网络流媒体技术以及社会化网络的发展和大数据时代的到来,越来越多的音频信息出现在互联网中,在给人们的生活娱乐带来便利的同时,也对其存储和管理增加了难度。大量重复、冗余的数据对音频数据库的存储空间造成巨大浪费的同时,也增加了数据库维护、数据分类和检索的难度。如何识别出重复冗余的音频数据、对音频数据库进行有效维护以及在海量音频数据中快速有效地进行检索成为当前信息检索领域的一个研究热点与难点。木课题首先对音频指纹检索技术的商业前景以及研究现状进行了详细介绍,说明了该技术的优点以及研究的必要性。该技术是基于内容的音频检索技术的一种,与传统基于文本的检索技术相比,它的优势在于信息检索不再依赖于人工标注的标签和关键字,而是使用音频本身的时间、频率率、振幅、能量等多个维度的特征进行检索,在减少人力的同时,提高了检索的准确性和效率。然后对Echoprint、Chromaprint、Philips等几种现有的音频指纹检索技术进行了研究比较,并在现有国内外算法和技术成果的基础上,提出了一种基于FFT的哈希指纹提取算法和基于阈值的固定间隔抽样的哈希检索算法,使得提取算法在保持鲁棒性和抗噪性的同时,提高了检索算法的准确性以及效率。同对音频指纹数据进行了优化以缩短指纹的长度、提高检索的效率并设计了几种基于Hash表的存储结构,出于对存储空间的占用以及检索效率的综合考虑,最终选择了基于动态数组的Hash表作为指纹在内存中存储的数据结构。最后对Hadoop、Storm、Spark大数据平台进行了分析比较,并在此基础上提出了音频指纹的序列化分布式存储方案,提高了算法的并发性,进而构建了 一套Spark大数据平台下的高并发、高性能的音频信息分布式存储与检索系统,对音频指纹检索技术的发展和实际应用具有指导意义。
音乐识别是音频指纹技术最原始和最广泛的应用,目前已经出现了一些实际运行的商业产品。2004年美国Gracenote Inc与荷兰皇家菲利普研究院(Philips Research) 共同开发了可通过手机使用的乐曲识别软件“Gracenote Mobile”,它结合了菲利普音频指纹识别技术和Gracenote的“波形指纹信息数据库”。例如, 当用户希望知道所听乐曲的名字及其艺术家姓名时,可以用手机拨通Gracenote Mobile的服务电话,通过手机收集周围的声音向服务器传输5~10秒钟的乐曲。服务器根据发过来的部分乐曲进行识别处理后,通过短信息向用户手机发送找到的乐曲名、艺术家名及一些图象信息。西班牙移动通信运营商Amena公司也采用Philips 的音频指纹技术提供一种称为Musiwave的音乐识别服务。英国Shazam娱乐有限公司从2002年8月份也开始提供此类服务,但基于不同的音频指纹技术。在中国,北京酷我科技有限公司应用其音频指纹技术实现歌曲的精确匹配和识别,并建立了一套大型音频指纹数据库系统,为广大互联网网民提供音乐识别服务。开发的音乐识别软件名称是“酷我MP3伴侣”,它能根据音乐的旋律准确识别歌曲并提供歌名、歌手、专辑名、歌词等信息。识别后的歌曲无论在音乐播放软件还是便携式MP3播放器中都会显示正确的信息。一个音频指纹系统通常包括两个部分:即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的比对算法.当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,然后和数据库中存储的大量音频指纹相比对从而进行识别.一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本.若识别到对应的原始指纹,则可提取出相应的元数据信息返回给用户。
虽然当前的音频指纹系统达到了很高的识别程度,但是在很多场合,比如音乐家现场演奏的歌曲可能会和数据库中的原始版本存在很大的声学差异,多数情况下无法识别, 只利用声音信号的统计特性是造成这种情况的原因。相反人耳具有非凡的识别能力,比如在电视伴音的混扰下仍然能够识别出邻居演奏的乐器声,这是目前数据驱动的音频识别方法所无法达到的。人们尝试开发基于高级语义特征的音频指纹算法,比如标音法试图发现音频里的音符并产生相应的乐谱。但这些算法目前并不成功,鲁棒性不高,并且性能很差,主要原因在于不同的人听音乐的习惯不同。作者试图发现一种模仿人类听觉能力的方法:即不考虑声学特性来识别同一首歌曲,而试图提取一些音乐的符号参数和结构关系,并给出了一个模型。数字音频指纹技术提取基于内容的鲁棒、紧致数字签名,可以有效地用于音乐自动识别。虽然现有算法在指纹鲁棒性识别、快速检索、增强指纹区分能力上取得了很多重要进展,但是与人耳识别能力相比仍然存在巨大的提高空间。如何在强外界噪声环境下进行准确识别,以及如何识别同一音乐的不同版本都是当前面临的研究难题。此外,如何在MPEG压缩域直接进行鲁棒、快速、准确的音乐识别也是一个非常有吸引力的研究方向。
课题研究价值:
使用音频指纹而不是音频数据本身进行检索具有以下三方面好处:
1、因为指纹数据量相对比较小,可以大大减少对硬盘及内存的存储要求。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。