欢迎进入科技大市场!
包头科技成果
包头科技成果
您现在的位置:首页 > 科技资源 > 科技成果 > 包头科技成果 > 详细
手机平面媒体搜索与推荐系统
一、基本信息
标题 手机平面媒体搜索与推荐系统 单位 中国科学院计算技术研究所
电话 行业类别 信息技术
二、内容信息

项目概况 :

当今世界是一个读图时代,图片已成为主要的信息载体之一。最新的统计数据表示,人们在使用搜索引擎时,搜索的对象50%是图像和视频等视觉信息。而在互联网电子商务中,图片更是商品信息传递的主要媒介,很大程度上决定了购物成交行为。 这一切决定了基于视觉内容的图像搜索,必将取代当前的文本搜索,成为下一代搜索引擎的发展方向。

传统的图像内容分析与搜索技术主要是在PC机平台上开发的,随着手机、ipad等移动设备软硬件功能的不断完善,以及网络带宽的迅速增长,移动视觉搜索(Mobile Visual Search)已成为应用和研究热点。

移动视觉搜索正适逢崛起的契机,今天我们已经可以借助广泛的应用程序,使用手机摄像头扫描条形码来对比商品的价格信息。但是这样的应用有一个问题,那就是摄像头只能扫描有条形码和 QR 代码的物品,应用受到很大的局限性。我们的计划是跳过条形码这个中间人,直接搜索真实的物品。视觉搜索可以支持用户将摄像头对准任何物品,如建筑物、汽车或水壶,获得搜索结果。有了视觉搜索,整个世界将变成一个商场。将摄像头对准一辆停放在停车场的汽车,手机可告诉您此车是否要出售、价格、里程数、年检时间或者告诉您可以买到此型号汽车的最近的车库。将摄像头指向商店中的书籍、水壶等,您就可以获得网上商品最便宜的价格。总而言之,我们希望通过手机拍摄图像的视觉内容匹配,建立起二维世界与三维世界、虚拟世界与现实世界,以及已知世界与未知世界之间的桥梁。

项目功能

我们的系统名为“手机平面媒体搜索与推荐系统”,主要目的是为报纸、杂志等平面媒体的阅读用户,提供根据手机拍摄图像匹配得到的相关信息推荐,从而更加方便、快捷地获得更加丰富、立体的阅读体验。此外,本系统不仅免去了用户输入文本的繁琐,更解决了很多情况下无法用文字准确描述图像内容的尴尬,使搜索结果更加贴近用户的检索需求。

当用户在浏览某报刊或杂志等平面媒体时,如果对“天宫一号成功发射”这条新闻的相关视频很感兴趣,就可以点击手机上我们的系统图标,激活该系统后,将手机拍摄镜头对准该新闻图片进行拍摄。

点击“确定”后,系统将拍摄得到的图像通过网络传给后台的服务器,在服务器端进行视觉特征提取,并与海量库特征进行快速匹配。

得到匹配结果后,根据对应库图像的关键词和视觉特征相似度,系统将推荐一个相关结果的list返回给手机用户,包括与“天宫一号成功发射”这条新闻相关的网络图像、新闻视频或者blog、微博中的网友评论等信息。用户可以选择感兴趣的进行点击和观看。     

而当用户感兴趣的是杂志上某种款式的衣服,想了解其价格和网络卖家时,也可以通过该系统进行手机图像拍摄,得到淘宝上有相似衣服售卖的卖家信息。从而得到价格比对信息,或者评价信息等等。 也就是说, 相对而言,移动视觉搜索是一个高技术门槛的应用方向,具有广阔的市场需求和应用前景。 本次参赛系统展示的手机平面媒体搜索与推荐功能仅仅是我们核心技术可能的应用模式之一。在实际应用中,我们的方法能够为更多应用和商业模式提供关键技术支持。

技术创新点:

移动视觉搜索的核心技术是计算机视觉和图像内容分析与检索技术。关键问题在于视觉特征提取的有效性、海量特征匹配的准确性和系统整体的高效性。针对这些核心问题,我们从5个关键技术入手进行了研究,并提出了一系列解决方案。

本系统基于计算机视觉和图像内容分析等关键技术,并结合手机这类特殊的移动客户端,针对性地进行了以下技术创新:

(1)针对手机拍摄图像经常遇到的模糊、噪声、亮度和视角变化等问题,提出了一种基于样例自动扩展的稳定局部特征挖掘方法,保证特征的鲁棒性;

(2)针对图像背景干扰问题,提出了一种融合空域显著性与频域显著性的分析方法,快速、准确地提取图像中显著的主体内容;

 (3)针对海量高维特征索引在数据分布不均衡时性能下降的问题,提出了融合自适应聚类和均衡化哈希表的索引方法,优化高维索引性能;

 (4)针对单个局部特征区分力有限的问题,通过局部特征邻近特征的几何形变一致性来提高单个特征的区分力,去除伪匹配;

 (5)针对通用CPU平台计算效率有限的问题,挖掘算法的并行化能力、对特征提取和匹配方法进行重新设计和优化,实现了硬件平台上的算法加速。

以上介绍的是搜索系统中的关键技术。作为本系统的另一个关键部分,推荐技术也是提高用户体验的关键之一。

本系统采用的推荐方法主要基于两个关键技术:(1)跨媒体关联与推荐; (2)个性化搜索与推荐。

跨媒体关联与推荐技术:虽然本系统主要依靠的是在线的图像内容相似性匹配,但是在离线的信息整理与关联过程中,数据库中相关的图像、文本、视频,以及GPS和声音等跨媒体信息可以通过相似性关联进行关系融合,得到更丰富的扩展结果。例如光靠图像相似度,难以建立“苹果”与“乔布斯”的关系,但是通过文本关联就能够得到更为丰富的关联系统,为用户提供更加丰富的查询结果。

个性化搜索与推荐技术。当今的用户往往在系统性能之外,还追求个性化定制的方便与快捷。所以在推荐时,可以基于用户主动定制、基于用户长期检索行为的自动推荐、大众公共热点推送和用户好友推荐等方法,提供个性化搜索与推荐结果。

关键技术水平

申请者现任中国科学院计算所一级助理研究员,多媒体计算课题组图像检索组组长,领导小组主要从事图像内容分析与检索技术、以及算法并行加速方法的研究。该小组已经在图像拷贝检测技术、网络图像监管技术方面开展了大量的前期研究工作。

该小组近几年来在国家自然科学基金项目、国家863 计划项目、国家973 项目的支持下一直从事图像视频分析与检索技术的研究,在本领域顶级期刊和国际会议上共发表论文近20篇,取得了多项重要的研究成果,这些为本项目的开展打下了扎实的基础。

该小组还参加了国家广电总局的网络视频监管系统的研发工作,为了该系统提供了基于样例的图像和视频检测核心技术。这些工作为本项目的开展奠定了很好的工作基础。

国际比赛成绩:申请者带领图像检索组于2008 年和2009 年两度参加了视频检索国际评测TRECVID (TREC Video Retrieval Evaluation) 的拷贝检测项目,在由法国研究院INRIA、日本NII、微软、IBM,以及清华、北大等国际顶级科研机构组成的众多参赛队伍中,取得了优异成绩。2008 年共有56 家单位报名,最终22 家单位提交结果;2009 年共有51 家单位报名参加检索任务评测,最终20 家单位提交结果。2008 年我们首次参加TRECVID 评测,在拷贝检测任务中,取得总成绩第三名的成绩;2009 年我们获得总成绩第一名,在各个单项中都名列前茅,并获邀作大会报告。

2009 年的TRECVID 国际视频拷贝检测大赛作为该方向最权威的评测平台,由美国国防部和美国国家技术标准局(NIST)联合主办。测试视频包括多种视频类型,总时长约400 小时;查询视频共1407 个,包含画中画、拼接裁剪等复杂篡改方式。比赛中采用NDCR(规范化检测代价)值作为检测性能衡量标准,是查全度和查准度在一定比例下的融合结果,值越小表明查全度和查准度同时达到高平衡。

合作状况:

已经与三星\中移动\中国专利局\雅昌艺术网等企业商谈合作事项, 部分已经达成合作意向。

市场化前景:

应用范围

移动视觉搜索能够为商品比价系统提供关键技术支持,比如当用户感兴趣的是大街上看到,或者杂志上某种款式的衣服,想了解其价格和网络卖家时,可以通过该系统进行手机图像拍摄,得到淘宝/当当上有相似衣服售卖的卖家信息。从而得到价格比对信息,或者评价信息等等。移动视觉搜索是一个高技术门槛的应用方向,具有广阔的市场需求和应用前景。 本次参赛系统展示的手机平面媒体搜索与推荐功能仅仅是我们核心技术可能的应用模式之一。在实际应用中,我们的方法能够为更多应用和商业模式提供关键技术支持。

用户黏度

一个成功的商业应用需要提高用户黏度来得到更为广泛的应用和推广。在本系统的实际应用场景中,提高用户黏度主要依赖于两个方面:用户获得的良好服务,和在产品使用过程中得到的实际收益。

1)服务 = 提供丰富而准确的扩展信息 + 提供搜索服务的个性化定制。

在服务方面,我们通过提供丰富而准确的扩展信息 和 搜索服务的个性化定制,使用户得到更好的用户体验,从而扩展客户群,挖掘客户价值。

2)收益 = 点击系统提供链接购买商品,即可获得优惠。

在用户收益方面,当用户使用本系统查询某商品,得到一系列商品价格信息和相关链接时,只要用户通过本系统提供的商品链接购买商品并付费成功,就能够得到折扣优惠或者返券优惠。

这样一来,用户通过使用本系统,不仅获得了其他产品中无法获得的良好的用户体验,得到了丰富的信息,而且还能获得实际的经济收益。用户黏度一定会得到提升,从而产生巨大的商机和潜在价值。

商业模式

在实际应用中,本系统将主要针对商标、商品外观等目标来建立图像信息库。用户在查询中,通过拍摄衣服或汽车的外观,得到商品介绍、用户评价、购买链接等丰富的商品信息。 

实现一定的用户规模后,即可联系相关商家,在手机信息展示页面上加入广告,并收取广告费用。

此外,当用户通过点击本系统提供的商家信息成功购买某商品时,可向商家收取一定的服务费用。

综上所述,通过移动视觉搜索技术,本系统能够为用户提供丰富而准确的商品信息搜索结果,并通过广告展示和商品分红中实现赢利,具有巨大的应用前景和商业价值。

预期效益

投资规模:预计300万元,主要用于团队建设、技术开发和硬件配置。

技术指标:十万图像规模的图像库上,达到0.2秒钟/每幅图像的匹配速度。查全率查准率均达到85%。

经济指标(万元):预计初期能够达到500万元。

合作方式:

一次性转让技术入股、技术入股加入门费。





三、附件下载

访客总数: 1155668
地址:包头市科技创新服务中心(科技馆办公区五楼) 邮编:014060 联系电话:0472-5235924
技术支持:内蒙古指南星科技有限公司 运维电话:18504721968