加载中…
个人资料
微软亚洲研究院
微软亚洲研究院 新浪机构认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:5,347,148
  • 关注人气:10,911
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
正文 字体大小:

自然用户界面在微软技术节大放异彩

(2011-03-10 09:32:32)
标签:

微软亚洲研究院

msra

微软技术节

科技创新

it

自然用户界面

分类: 技术

自然用户界面在微软技术节大放异彩

2011年微软研究院年度最大的技术盛宴——微软技术节 (TechFest2011) 于39日在美国总部雷德蒙市隆重开幕,来自全球六大研究院的近150个项目将在此次盛会上得以展示,今年的技术趋势主要围绕自然用户界面(Natural User Interface)和主动代理计算(Computers that act on your behalf)这两大领域,其中,微软亚洲研究院的“能说会动的3D真人头像” (3-D, Photo-Real Talking Head)和“所握即所得的数字笔”(Recognizing Pen Grips for Natural UI)正是基于自然用户界面技术的典型项目,也是本次微软技术节的亮点之一。下面让我们一睹为快,看看这次微软技术节有哪些精彩项目吧!

 

能说会动的3D真人头像 (3-D, Photo-Real Talking Head)

此研究展示了一个高写实、能说会动的3D真人头像,它的头部动作及面部表情也可通过调整相应的参数来自由控制。这项技术是微软亚洲研究院语音组多年研究成果积累而成。它将我们先前开发的2D真人说话头像扩展到3D。我们先使用重构算法,将2D视频逐帧转换为3D训练数据库。高维的超特征向量,其中包括了三个子分量:头部的3D几何模型、面部纹理和语音特征,用以训练隐马可夫统计参数模型(HMM)。训练成的HMM模型可以合成头部运动,变化面部纹理以及根据不同轨迹运动。能说会动的3D真人头像的几何模型可控制头部的刚体运动。同时,面部的表情和发音器官运动轨迹则可借助动态纹理的2D图像序列而自然合成。新的能说会动的3D真人头像实际应用品目繁多,诸如人机界面的自然互动、多模态媒体的网络游戏和不同语言之间的口语互译等等。自然用户界面在微软技术节大放异彩

 

“所握即所得的数字笔”(Recognizing Pen Grips for Natural UI)

通过在数字笔上附加多点触摸和方向感应,我们可以识别用户握持笔的方式。在现实世界中,人们握持钢笔、画笔、素描铅笔、刀和圆规等工具的方法各不相同——我们使用户可以通过变换握持数字笔的方式来实现不同功能之间的切换,正如使用这些实际工具一样自然。

 自然用户界面在微软技术节大放异彩

 

手机摄影:拍摄、处理和查看Mobile Photography: Capture, Process, and View

移动电话已经成为最流行的消费数码相机。虽然其中的好处相当明显,但确实也存在挑战。用户拍摄高质量照片并不是一件容易的事。图像处理工具可以在拍摄后改善照片质量,但很少有适合于手机的图像处理工具。我们提出的基于手机并与云服务紧密结合的图像增强工具,将沉重地计算负荷都交给了云,实现了更快速的处理,而不会影响手机的性能。

 

ShadowDraw交互型素描助手ShadowDraw: Interactive Sketching Helper

自然用户界面在微软技术节大放异彩您想增长绘制草图的技艺吗?ShadowDraw就是这样一款交互式写意画助手。它会自动识别您想画的东西,并提出笔划建议,供您参考。当您添加新笔画时,ShadowDraw会实时修正自己的模型,并提供新的笔画建议。ShadowDraw拥有一个大规模数据库,含有用户有可能会画出的实物图像。与用户当前笔画相匹配的从任何图像都会被合并计算显示作为“影子画笔”的建议。用户可以描摹这些笔画,以改善绘图质量。

 

MirageBlocks

自然用户界面在微软技术节大放异彩这项研究展示了三维投影的使用,并结合Kinect深度相机捕捉和显示3D对象。演示中使用的任何有形物体都可以在转瞬间实现数字化,并以3D方式展示。例如,我们展示一个简单的模型应用,在其中,通过对几只木块逐个加以数字化并堆砌的方法来构建复杂的三维模型。这种设置也可以在远距离呈现方案中使用,其中合作方桌面上的那些真实的东西都变成了您桌面上的虚拟三维投影,反之亦然。我们的项目展示了如何将对真实世界物理行为模拟用于操控虚拟3D对象。研究采用了一台3D投影机和主动式快门眼镜。

这项研究还展示了Holoflector,这是一种独特的互动式强化现实的镜子。图形被正确地叠加在您自己的镜像上,实现了您以前从未见过的强化现实体验。我们还充分利用Kinect和Windows Phone的综合能力,推断出您手机所处的位置,并渲染出一些看似漂浮在您手机上的图形。

 

使用普通照相机进行3D扫描3-D Scanning with a Regular Camera
自然用户界面在微软技术节大放异彩在消费品市场上,3D电视的风头日盛,但3D内容制作则基本上仍然是一项专业活。我们的研究展示了一个易于使用的系统,用于创建逼真、基于3D图像的模型——您只要拿着手机、照相机或摄像机,围绕着您感兴趣的对象走上一圈即可。描绘的对象可能是您的定制款汽车或摩托车、一块婚礼蛋糕、一件礼服、一种罕见乐器,或一件手工制作的艺术品。我们的系统使用3D立体匹配技术,结合基于图像的建模和渲染,创建一个栩栩如生的模型,而您只需在屏幕上、平板电脑或移动设备屏幕上旋转它即可浏览。

 

交互式信息可视化Interactive Information Visualizations

我们的研究展示了一种新颖的交互式可视化技术,帮助人们理解海量数据:iSketchVis将人们熟知并具有协作性的白板界面功能用于计算机辅助数据可视化的精准数据勘探能力。人们可以直观地绘制图表和浏览数据,既可以使用基于手写笔的平板电脑,也可以以协作方式使用白板。 NetCharts允许人们能够分析包含多种属性、多种实体类型的海量数据集。它使用简单的图表来显示并汇总数据。人们可以通过拖动的方式对这些汇总数据进行浏览,并创建新的图表。传统数据集是用欧拉(Euler)图示的方式以气泡形状呈现。本研究展示了两种技术,用于简化欧拉(Euler)图示。此外,我们还展示了LineSets,它使用单一、连续的曲线来表示数据集。它简化了数据集交叉,并实现了多重互动。这是一个用于进行社交媒体的实时主题权威搜索的工具。

 

针对Windows Phone 7的联系人模糊搜索Fuzzy Contact Search for Windows Phone 7

自然用户界面在微软技术节大放异彩移动电话用户一般通过在联系人列表中输入联系人姓名或电子邮件地址的方法来搜索。用户经常会犯各种类型的错误,包括语音、字符颠倒、误删除和替换错误等,而且在使用移动电话时,输入机制的局限让这样的情况更容易发生。我们提出了一个联系人模糊搜索功能,即便用户在查询时出现失误时,也能帮助他们找到正确的联系人。该功能以全新的基于哈希(hashing)的拼写校正技术为基础(由微软印度研究院开发)。我们支持包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、波兰语、荷兰语、日语、俄语、阿拉伯语、希伯来语、中文、韩文和印地文等在内的多国语言。我们设计了一个Windows Phone 7应用程序来展示联系人模糊搜索。该解决方案是轻量级的,可以用于任何客户方联系人搜索情境中使用。

富交互型叙事
Rich Interactive Narratives

自然用户界面在微软技术节大放异彩可视化技术的最新发展使许多潜在的丰富视觉应用成为可能,并且带动了大型复杂数据集的探索的发展。其中的范例包括GigaPan.org、Photosynth.net、PivotViewer和全球天文望远镜。同时,叙事仍然是创建情感型内容(例如电影或小说)与传授复杂知识(如教科书或学术期刊)的主要形式。富交互型叙事项目旨在把多媒体故事讲述中富有吸引力并久经考验的叙事元素与最新一代信息可视化和信息探索技术中信息量大、探索性强的特征相结合。我们解决这个问题的思路并不是设计一次性应用、互联网站点或专用框架,而是把它作为一个超越具体平台或技术的数据模型。它很有可能实现全新的富交互性的内容创建、转化、扩增和呈现的方式。

 

根据入住情况预测控制家居供暖Controlling Home Heating with Occupancy Prediction

自然用户界面在微软技术节大放异彩家居供暖所消耗的能量超过了任何其他形式的住宅能源支出,因此提升家居供暖效率成为节省开支和保护环境的重要目标。我们设计了一个家居供暖系统,名为“预热”,能够根据您在家中停留的时间自动调节调温器。“预热”的目的在于减少恒温器的工作时间,而不至于影响家庭成员的舒适度。“预热”构建了一个预测家中何时有人居住的模型,并使用该模型优化家居供暖的时间,节约能源的同时又不减弱舒适度。此系统包含了无线网络和被动红外式居住情况感应器;温度传感器;分别针对美式风冷系统、英式注水散热器和地采暖设备设计的加热系统控制器;基于PC的控制软件通过机器学习,根据家居的当前和既往入住情况来预测工作时间表。

 

恩波里亚项目:个性化新闻Project Emporia: Personalized News

Emporia项目是一款个性化新闻阅读器,每日提供从社会新闻供稿中选取的25万篇文章。它结合了最先进的推荐系统(Matchbox)和自动内容分类系统(ClickPredict),配合使用了“增加类似文章”和“减少类似文章”选项,使用户能够根据类别或自定义关键字来微调他们自己的新闻频道。它既可以用作移动客户端,也可以在Web上使用

 

针对企业的社会新闻搜索Social News Search for Companies

针对企业的社会新闻搜索服务利用社会公共数据,为企业建立很好的新闻门户网站。网页的创建可以经由众包(crowdsource)的方式来提高质量。我们解决了两个问题:如何利用社交媒体,为任何给定企业提供丰富、分主题、可搜索、实时的新闻看板;以及我们能否建立某种环境,允许特定企业网页的内容来源创建由用户自己完成而不是由专业编辑完成。

 

视频人脸识别Face Recognition in Video

视频人脸识别是一项新兴技术,它将会对电视、游戏和通讯等领域的用户体验产生很大影响。不久的将来,电视机或Xbox将能够识别客厅里的人,家庭录像将自动加注并能够搜索,而电视观众则能够指一下屏幕上的人像便获得相关陌生演员、运动员或歌手的信息。我们的研究展示了iLabs开发的面部识别技术。这项技术包括人脸检测、识别和跟踪的新算法。这项研究展示了半自动视频标签技术,这是一种全新的电视体验,使用视频中的人脸作为超级链接,获取更多信息,并自动识别坐在电视机、Xbox或计算机前的人。

 

高性能癌症筛查(High-Performance Cancer Screening

自然用户界面在微软技术节大放异彩我们的研究展示了一套基于GPU的高性能3D渲染技术,被用于进行直肠癌筛检。这套VCViewer提供了一个基于手势的用户界面,用于对由计算机断层扫描(CT)所生成的三维图像进行浏览和分析,用于直肠癌筛检。这套查看器得到了服务器端海量渲染引擎(微软研究院开发)的支持。我们的研究展示了这台引擎在真实世界一次挽救生命的医学应用过程。此外,我们还将展示基于CPU的高性能图像处理技术,其用于对CT结肠镜图像进行加工,以便观察诊断。在微软开发者与平台推广、微软研究院以及英特尔的联合努力下,这套处理设备于马萨诸塞州总医院3D影像实验室开发成功,用于诊疗和数据并行处理。

 

Excel上的云数据分析(Cloud Data Analytics from Excel

Excel是一个成熟的数据收集和数据分析工具,广泛用于商务、技术计算和学术研究。Excel提供了富有吸引力的用户界面、方便的数据录入方式,以及真正具备互动性的假设分析。但Excel中的数据是不容易被发现的,因此不利于促进数据共享。此外,Excel不提供针对大规模分析的可扩展计算。越来越多的研究人员在利用Excel分析海量数据时,不容易分析浏览数据、寻找相关数据集或调用外部模型。我们的项目展示了如何借助研究这座桥梁,将云存储和可扩展性分析无缝地整合到Excel中。任何分析人员都可以使用我们的工具,从云中发现和导入数据,调用云规模的数据分析,进而从大量数据中提取信息、调用模型,然后再把数据存储到云中——而这一切都借助研究者们早已熟知的电子表格Excel来实现。

                                                                                              

欢迎关注微软亚洲研究院微博http://t.sina.com.cn/msra 

 

相关阅读

创新是赚后天的钱

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有