五千年(敝帚自珍)

主题:【原创】视频和游戏的结合 -- 东方射日

共:💬23 🌺49
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 【原创】视频和游戏的结合

现在游戏是个热门的东西,大大小小,各式各样的游戏层出不穷。

视频是另一个热点,国外youtube和国内的土豆,优库等,也是热闹非常。

视频和游戏的结合呢?我上网搜了下,好像视频游戏现在基本上集中在棋牌之类的,简单来讲就是普通的益智社区游戏和视频聊天的叠加,有没有其他方式呢?

这时候,我想到了Wii,Wii的推出之所以能风行一时,卖游戏机卖到断货,我想很重要的一点是Wii颠覆了人们平时玩游戏的概念,游戏不再是5个手指的运动,而可以是全身的运动。

Wii remote和相衍生的外设,至少让玩家的上半身动起来了。

点看全图

外链图片需谨慎,可能会被源头改

点看全图

外链图片需谨慎,可能会被源头改

Wii更聪明的是随后推出了Wii balance和配套的游戏Wii Fit,Wii Ski,Wii surf等。这样,玩家可以在游戏中体验到全身运动的乐趣。

更棒的是,有了这些设备和游戏,Wii可以宣传游戏不再是象以前人们想象的那种玩物丧志,有害健康的玩意,游戏也是可以用来健身的。这不但树立了游戏正面的形象,更重要的一点是这样的游戏将以前一批从来不玩游戏的人群,如老人,宅女等拉到了游戏机前面,而这批人正是最有闲的人群。

点看全图

外链图片需谨慎,可能会被源头改

那么我们在游戏中是否可以摆脱这些外设的限制呢?在这里我就想到了视频和游戏的结合。

视频现在实在是太普及了,一台电脑没有摄像头都不好意思叫电脑了。那么我们可否利用这摄像头作为唯一的输入设备呢?

技术上完全可以的,简单来讲,对于Wii类似的那种运动游戏,我们可以采用视频输入——图像识别——动作识别——角色运动;来达到类似的效果。

技术难度主要集中在中间的两个环节

1.图像识别的准确度和实时性:图像识别通常是通过灰度化,然后进行量化,二值化提取图像中的轮廓信息,然后将轮廓线条视为二维平面的函数,进行傅氏变换抽取特征信息。这个步骤需要大量的并行运算,对于游戏中要求的实时性有一定难度,不过现在随着显卡功能的提升,利用显卡的并行功能应该可以接近实时性的要求。具体的实现,一是需要更好的算法的研究,二是希望硬件功能的进一步提升。另外一个难度就是对于复杂背景的剔除,毕竟玩家在家里玩,背景很可能是变化而凌乱的。不过我想在起初的产品上要求玩家提供一个相对简单的背景应该是可以接受的。

2.动作识别的准确性:基于上述提取的轮廓信息,我们进行动作识别,这里有一个问题就是摄像头捕捉到的是二维信息没有深度的信息,比如你向前击球,在摄像头识别出来很可能识别不出这个动作或只能识别到轻微的左右摆动。再有一个问题就是精度问题,毕竟通过图像识别出来的动作轮廓是一个很模糊的曲线,通过特征函数匹配出来的动作也是比较含糊的。对于很多细节的动作是无法捕捉的。

这两个问题也应该有解决的方案,例如对于没有深度信息,我们可以通过设置两个摄像头从两个不同的角度拍照,然后将分别提取的轮廓进行比对来计算深度信息,这个在运算上没有问题,不过,图像识别的复杂度就提高了一倍。至于动作细节,最简单的解决方案就是绕过它们,给玩家提供的游戏就像Wii一样,只提供如滑雪,冲浪,瑜伽,网球的大幅度动作的节目。或在比如乒乓球,羽毛球之类的游戏中忽略细节动作。

想到这里上网搜了一下,发觉已经有了类似的想法并进行类似的工作。

一个网站hrp.com,大家可以尝尝鲜,这里采用摄像头来捕捉用户的动作,用户可以通过在特定的几个热点挥手来触发一定的事件。显然这里对图像识别的精确性和实时性要求很低。

另一个例子是一家名为泰山在线公司研发的一款叫i-dong网球游戏,这款产品与其它同类最大的不同就是在于它独有的动作捕捉功能,除手柄外,添加了其他传感器,例如头部带的帽子,用于识别人物头部定位的动作,腿部护膝设备,用于识别人物腿部的运动动作。在电视前方同样需要放置一个无线接收信号感应设备。所以在玩家做动作的时候,系统将信号导入,在游戏中将全方位的去模拟玩家所演示出来的动作。

这里idong利用多个传感器来感受玩家的运动,可以说是一个升级版的Wii remotes。通过这样的方式跳过了现有对图像识别运算能力的不足。

点看全图

外链图片需谨慎,可能会被源头改

希望有机会能够尝试去实现真正的视频游戏,那样在家里,仅用一部摄像头就可以体验全身运动的快乐。

如果和现在时兴的社区游戏结合,那么应该更有卖点。设想一下,和远方的好友打场羽毛球或是和老同学来个拳击比赛。

如果和google的街景技术结合,我们在旧金山的金门桥上来场赛跑或者和网上新结识的MM一起逛逛巴黎。

元宝推荐:铁手,
家园 其实有一个最简单的游戏叫camgoo就挺好的,只要摄像头

你的图片都不让外链啊。

家园 多谢,晚上回家好好体验一下camgoo

图片链接我呆会儿修好

家园 我觉得图像识别可能不需要那么精细

没玩过,不知道WII的分辨率怎样。直觉上靠手持遥控设备的运动的检测来获得输入信息,分辨率应该不会太高。用视频来输入,分辨率也可能也没必要走太复杂的图像识别的路子。

从你的想法,我觉得也许可以用一个或者两个摄像头,图像识别的功能不用太复杂,就抽出轮廓,然后根据轮廓的运动来控制游戏里面物体的运动,应该会比较快。比如你最后的那个图,只要检测到球拍的轮廓就可以了。

家园 我最需要的就是

杀人游戏。。。

video streaming+VoIP+简单的逻辑控制。

当然还是没有面对面杀人来的有意思

家园 是啊,我想得太复杂了

看camgoo应该就是用很低分辨率的图像识别来达成的。

不过最后一张图如果只是识别球拍,那就是一个Wii了,没有很强的吸引力,和我前面的初衷让你全身动起来有一些偏差,所以还必须识别躯干四肢和头部的动作来生成画面上角色的运动。

家园 Microsft Natal

看一下Microsoft的NATAL,这个比你说的更进一步,不需要摄像头,用SENSOR就可以检测到你全身的动作(好象是全身60几个检测点),而且用户不用在身上戴任何特殊的SENSOR。虽然还没有正式推出,但已有部分游戏公司拿到SDK在开发了,只不过都是在极保密的情况下。

家园 一点小看法。

个人认为你那个打球的图片比较搞。简而言之就是拿着网球拍子打羽毛球。

家园 这里有视频

外链出处

首先技术上可以确定是通过摄像头捕捉的,而且肯定不止一个摄像头。用motion detector精度不够。

这个视频几乎可以肯定是Demo,是表演,不是真视频。

第一,动作能做到那么精确不太可能,要么是微软技术上有重大突破,要么就仅仅是Demo

第二,现在图像识别能做到四肢和躯干的识别,视频里竟然有用手腕转动和手掌的摆动来识别的,这个实在不太可能,一是技术上难以实现,二是运算能力不够,至少在x360上难以实现

产品化是可以的,但是期望象视频上演示的那么NB,估计这两年不太可能。不过推出来,那也是很酷很炫的一个东西了。

家园 还有一个更吹牛的demo

外链出处

看这个视频,不但做到了图像动作的识别,甚至还有表情的识别和分析。

甚至....还有语音识别,语法分析,人工智能应答,语音合成,应该还有人工智能的学习分析吧。

太牛了,牛得让我觉得这只能是Demo。

家园 youtube 上有一个comment

how the fuck would you play halo? hold up an invisible gun and run around your house???

其实这么些年下来,wii, xbox, ps3都有了固定的用户群。xbox通常是hard core game。这个project做出来,对xbox的市场转变预计很大,成败难料。

家园 什么是游戏未来的发展方向

这篇文章的观点很有意思,涉及到将来游戏的发展方向,如何用一种更直观的方法去玩游戏,如何让用户更好地融入游戏(带入感)。目前的游戏都是通过controller来控制,一点也不直观,而且游戏的学习曲线越来越陡,需要记住各种各样的按键组合。我觉得现在的游戏设计已经到了一个瓶颈,producers差不多已经技穷了,每次出的新版本都没有什么大的变化(社交功能,Online play功能是个例外,例如FIFA的10x10在线游戏)。WII的出现的意义在于引入了一种新的游戏玩法,它给整个游戏业带来的震撼直到今天也没有过去。如何更好地利用WII的功能,发掘出更多的可能的应用,包括Nintendo在内,到目前为止还处在探索期。这里有一个利用WII控制器的例子,值得一看:http://johnnylee.net/projects/wii/,顺便说一句,JOHNNY现在也在MS的NATAL项目组中。

Microsoft也是看到了这一点,所以才投大量的力量到NATAL项目上。虽然在一两年内不会有太大的变化,但相信五年后的游戏业应和今天我们所看到的完全不同。

家园 这类技术最大的问题是如何区别控制动作和日常动作

比如定义了拍掌是开关机,是否就不能打落在脸上的蚊子了?:-)

家园 简单说两句

有关视频和游戏结合, 有个概念叫Mixture reality。 是增强现实和虚拟现实技术的结合和扩展。 强调就是所谓“沉浸式体验”。从今年开始大热。其中的关键技术, 就是三维环境下对人和物的跟踪和识别。

三维跟踪和识别是个计算机视觉的老问题, 从马大卫开始, 计算机视觉的兄弟们做了40年了, 还是个不可靠。 关键就是环境复杂, 光线背景千变万化。干扰和变数太多。 微软的natal, 从技术上讲,是一个突破。其实核心不是微软的技术, 是以色列一个小公司的。 他们把三维扫描仪用的那种结构光的技术, 做到实时了。结构光因为是用自己的主动光源, 避免了环境光照的变化问题,可以得到相当可靠的结果。这样就可以直接获取可靠的三维场景深度信息, 加上微软自己在语音, 计算机视觉方面的积累, Natal 的演示做到的水平并不夸张, 技术上是完全可行的。 大家明年就应当看到了。

有人提到操控动作和下意识动作的区分问题, 其实这个完全可以在设计交互动作时候考虑到。 比如在空间设定一个虚拟的界限(深度), 手往前平伸过这个界限, 表示起始动作,有个触发, 就能分开了。

话说本人曾经开了个贴讲用户界面变迁和发展方向,最终也是想说这类自然融合的没有明显人机区分未来操作方式。 一动手才发现笔力不逮,目前太监中,。。。

家园 许多游戏的吸引人之处

在于在它的世界中你能做到在现实世界中做不到的事情。现在你把虚拟世界如此地往真实世界靠,玩家还活不活了?想象一下波斯王子的每个动作都得由现实的你做出来……

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河