主题：【原创】最近为公司开发了一个小软件，挺好玩的 -- 温雅颂

因为我需要模拟一个有几千员工的公司一年时间内户外工作人员的行车路线数据。这时我就遇到这样一个选择：假如把一个员工一天的行车路线看作一个单元，我要模拟的实际是一个M*N的二维数组，其中M为一年中的工作日，N为员工数。整个模拟过程无非是一个个生成这个二维数组中的每个单元而已。但是，我究竟是先M后N好呢，还是先N后M好？换句话说，我是先把每个员工第一天的数据模拟出来，再模拟每个员工第二天的数据好呢（员工为内循环，工作日为外循环）？还是先模拟出一个员工一年的数据，再模拟第二个员工一年的数据（工作日为内循环，员工为外循环）？

以员工为内循环的好处是，我可以在某个时间段内模拟一些意外情况，这样所有员工的网络状况在那一天都可能受到这个意外情况的影响。而以工作日为内循环的好处是，这个模拟软件可以很方便地在多个计算机上运行，同时产生模拟数据。多台计算机同时运行同样的模拟软件，一个主要问题就是所模拟的用户名称必须是单一的，绝对不会和其它计算机的模拟软件产生相同的用户名。

因为我们需要尽快产生足够数量的模拟数据，使用多台计算机同时生成模拟数据的可能性很大，所以我就选择了以工作日为内循环的方式，每台计算机模拟产生的用户名则是该计算机的登录者ID，加上计算机名称，和一个四位数的序列号。这样一来，即使同一个人在多台计算机上登录并运行这个模拟软件，因为计算机名称不可能相同，所产生的用户名也必然不同。当然，还有一个要做的是防止有人在同一台计算机上同时运行多个模拟软件，这就需要把它做成single instance的软件。这样就保证了所模拟出来的用户名的唯一性。

这样一来，这个模拟软件的用户界面就会非常简单，不需要任何特殊的设置和选择，直接运行就可以了。要是公司里几十上百人运行它，所模拟出的用户名就会有很多的变化，然而又有一定的规律性，便于测试系统对用户名的检索功能。

下一个要解决的就是单个员工单个工作日的行车路线模拟。这一步没什么技术性，但因为要使模拟数据逼真，我还是花了点心思在上面。

首先我在地图上画了三个嵌套的范围，最内圈是城区，中间圈近郊，最外圈是远郊。然后把员工分成三拨，一拨（60%）负责城区，一拨（30%）负责近郊，一拨（10%）负责远郊。

在模拟员工路线时，每个员工上班后，我先给他半小时以内的一个随机数，用来喝咖啡和做准备。因此每个员工并不是一上班就出发，而是有先有后，显得比较自然一些。

出发的第一个目的地是一个随机的经纬度，但是要在他所负责的范围内。他从公司总部出发去第一个目的地，这就形成了第一条路径。这时我需要记下这第一条路径所需要的时间，作为他返回公司总部所需时间的参考。

到了目的地后，我再给他半小时以内的一个随机数，作为他在那里工作的时间，比如对于一个电力部门的用户来说，这可能就是他在某家修理电路故障。干完活以后，就从这里出发去下一个目的地。

后面若干目的地的选择，将在一个以第一目的地为圆心，以到总部的距离的一半为半径的范围内随机选取经纬度。这样看起来也比较自然，否则他有可能东南西北到处跑，并且一天内几次经过公司总部，那就显得不够真实了。

在他每到一个目的地时，模拟软件都要记录下他离下班时间还有多长时间。如果离下班时间已经小于他返回总部所需要的时间，他下一个目的地就是当天的最后一个目的地，也就是返回公司总部。显然，如果他倒数第二个目的地如果离公司很近，他可能早下班。如果很远，他可能晚下班。平均起来公平合理。

考虑到有些客户可能会有“三班倒”的工作时间，我在模拟工作人员的工作时间时，也把三班倒考虑进去了。以星期为单位，随机轮换上班时间，周末休息。

可惜，我没办法模拟节假日，不过这已经很不错了，远远超过了同事们最初的期待。

下一节，我将讲讲我是怎样模拟信号强度的。我认为它是整个模拟软件中最有意思的部分。

复【原创】最近为公司开发了一个小软件，挺好玩的

家园

【续四】

到目前为止，户外工作人员的行车路线模拟已经基本就绪，剩下的一个关键问题就是模拟无线广域网的信号强度了。一开始，公司里的同事们因为不懂GIS，对空间方面的事一窍不通，提不出像样的要求，所以我一开始也没往深了琢磨，只想着看起来像那么回事就行了。

在做这个模拟软件之前，我接触过一些实地采集的信号强度数据。我发现即使你站在原地不动，你所接收到的信号强度也在一定范围内波动。刚开始考虑这个模拟软件时，我曾想过用一定范围内的随机数模拟这个信号强度。可后来发现不合适，因为信号强度只是波动，不是跳动。一个人接收到的信号强度一般不太可能从-60一下子跳到-130。显然，这样使用随机数不行。

随后，我就开始琢磨如何模拟信号强度的波动。我想到这样一种办法：在初始状态时，给路径起点一个在正常范围内的随机的信号强度值，然后随着时间的推移，对每个坐标点上的信号强度值，以前一个坐标点上的信号强度为基准做随机改动，改动的幅度在-2到+2之间。这样一来，信号强度就会随着时间的推移显示出一条波动的曲线。

但是后来我又对自己提出来新的要求：能不能模拟一套发射塔的位置数据，然后根据发射塔到路径坐标点之间的距离来计算信号强度呢？显然是可以的。不过我得先模拟发射塔的位置数据，这却不容易。虽然我知道一般城里发射塔比较密集，郊外比较稀疏。但城里的密会密到什么程度，郊外的稀又会稀到什么程度？我对此却一点概念都没有。虽说是模拟数据，不需要多高的真实度，但发射塔的密度分布总要合理，大体符合实际情况才好。

到这时，格言的重要性开始显现：外事不决问孤狗！网上一搜，居然找到几个网站，上面有全美国的发射塔数据。花了两个小时的时间，总算把华盛顿州主要的发射塔位置整理出来了，一共有七百多座。听同事讲实际比这要多，但这对我已经够了，足以显示出城乡地区塔的分布特点了。

因为我要模拟的是一个有几千员工的大公司，员工们使用的网络服务分别来自几个不同的运营商，因此我需要把搜集来的七百多发射塔按不同的运营商分组。一开始我就把它们随机地分了三组，一组是AT&T，一组是Sprint，一组是Verizon。但我仔细一看发射塔的分组情况，发现效果不够好，因为这样随机分组虽然可以保证组与组之间发射塔数量不会相差很多，但因为这个随机分组没有考虑到它们的空间分布状况，所以有些紧挨在一起的塔却被分在了同一组，这显然不符合实际情况，因为运营商肯定不会把两座发射塔建在一起。

那么如何分组才能使各组之间数目相差不多，而又使同一组的发射塔不会挤在一起呢？

手工分组当然可以，但那就没意思了，公司给你开的工资不低，可不想看你干小工的活。咱要么不干，干就要干得有点层次，这才好去忽悠不是？

喝水去了。。。。。。

复【续四】

家园

发现一篇好文

恭喜：你意外获得【通宝】一枚

鲜花已经成功送出。

此次送花为【有效送花赞扬，涨乐善、声望】

这个系列很有意思。

我前几天怎么没有注意到呢？罪过罪过。

复【续四】