吴军博士也认同的最全最好的《数学之美》读后感

2021-09-01 21:39:40

【数盟倡导“数据创造价值”，致力于打造最卓越的数据科学交流平台，为企业、个人提供最卓越的服务】

近期阅读，吴军博士的文字《数学之美》

每每体会，记录一下。

1、自然语言处理研究的”鸟飞派”认为看看鸟怎么飞，就能模仿鸟造出飞机，而不需要了解空气动力学。事实是，怀特兄弟靠的是空气动力学而不是仿生学。

串想：
有那么很少一些的初级投资者们，认为看看巴菲特怎么赚钱的，读读他的股东信，研究下伯克希尔买入卖出标的的K线图或某年财报，就可以模仿其获得高复利收益，而不需要了解标的公司存在的历史、地域、文化综合价值背景。事实是，巴菲特对于投资非美国本土公司，非常谨慎，尤其非欧美主流文化圈的公司。

2、量变为质变的基础。

1988年，IBM的彼得·布朗等人提出基于统计的机器翻译方法，框架正确，但是因为当时没有足够的统计数据，也没有强大的模型来解决不同语言语序颠倒的问题，因此效果很差。

其后的25年，随着计算机能力提高和数据量不断增加，过去看似不可能通过统计模型完成的任务，渐渐都变得可能了，包括复杂句法分析。
2005年，随着Google基于统计方法翻译系统全面超过基于规则方法的翻印系统，规则方法终于成为过去式。

串想：
随着计算机能力提高和数据量不断增加，在资本交易层面，高频交易也是越来越显著与规模化了！
那这种高频化，也预示着传统的基于公司价值、财务规则统计、计算得出盈利预期的投资方法要成为过去式了吗？
机器翻译的针对物是人类语言，高频交易的标的物是人类行为（投资上或者心理上），二者有借鉴、靠拢的可能吗？
这里没有答案！时间或许会告诉我们一切！

3、语言统计模型上，吴军博士表示“根据大数定理，只要统计量足够，相对频度就等于概率！”同时，对于没有看见的事件，不能认为它发生的概率就是零！越是不可信的统计折扣越多。

串想：
在目前很多针对中国境外上市企业的浑水做空或者很多学习美国好榜样，纠合媒、财、律的针对中国内地上市企业的浑水式实际做空、或者简单唱空上，往往暴露出一个大数定理的问题！
这是做空者们或者唱空者们显示出来的一个问题！
在标的具化样本的统计量上不舍得下功夫，喜好以“低量频度”就等标注为概率！

同时，对于“发现者”没有看见的事件，往往就简单认为它发生的概率就是零！
面对“越是不可信的统计折扣越多”这点常识避之不谈，只简单称呼自己没看见的事件归于“常识”，从而躲避具化样本统计量的苦活。

4、隐含马尔可夫模型
这个模型还被运用到了投资中。

5、合理利用信息，而不是玩弄什么公式和机器学习算法，是做好搜索的关键！P63

难道吴博士的这个观点，不也正是投资学的要素吗？
合理采集、整理公开讯息；不玩弄什么秘籍、公式或者捣鼓完美的计算机自动交易工具；一心研读、专心财报等各类数据耕耘、长期坚守如一日；
才是做好投资的关键！

6、中小学生的教育
P73，吴博士论述与弗里德里克·贾里尼克(Frederek Jelinek 自然语言处理真谛的先驱者)小议各自童年、少年的学习经历后，同声不赞同中小学生只会上学考试的教育方式。
http://baike.baidu.com/link?url= … duGmuIPouJJzmDT2FjK

这里转一文，共阅

《吴军博士对中小学教育的四个观点》
文/沙漠圣树
近读吴军博士的《数学之美》，进一步认识了《义务教育教育阶段课程标准》，为什么把统计和概率作为加强的内容加于呈现，并且从一年级就开始渗透，直到义务教育阶段的结束，实际上高中和大学，这部分内容也是数学的重要内容，因为统计和概率，不仅用于生活和生产，而且在如今的计算机科学，比如：自然语言的处理、机器翻译、搜索引擎等都是必须且重要的基础工具。
吴军博士在纪念弗里德里克·贾里尼克博士的文章里，谈到了他对中小学教育的观点，他说，他不赞成中小学生只会上学考试的教育方式。他有一下四个观点：
1．小学生和中学生其实没有必要花那么多时间读书（指课程学习），而他们的生活经验、生活能力以及在那时树立起的志向将帮助他们一生。
2．中学阶段花很多时间比同伴多读的课程，在大学以后用非常短的时间就可以读完，因为在大学阶段，人的理解力要强得多。举个例子，在中学花500小时才能学会的内容，在大学可能花100小时就够了。因此，在一个学生中学阶段建立的那一点优势在大学很快就丧失殆尽。
3．学习（和教育）是一个人一辈子的过程，很多中学成绩好的亚裔学生，进入名校后表现明显不如那些因为兴趣而读书的美国同伴，因为前者不断读书的动力不足。
4．书本的内容可以早学，也可以晚学，但是错过了成长阶段却是无法补回来的。

吴军博士认为，中小学生把大量的时间用在学习上，为考试而学习，这实在是教育的误区。我赞成吴军博士的观点，但如果在如今的教育评价体制下，学生们按吴军博士的方式去学习，我们的家长能做到并支持吗？我们的老师能放得开吗？我们的大学会不拘一格吗？我很是担忧。因此，只有改变教育体制包括评价机制，更新教育理念，切实回归到以人为本的教育上来，才是中国教育走向成功的必然之路！

7、P74 弗里德里克·贾里尼克(Frederek Jelinek)甚至说“我每开除一名语言学家，我的语音识别系统就会提高一点。”翻译为投资，或者可以是这样“我每摒弃一名投资学家，我的真实投资系统就会获得一点（收益）。”

注：投资学家指，以投资学为生，而不是以投资为生的家！哈哈！

8、科技界的巴菲特

弗里德里克·贾里尼克(Frederek Jelinek)，可以被称为科技界的巴菲特吗？
不是因为金钱的多少，而是因为其对于后辈科技人才的贡献。
他告诉后辈们最多的是：什么方法不好！
这点上和巴菲特在慈善午餐上给予其他投资者的建议有异曲同工之妙。巴菲特和那些投资者讲，你们那么聪明，不需要我告诉你们做什么，我只需要告诉你们不要去做什么（这样可以少犯错误），这些不要做的事情，是巴菲特从一生的经验教训中得到的。
—-不过，关于P78左侧空白处注解看，我还是怀疑吴博士的这个巴菲特所言真实性，因为他在注解中将1位竞标成功者，最多带7位朋友，说成是一位投资人；另外午餐说成是晚餐。
不过，贾里尼克的往事，确实值得回味与尊重。

9、简单之美
P81
从事任何工作，其实都没有什么捷径可言。即所谓“术”是要建立在“道”上的。一味走捷径，只求术，结果必然半途而废。
该段说了

想来，“术”与“道”，投资亦然！

10、高科技投资
P103 对于谷歌网页排名的算法、逻辑和其巨大的实质科技推动，进行了阐述。
我们看见这样的描述：
PageRank（网页排名） — Google 的二位老大佩奇（Larry Page ）和谢尔盖布林 (Sergey Brin) 共同开发的算法。运用到网页排名上，从而提升引擎搜索的正确性。

网页排名的高明之处在于它把整个互联网当作一个整体来对待。它无意识中符合了系统论的观点。相比之下，以前的信息检索大多把每一个网页当作独立的个体对待，很多人当初只注意了网页内容和查询语句的相关性，忽略了网页之间的关系。

虽然在佩奇和布林同时代也有一些人在思考如何利用网页之间的联系来衡量网页的质量，但只是摸到了一些皮毛，找到一些拼凑的办法，都没有从根本上解决问题！

PageRank 在当时对搜索结果的影响非常大。在1997-1998年前后，所有互联网上能找到的搜索引擎，每十条结果只有两三条是相关的、有用的。而当时尚在斯坦福大学实验室的Google已经能做到七八条符合！

这是一个质的差别，给人的感觉如同iPhone和老式诺基亚手机的差异那么大！这使得Google能迅速打败以前所有搜索引擎。

但是今天，任何商业的搜索引擎，十条结果都有七八条是相关的了，这时一个新的搜索引擎在技术上投入再大，可提升的空间却非常有限，用户很难感觉到差别（插一句：面对中国不少网站排名作弊者，Google一开始的防御做得不好，有理由认为，这是面对李鬼之“聪慧”，Google没有预想想到需要投入更大的人力吧）。

这也是后来微软在搜索引擎上难有所作为的原因！

从Google的十之七八，到现今几乎所有都是十之七八，这个首先说明整体科技在进步，另外也证明先进科技在1997-1998年前后至现今（吴军博士写成此文时是2006年及其后）约十年左右时间，那一片蓝海已然是红海！

以PageRank技术引申到我们实际面临的高科技投资，比如尚未降温的内地创业板、部分中小板投资上，甚至美股上的不少高科技公司投资上。
都应该存在同样的认知问题。这是所有投资者都需要自我认识一下的东西。

1）高科技投资所针对的那个高科技技术或者仅仅是一个算法，它的高科技含金量，究竟在哪里？投资者首先非常需要知道的是，它达到了十之七八，？

2）高科技投资标的的那个高科技，其若真是在十之二三中已经七八了，那海的颜色变幻时间轴，会是10年？还是仅仅1年？这个时间轴，无疑关系到，投资者切入标的和持有标的的时点、时长！

3）高科技投资标的本身，确实是需要不断更新和进步的，就目前来看，公开市场上的高科技标的，是没有一招鲜吃遍天、吃到老的。这点，无论是高科技标的投资者，还是高科技产业从业者、创业者，都需要认知的！

继续看书，继续汲取，继续观察！

11、事件驱动型投资
空头，诸如浑水，是事件驱动型投资的典型。
我们完全可以将其推出不利于上市公司的分析报告，看作为一个事件。在这个事件中，其做空获利，或者让市场先生打落股价，再低位买入，都是堪称投资！

P111 讲述到 2008年9月23日，Google、T-Mobile、HTC联合宣布了第一款基于开源操作系统Android的3G手机HTC G1（HTC Dream）。
外观远不如一年前苹果的iPhone，价钱也差不多。但是卫星全球导航是其重要卖点。

卫星导航在2000年前后就已车载使用，但是较贵，2004年笔者买一个麦哲伦便携式导航1000美金（2007年已降价到2、3百美金），之后有一些智能手机也开发地图功能，却很烂！

Android的这个手机功能却能媲美任何一个卫星导航仪，加上它的地址识别技术比导航仪的地址匹配技术要好得多。结果是麦哲伦导航仪制造公司股价在G1发布当天暴跌四成！

—-这就是典型的“事件驱动型”。市场是有效的典范！从友联法则角度认识到的我们A股市场有限一面，我认为，大多数时候也是有效的！
只不过，此类有效，有时候确实跑得太快，有时候又反之！比如三泰电子，就是跑得太快，另外，海油工程，随着其公布2013年度净利数据的大大超出预期之涨幅，市场立马给予其15%涨幅，就是有效性的表现！

12、辛格的工业哲学
美国工程院院士阿米特辛格博士（Amit Singhal）是Google公司的AK-47。
先帮助用户解决80%的问题，再慢慢解决剩下的20%，是在工业界成功的秘诀之一。许多失败不是因为人不优秀，而是做事情的方法不对！
一开始追求大而全的解决方案，之后长时间不能完成，最后不了了之！
—-投资上也是亦然。先设计好自己需要搜集标的公司全部的资料，甚至梦幻到公司每位员工、每台设备的编号，然后是历史所有财务数据的排列、推演，之后是各种估值法的测算。
或许这需要花几年时间，结果自然就是不了了之，而且还是投资者自己整个投资生涯起步的不了了之。
这点，整天琢磨自上而下的投资者，也是如此逻辑！

13、数学和网络基层及应用的有趣结合
余弦定理和新闻的分类、矩阵运算和文本处理的分类，这些都告诉我们学习看似无用的数学，其实应用范围很广泛，主要看使用者自己在解决问题中灵活应用、善于应用的变化。
数学再次被证明为事物的一个底层基础结构。
这里说到美国人做事的一个习惯：
美国人倾向于用机器（计算机）代替人工完成任务。虽然短期需要做一些额外的工作，但是从长远看可以节省很多时间和成本！
回望自身，我国民恰在某些事物上习惯反向。即短期看似乎省时省力，大干快上成效卓越，比如某些公路建设、房屋质量等等，可长期呢？不断做很多额外的工作去弥补那些短期效应！
投资亦然，散户们花费大量精力在判断下一秒的趋势，看似精妙无比，实则长期看，浪费了时间与精力！

14、反盗版的信息化技术
P149说了YouTube，被Google合并后，Google研究院图像处理的科学家们开发出反盗版系统，即针对关键帧进行信息指纹的建立，并随后进行比对。
关键是遏制盗版的经济手段。
他们采取有针对性的广告分成策略：虽然所有的视频都可以插入广告，但是广告收益全部输入原创者账户，即使广告是插入在拷贝（盗版）视频中。
这样一来，所有拷贝和上传别人视频的网站就不能获得收入分成。因为没有了经济利益，也就自然减少了盗版者积极性。

15、密码学就是数学
从恺撒用密码传递情报与讯息开始，2000多年人类一直在提升密码的能力。直到克劳德·艾尔伍德·香农（Claude Elwood Shannon ，1916年4月30日—2001年2月26日美国数学家、信息论的创始人）开创了现代密码学（不是冯-诺依曼）。

而现代密码学，究其要素，吴军博士告诉我们，其实背后的数学原理很简单。无非是找几个大素数做一些乘数和乘方运算就可以！信息论诞生后，科学家们就是沿着这个思路设计密码系统，而公开密匙是目前最常用的加密方法！
有趣的是，，似乎总是不能很好使用信息论的加密原则，中途岛伏击、山本五十六坠机、重庆情报网、马尼拉使馆等等，！落后挨打，他们亦然！

16、三种数学和投资
第一种：
网页排名的作弊，有个好听的名字叫SEO。从吴军博士的文字去看，反作弊已经很成功，采用的方法也很简单，就是利用通信模型过滤噪音，还原信号的方式。
目前而言，无论作弊者采用关键词重复、互相多次链接等手段，只要搜索引擎网站搜集、分析作弊信息、搞清出链特征，再利用计算向量余弦距离，使用图论工具等，就可以清除绝大多数作弊者的排名，包括JavaScript跳转等。
因此，网站要想提升自己的排名，已经只有通过提升内容这一条道路可行！

—-若SEO可以被描述为一种形式的投机主义，那反射到资本市场上，制造眼球效应、夸大宣传和所谓浑水式做空，都可以看作为短期的“优化提升”。
这些确实是可以获得短期收益与绝对利益的，但是从长期看，依然只有“老实做内容”这一条路，可以被投资者长期采用，那就是老实做功课，辨析标的内涵与价值！

第二种：
天文学上数学模型的应用至关重要，在农业社会，天文学主要服务于历法，这是关系到长久农事，小误差累计到大差别，就会影响农业生产。这是大事件！
发展至今，历法误差的问题，似乎已经被缩小到很微弱的地步了，但是吴军博士说，我们对任何问题总是要找相应准确的数学模型才对！
吴军博士在Google中国和腾讯公司的内部技术讲座上，都用一定的时间，从天文学家历史，阐述了数学模型重要性！
从埃及人自发观测星相，推测尼罗河泛滥，以利耕作、收获；到托勒密的地心说；十三世教皇格利高里的历法凑数；哥白尼的日心学；开普勒发现行星椭圆轨迹；最后到牛顿万有引力诠释万物。
这些都是模型建立为基础！

吴军博士总结几个论点：
a\一个正确的数学模型应当在形式上是简单的。（托勒密的模型显然太复杂。）
b\一个正确的模型一开始可能还不如一个精雕细琢过的错误的模型来的准确，但是，如果我们认定大方向是对的，就应该坚持下去。（日心说开始并没有地心说准确。）
c\大量准确的数据对研发很重要。
d\正确的模型也可能受噪音干扰，而显得不准确；这时我们不应该用一种凑合的修正方法来弥补它，而是要找到噪音的根源，这也许能通往重大发现。

—-将这些论点反射到资本市场上，我们应该确定投资是简单的，这样一种大逻辑。不能因为想着复杂，而拼命采用自上而下原则，每天24小时关注全球各类财经、、交易新闻及数据，那样首先就会被累死。
投资者应该寻找一种适合自己个体，并顺应个体不同阶段的投资模型（有用1万元资本金和1千万资本金时候的投资逻辑应当具有差异性），不能在开始的时候，还没具备多少实际经验的情况下，就去竭力寻求什么精妙、准确的投资公式、投资秘诀，自己限定死了，最后无非是弄了一堆不断过时的K线分析法和历史趋势后视镜而已。坚持价值考量的大方向，并不断积累实际投资经历，才或有可能找到适合个体的方法；

大量准确的数据，毫无疑问是对投资者个人建立模型很重要、很重要的！我们都知道巴菲特先生长期坚持审阅各类公司的财务数据，这些数据的阅读养成，甚至可以从其1940年爱上“比比谁，可以说出任何一个州首府的名字”游戏；沉迷于1939年《世界年鉴》，熟记每个城市人口数就开始了！

只有长期、大量拥有了连贯的数据，才能辨析这些数据的真实性与可靠度，并依据这些做出基础分析，输入模型中，从而获得有用的结果输出。

就我们自己身处的市场而言，大多数投资者都不能坚持长期阅读某些标的公司的财报（据说巴菲特先生连续50年阅读IBM公司年度报告呢），而全面阅读几乎所有已上市公司年报的投资者就更是鲜有了。
因此，“基于大量准确的数据”这个底层都没有被架构好，其他可以说是妄论！

至于d点，就是说投资者需要在实际投资中不断发现自己模型的错误与推断方式问题，并不断修正与更新，与时俱进，完善才能接近完美，价值投资其实就是一个长期坚持并累积的过程。

第三种：
不把所有的鸡蛋都放到一个篮子里。

从信息最大熵的角度去诠释，就是当我们需要对一个随机事件的概率分布进行预测时，预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。
在这种情况下，概率分布最均匀，预测的风险最小。因为这是概率分布的信息熵最大，所以人们称这种模型为“最大熵模型”。
—-投资中，所有的鸡蛋不放一个篮子就是这个最大熵的朴素说法，因为当我们面对复杂多样化的投资标的时，实际遇到了很多不确定性，因此保留各种可能性，让熵最大化，就是好主意了！

由于宾夕法尼亚大学马库斯的另一个高徒原 IBM 现微软的研究员拉纳帕提(Adwait Ratnaparkhi)第一个在实际信息处理应用中验证了最大熵模型的优势，做出了当时世界上最好的词性标识系统和句法分析器。拉纳帕提的论文发表后让人们耳目一新。

科学家们从拉纳帕提的成就中，又看到了用最大熵模型解决复杂的文字信息处理的希望。
2000年前后，由于计算机速度的提升以及训练算法的改进，很多复杂问题都可以采用最大熵模型了。现在Google的很多产品中，比如机器翻译，都直接或间接地用到了最大熵模型。

向来最喜欢使用新技术来提高交易收益率的华尔街，更是不遗余力发掘，因此很多对冲基金开始使用最大熵模型，并且取得了很好效果！

模型形式简单、实现却非常复杂，计算量非常大。模型中涉及的很多参数λ需要通过模型的训练来获得。
比如吴军博士在IIS迭代算法基础上进行数学变换后整整缩小了两个数量级的快速模型训练法，为了训练一个包含上下文信息，主题信息和语法信息的文法模型(language model)，我并行使用了 20 台当时最快的 SUN 工作站，仍然计算了三个月。（现在，若使用MapReduce工具，在1000台计算机上并行计算，一天可完成）

由此可见最大熵模型的复杂的一面。最大熵模型快速算法的实现很复杂，到今天为止，世界上能有效实现这些算法的人也不到一百人。

而IIS迭代算法提出者达拉皮垂孪生兄弟（Della Pietra）他们在九十年代初贾里尼克离开 IBM 后，也退出了学术界，而到在金融界大显身手。

他们两人和很多 IBM 语音识别的同事一同到了一家当时还不大，但现在是世界上最成功对冲基金(hedge fund)公司—-文艺复兴技术公司 (Renaissance Technologies)。我们知道，决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。达拉皮垂兄弟等科学家在那里，用于最大熵模型和其他一些先进的数学工具对股票预测，获得了巨大的成功。从该基金 1988 年创立至今，它的净回报率高达平均每年 34%。

尤其值得注意的是，文艺复兴公司下的只有他们内部人才能投资的基金—-奖章基金（Medallion Fund）收益率在2008年80%，近年连续三年大于60%。若暂时抛弃庞氏骗局的怀疑，我们不得不说最大熵模型的有效性。
值得一提的是，信息处理的很多数学手段，包括隐含马尔可夫模型、子波变换、贝叶斯网络等等，在华尔街多有直接的应用。由此可见，数学模型的作用。

不过，这里也告诉我们一点，那些试图就个人或者区区几人，梦幻搞出最大熵模型或者某类超越性计算机模型并持续盈利，在提出这个想法的同时，请评估下自己的数学功底以及自己可以架设起来的服务器数量吧。因为计算量不够，一切都是枉然！

因此，最后我们应该认识到一点：“不把所有的鸡蛋放在一个篮子里”，不能简单地表述为分散投资。
他实际表述的是，投资风险复杂度非常大，要对随机事件的概率分布进行预测，工作量更是非常大，因此采用最大熵模型可以作为一种解决办法或者手段。
“不把所有的鸡蛋放在一个篮子里”只是投资个体在能满足最大熵模型必须的计算量和数学建模要求下，可以选择的一种方式。而实际交易世界中，显然对大多数投资者是不具备这个条件的！
所以，我们往往看见，有限地分散化投资（有限的鸡蛋放到了有限的几个篮子里而已）没有带来正收益的稳定，结局常反向运行。这是因为投资者在挑选篮子的时候走捷径，没有充分阅读够大的数据量，更没有能力进行数据量的最大熵计算。
篮子都选错了，篮子都可能是漏底、烂提手的，怎么能保证放在里面的鸡蛋之安全呢？

所以，一切梦幻的结果，都需要先看看脚踏实地耕耘的过程，才能判断方向！

17、国内某些所谓软件业者
从书中发现，在中文汉字输入这个小系统中。
由于种种原因，早期拼音输入法不是很成功（其实是语料库的建设不完备，使得同音字等等被快速检索出来的几率低了些，影响输入速度），给其他输入法迅速崛起创造了条件。
很快各种输入法雨后春笋般冒出，总数上有报道称千种之多，甚至报道说3000种。其实大同小异，都是王旁草头青之类需要背诵输入规则，拆字偏旁之类而已。
直至20世纪90年代初输入法专利已经达千件，以至于一些专家认为中国软件业之所以上不去，就是因为大家都去做输入法了。
所有这些，除少数是对拼音输入修改外，大多是利用26个字母和10个数字对汉字库6300个常见字直接编码。

最后王永民的五笔输入法暂时胜出，他胜出在于市场操作，其他大多数都是书呆子罢了。这类输入法之间的优势没什么特别差异，所谓输入更快、更便捷，基本都是因为输入法表演者记住了更多的词组编码，从而降低击键数而已！就像之前也流行的什么心算法、快速背单词法诸如此类一样，在神奇的大地上，永远有着无穷的市场。奥数也差不多！
从信息论角度很容易算出，他们的编码水平都是同一级别。当然，现在王永民的五笔也没优势可言了。

这又让我不由感叹，国人好术，常在一些方面耗尽资源在一种术上，你争我夺，最后独木桥段，却无人通往“道”，“道”也自不存了。
输入一个汉字究竟需要敲击多少个键呢？—–请从香农第一定理去认知吧！那就是“道”。

18、马库斯及其弟子
将自然语言处理从基于规则的研究方法转到基于统计的研究方法上，宾夕法尼亚大学的教授米奇·马库斯功不可没。他创立了今天在学术界广泛使用的语料库，同时培养了一大批精英人物。
吴军博士将这位马库斯比喻成日本围棋教育家木谷实，那个与吴清源共创“新布局” 开设木谷道场，培养出了一大批影响至今的棋坛巨星：大竹英雄、加藤正夫、石田芳夫、小林光一、赵治勋、武宫正树、小林觉……世界棋坛第一大门派之教父！

可见马库斯先生在信息论、自然语言处理上的地位。吴军还从师从于马库斯的几位著名弟子予以证明，您可以在P198看见！
书中也发出感叹，“当今中国的大学，最需要的就是马库斯这样卓有远见的管理者”—其实，当今中国，岂止需要一个马库斯啊，我们需要很多方面的很多马库斯啊！

19、最后几章
介绍了：布隆过滤器、贝叶斯网络、条件随机场和句法分析、维特比和维特比算法。

尤其是维特比（Andrew J. Viterbi）的介绍，让我们对这位CDMA之父，从网络应用的远瞻角度再度仰视，其还是IEEE Fellow ，高通公司创始人之一，高通首席科学家。他开发了卷积码编码的最大似然算法而享誉全球。
更重要的还有本节结尾提到“如果把维特比算作数学家的一员，那么他也许是全世界有史以来第二富有的数学家（第一无疑是文艺复兴技术公司的创始人西蒙斯）”。他是南加州大学最大资助人之一，他的财富来自于他将技术转换成商业的成功！

您无疑会从中体会到，科技创造价值，价值变身财富的巨大魅力！

世界上绝大多数科学家最大的满足就是自己的研究成果得到同行的认可，如果能有应用就更是喜出望外了。而能够亲自将这些成就应用到实际中的人少之又少，因为做到这一点对科学家来讲很不容易。这样的科学家包括RISC的发明人亨利希和DSL之父查菲等人。

这些人已经非常了不起，但是也只做了一个行业中他们擅长的部分，而不是从头到尾完成一次革命！而维特比所做的远远超过这一点，他不仅提供了关键性的发明，而且为了保障这项关键性的发明的效益在全社会得到最大化，他解决了所有配套的技术。所有试图另辟蹊径的公司都发现，高通的标准几乎无法绕过去，因为他们已经把能想到的事情都想到了！

2004年3月2日，由Max Nikias院长领导的南加大工程学院重新命名为Andrew and Erna Viterbi 工程学院，用以纪念高通公司创办人Andrew Erna Viterbi夫妇，最近曾捐赠5200万美元给学校，这份礼物是有史以来工程学院改名最大的。

作为一项新兴技术，CDMA、CDMA2000正迅速风靡全球并已占据18%的无线市场。截止2012年，全球CDMA2000用户已超过2.56亿，遍布70个国家的 156家运营商已经商用3G CDMA业务。包含高通授权LICENSE的安可信通信技术有限公司在内全球有数十家OEM厂商推出EVDO移动智能终端。
而说到如今广泛应用于3G的CDMA技术（4G是集3G与WLAN于一体，并能够传输高质量视频图像），就不得不提及维特比之外，对码分多址技术（CDMA）的发明和贡献最大的另一位，被誉为史上最美女科学家的海蒂·拉玛尔（Hedy Lamarr）。

出生于维也纳，1933年捷克电影《Ecstasy》（神魂颠倒）使她成为世界电影史上第一位演出裸体镜头的女演员。1937年她来到好莱坞发展，其后几十年里主演了大量电影，赢得无数影迷的崇拜。
在二战爆发后，，竟然在盟军“远程控制鱼雷”中信号装置的设计中作出了过杰出的贡献。她提出把控制信号切换成不同频率以防敌方干扰。

晚年，拉马尔生前独自一人住在佛罗里达州的一所公寓中，朋友们定期去看望她，2000年1月19日早晨，朋友打电话给她却没人接，后来才发现她已死在自己家里，死亡时间不超过２４小时，因为对着床头的电视还开着。据当地警方说，拉马尔被发现死在家中的床上。警方认为她是在睡梦中死去的，因此将把它作为一次无人在场的死亡来调查。
她的律师说：“对于我来说，她一直是最完美的电影明星，她走路时总是昂着头，她非常漂亮，即使年老时也是那么美。”

我看到此处不得不感叹造物主的神奇，这位上得舞台、下得梯台的绝世美女，不仅可以片酬最高，还能获颁科学基金会勋章，更让人羡慕的是，耄耋晚年安详地在梦中故去。

人生何求，数学之美！

20、实用三节
本书最后正文三节分别是：
“再谈文本自动分类问题—期望最大化算法”（Expectation-maximization algorithm）
这个被称为上帝算法的数学方法，在我看来犹如星际间引力作用，自然而然地将星际间各类星球按照大小、质量等等分类法则，归于不同大小、半径的引力圈内。

“逻辑回归和搜索广告”
终于知道若干年前百度的那些虚假广告为何会登上分类搜索的首页、首条。因为单纯按照出价高低的竞价排名，本身就是自毁长城！它们当时的搜索广告只是处于发展第一阶段。
之后学习谷歌的结合出价和点击率二点来决定广告的投放，才变得“聪明”些。但是其中点击率预估是关键技术。第三阶段是第二阶段的全面优化。

恰恰是关键的点击率预估，要运用到逻辑回归模型，一种将影响概率的不同因素结合在一起的指数模型。需要训练、迭代、回归，该法除了在信息处理应用，还广泛应用于生物统计！
我想，在投资中，具备数学素养的投资者，也是应该采用这个方法的！因为针对标的物的价值估算，本身就涉及到众多的预估。这些从概率池选出的指数或者函数，太需要统计意义的正确性了！

“各个击破算法和Google云计算的基础”

云计算、云系统、云XX，已经被广为传颂，正向吴博士书中言：今天（2011年），连非IT行业的人都开始谈论这个问题。总的感觉是，大家对云计算的表层多有了解，但是对技术关键点了解甚少！
也就是说，大多数热衷者都集中在应用层，热议的都是大数据系统做出来的那些图、那些表，已经呈现出的浅显结果。

似乎一拉表单，告诉屏幕前的你我，谁买这个最多，谁听那个最频繁、谁点击此处最快，就带来无穷生意，滚滚而来皆财富！

可惜，表层的东西，总是万花筒一般变化多端，停留在应用层只能是随风舞动的花蝶。只有深入“云”之算法，理解“云”基础就是将大数据分解为小数据，分发到更多计算机上去同时完成，从而大幅缩短计算时间！为了完成分发，需要应用到数学的分治算法及其演进，不断提升有限化下的无限能量，才是深层结构的东西。

（吴军博士的《浪潮之巅》“云计算”章节可重点参考）。

可惜，我自己对于数学的领悟也是差到极点，因此不能为观众们解析更多了！

这里再列叙吴军博士的一段小结，我认为大家可以化而广之，用到自己实际生活和对于投资大问题的具体应用层！
“各个击破”法—-它的原理原来这么简单，就是将复杂的大问题分解成很多小问题分别求解，然后再把小问题的解合并成原始问题的解。
由此可见，在生活中大量用到的，真正有用的方法往往简单而又朴实！

文章出处：巴菲特门小羊

—————————————————

数盟网站：www.dataunion.org

数盟微博：@数盟社区

数盟微信：DataScientistUnion

数盟【大数据群】272089418

数盟【数据可视化群】 179287077

数盟【数据分析群】 174306879 ，110875722

—————————————————

点击阅读原文，更多技术、资讯~