«August 2025»
12
3456789
10111213141516
17181920212223
24252627282930
31


公告

本站技术贴除标明为“原创”的之外,其余均为网上转载,文中我会尽量保留原作者姓名,若有侵权请与我联系,我将第一时间做出修改。谢谢!

             ——既瑜


天气预报(南京)


我的分类(专题)

首页(183)
【趣味文摘】(22)
【五子连珠】(13)
【技术文档】(136)
【电脑技术】(6)
【疑难问题】(1)
【我的心情】(5)


最新日志
花语(中英文对照版)
各种花的花语
NTFS格式的7个精彩问答(pconli
童言无忌,有趣得一蹋
给MM修电脑的三个步骤[转载]
J2EE 面试题综合
JAVA编程规则
[转] P2P之UDP穿透NAT的原理与
[转]词法分析器
文件加密技术
一个让人发狂的PI求解C程序
[转]直线生成算法之DDA
[转]利用内核对象----互斥量实现应用
[转]如何正确的计算文件收发进度
双机调试VC程序
[转]分治法优化大整数乘法 C++实现
浮点数值的内存结构
[转]双链表实现大整数的加法与乘法[VC
拜占廷将军问题[转]
某人的挂QQ的程序源代码,虽然没用了,拿

最新回复
回复:vc中的CString的操作
回复:[转]分治法优化大整数乘法 C++
回复:[转]分治法优化大整数乘法 C++
回复:花语(中英文对照版)
回复:基本排序算法比较与选择[转载]
回复:c++中强制类型转换操作符小结
回复:c++中强制类型转换操作符小结
何必那么执着于是大头猫还是愤怒的小鸟,淡
回复:浮点数值的内存结构
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:32位位图到24位位图的转换
dren, ages 16 and 20
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:花语(中英文对照版)
回复:各种花的花语

留言板
签写新留言

不是0-1背包喔
桂花的花语``
谢谢
提议
提议

统计
blog名称:★既瑜★
日志总数:183
评论数量:636
留言数量:-25
访问次数:1406344
建立时间:2005年3月12日

链接


http://www.nju.edu.cn
http://bbs.nju.edu.cn 
http://www.t7-online.com
http://www.csdn.net
http://www.91f.net
http://www.crsky.com
我的MSN BLOG 

联系我

  OICQ:215768265
  njucs2001@hotmail.com
  erichoo1982@gmail.com

 

W3CHINA Blog首页    管理页面    写新日志    退出


[【技术文档】]优化黑白棋估值参数[转载] 
既瑜(224499) 发表于 2005/7/13 9:12:42

   实际是个统计工作。但这里不打算讲模板参数的计算,因为模板估值本身可能不少人还不了解,另外,模板参数计算起来非常复杂,虽然其原理并不难,详细原理请参考 http://www.cs.ualberta.ca/~mburo/ps/improve.pdf ,本文实际是对这篇论文的简化和个人理解。顺便说一下,http://www.cs.ualberta.ca/~mburo/publications.html 这里有很多关于黑白棋的论文,要写黑白棋的朋友不可不看。    相信大家对稳定子、行动力、潜在行动力的概念都已经很清楚了。所以在此考虑一个简单的估值模型。f(p)=w1*f1(p) + w2*f2(p) + w3*f3(p),其中p为一个局面,f1是稳定子个数,f2是行动力,f3是潜在行动力,w1,w2,w3是他们的权重。要估值准确,就需要设置w1,w2,w3的值,通常我们都是猜测他们的值,或根据经验来设定。但是这样不能达到最优。实际上,我们可以统计大量的已知结果的棋局,来求出他们的值。对于已知的棋局,其结果是已知的,那么对于大量的棋局,我们要使得每个局面下通过f(p)计算得到的值尽量接近最终结果,这就是一个多元线性拟合问题。最终的目的是使每个局面的估值误差的平方和(我认为绝对值的和也可以)达到最小化。    对于这类问题,一般可以用多元线性回归来求解,求解一个方程组。但对于这里的情况而言,由于样本数量巨大,可达数百万个局面,直接求解方程组已经不可能。只能采用逐次逼近的办法。用w来表示向量(w1,w2,w3),f表示向量(f1,f2,f3),逼近迭代式如下w(t+1)=w(t)-b(Grad(E(w),w))*w(t),其中b>0是一个重要参数,控制了迭代速率。其中E(w)=Sigma(Delta(w,k)^2)/N,k=1...NDelta(w,k)=局面k的估值和局面最终结果的差值,Delta(w,k) = r(pk) - (w1*f1(pk) + w2*f2(pk) + w3*f3(pk))N是总局面数,Sigma是求和Grad(E(w),w))是对E求w的偏导数,注意,这里是向量结果是 -2*Sigma(fi(pk)*Delta(w,k))/N因此,最终的迭代式就是wi(t+1)=wi(t) + 2*b*Sigma(fi(pk)*Delta(w,k))/N,k=1...N其中wi的初始值可以选择0,但我对其中b的取值还不知道如何去估计,只能随便给了一个,注意,b取值过大可能导致迭代不收敛。    以上讲了一个简单的估值模型,实际应用中,估值参数在不同的游戏阶段有很大的不同,因此需要分段处理,但处理方法一样。比如将游戏分为20个阶段,根据局面中棋盘上剩余的空格数来分段,或者干脆分为60个阶段,每一步都是一个阶段。本文引用通告地址: http://blog.csdn.net/NowCan/services/trackbacks/405629.aspx

阅读全文(2398) | 回复(0) | 编辑 | 精华


发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.035 second(s), page refreshed 144753653 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号