1076: [SCOI2008]獎勵關 Time Limit: 10 Sec Memory Limit: 162 MB Submit: 328 Solved: 199 [Submit][Status][Discuss] Description 你正在玩你最喜歡的電子游戲,並且剛剛進入一個獎勵關。在這個獎勵關裡,系統將依次隨機拋出k次寶物,每次你都可以選擇吃或者不吃(必須在拋出下一個寶物之前做出選擇,且現在決定不吃的寶物以後也不能再吃)。 寶物一共有n種,系統每次拋出這n種寶物的概率都相同且相互獨立。也就是說,即使前k-1次系統都拋出寶物1(這種情況是有可能出現的,盡管概率非常小),第k次拋出各個寶物的概率依然均為1/n。 獲取第i種寶物將得到Pi分,但並不是每種寶物都是可以隨意獲取的。第i種寶物有一個前提寶物集合Si。只有當Si中所有寶物都至少吃過一次,才能吃第i種寶物(如果系統拋出了一個目前不能吃的寶物,相當於白白的損失了一次機會)。注意,Pi可以是負數,但如果它是很多高分寶物的前提,損失短期利益而吃掉這個負分寶物將獲得更大的長期利益。 假設你采取最優策略,平均情況你一共能在獎勵關得到多少分值? Input 第一行為兩個正整數k和n,即寶物的數量和種類。以下n行分別描述一種寶物,其中第一個整數代表分值,隨後的整數依次代表該寶物的各個前提寶物(各寶物編號為1到n),以0結尾。 Output 輸出一個實數,保留六位小數,即在最優策略下平均情況的得分。 Sample Input 1 2 1 0 2 0 Sample Output 1.500000 HINT 【樣例2】 Input 6 6 12 2 3 4 5 0 15 5 0 -2 2 4 5 0 -11 2 5 0 5 0 1 2 4 5 0 Output 10.023470 【數據規模】 1<=k<=100,1<=n<=15,分值為[-10^6,10^6]內的整數。 Source 期望DP. 根據期望DP 這一步的期望=(上一步的期望+上一步de得分)/k (k為種類數) 從後往前算是規避不可能狀態的常用手段 [cpp] #include<cstdio> #include<cstring> #include<algorithm> #include<cstdlib> #include<functional> #include<iostream> using namespace std; #define MAXN (100+10) #define MAXK (16) double f[MAXN][(1<<MAXK)-1]; int n,k,p[MAXK+1],d[MAXK+1]={0}; int main() { scanf("%d%d",&n,&k); int m=(1<<k)-1; for (int i=0;i<MAXN;i++) for (int j=0;j<=m;j++) f[i][j]=0.0; for (int i=1;i<=k;i++) { scanf("%d",&p[i]); int t; while (scanf("%d",&t)!=EOF&&t) { d[i]|=(1<<(t-1)); } } for (int i=n;i;i--) for (int j=0;j<=m;j++) { for (int l=1;l<=k;l++) if ((d[l]&j)==d[l]) f[i][j]+=max(f[i+1][j],f[i+1][j|(1<<(l-1))]+p[l]);//eat or not else f[i][j]+=f[i+1][j]; //can't eat f[i][j]/=(double)k; } printf("%.6lf\n",f[1][0]); return 0; }