Gemini需要的数据集格式

来源:互联网 发布:专业绘画软件 编辑:程序博客网 时间:2024/06/10 04:27

step1:

从Laboratory for Web Algorihmics下载wordassociation-2011.graph和wordassociation-2011.propertices两个文件:

wordassociation-2011.graph里的数据类型如下:

8ba7 a1d3 f18e 0175 81a4 dafc 254d e414e524 220d 456a 4928 a2d8 af40 91da fcbe8bb8 8461 6117 4fa0 a21d 8da6 9468 539460c0 4308 fd39 8a78 ac51 e518 c949 a98ed579 0186 458f f254 835e 5861 a644 b620d420 5388 2b29 58dd 15c1 8ce0 8c12 d2bb04af 2a0a 6a9a 9ffc 3141 02dc 15b2 34214bd5 e1a1 0154 6311 b377 3812 0e5d e609c553 542b d235 9010 10be 369b 1941 1b041746 1e00 6121 1fc2 f4cf d209 b02b 617d1102 2410 56d8 204a 3992 dfff 0953 e415e112 4454 c9a1 6004 11b5 350b 12b9 f8af2540 86de 3d42 2328 b7a7 e13a 11b8 39d284e7 1aca 5880 1e4a 6158 3080 e662 138bf254 82ba 0362 e282 cd25 59f1 9d5c 14db1096 2b84 908e 843d f162 d482 1323 7f50dca0 4bcf ff09 50c7 720a 6714 3ad8 40a58207 cc5e 70c5 3320 3271 f531 3042 8782d742 022c 8b96 e265 a469 3ff0 a754 8ef45eec f58a 805f e864 a4a0 dc89 d155 0af49b03 315b 9776 244d 517f 50cc b0b2 d89a

wordassociation-2011.propertices里是配置文件:

#BVGraph properties#Tue Nov 08 15:39:23 CET 2011compratio=0.883bitsforblocks=37011residualarcs=61314version=0zetak=3residualexpstats=5117,4870,4366,4020,3550,3302,3208,3877,5799,6964,7015,4839,2091,1797,499avgref=0.31residualavggap=1333.624avgbitsforoutdegrees=4.227windowsize=7bitsforintervals=9308copiedarcs=8890avgbitsforblocks=3.486bitsperlink=10.646bitsforresiduals=666674bitsforreferences=10480avgdist=0.514successoravgloggap=6.56046819690199avgbitsforreferences=0.987successoravggap=1178.816maxrefcount=3successorexpstats=8520,6838,5282,4754,4130,3669,3620,4359,6347,7702,7581,4944,2049,1844,533nodes=10617compressionflags=intervalisedarcs=1968bitspernode=72.37arcs=72172bitsforoutdegrees=44875avgbitsforintervals=0.877minintervallength=4graphclass=it.unimi.dsi.webgraph.BVGraphavgbitsforresiduals=62.793residualavgloggap=7.024087393160478

step2:

转成邻接表的格式,这里对于大数据集得到的结果会非常大,要注意内存是否够用。

wordassociation-2011-edgelist.txt如下:

1   01   21   31   41   51   33911   56631   75431   101801   101828   68   78   98   108   118   128   138   148   12608   13578   19228   33718   34728   45878   60998   68968   689815  1715  192215  757615  827416  1516  874818  19

amazon-2008-edgelist.txt如下:

0 1 63599 63670 389305 536016 536102 5985971 0 63670 389305 452950 536102 5928832 3 4 5 63610 184001 411660 504483 592273 592274 6060733 2 4 54 2 3 5 390818 556156 598610 6060245 2 3 4 6 13777 324264 6147746 5 7 605884 7135287 68 9 10 13 13064 63618 465029 467750 489647 556443 5728349 8 13 5824 14872 58923 411719 51477110 8 1111 1012 1313 8 9 12 14 15 16 183888 183889 573028 602430

以上这两种格式均可以通过txt转bin代码。

step3:

这一步是Gemini外加的,由txt转成bin格式所需时间非常长,我们实现的时候考虑省略这一步,并把它作为减少预处理时间的一处优化。

wordassociation-2011.bin如下:
以8位表示一个点(id),16位表示一条边(src和dst的id)

疑问:以598597为例,转成16进制后是92245,一个点有8位,所以应该是0009 2245,但是amazon-2008.bin里面却是4522 0900 为什么会这样?

0100 0000 0000 0000 0100 0000 0200 00000100 0000 0300 0000 0100 0000 0400 00000100 0000 0500 0000 0100 0000 3f0d 00000100 0000 1f16 0000 0100 0000 771d 00000100 0000 c427 0000 0100 0000 c627 00000800 0000 0600 0000 0800 0000 0700 00000800 0000 0900 0000 0800 0000 0a00 00000800 0000 0b00 0000 0800 0000 0c00 00000800 0000 0d00 0000 0800 0000 0e00 00000800 0000 ec04 0000 0800 0000 4d05 00000800 0000 8207 0000 0800 0000 2b0d 00000800 0000 900d 0000 0800 0000 eb11 00000800 0000 d317 0000 0800 0000 f01a 00000800 0000 f21a 0000 0f00 0000 1100 00000f00 0000 8207 0000 0f00 0000 981d 00000f00 0000 5220 0000 1000 0000 0f00 0000