/ Hex Artifact Content
Login

Artifact c3caecbe8264629ffe653b43ca5790b9793eba4422f92203e5247558e5a534e7:


0000: 23 20 32 30 31 34 20 44 65 63 20 32 30 0a 23 0a  # 2014 Dec 20.#.
0010: 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69 73  # The author dis
0020: 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68 74  claims copyright
0030: 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65 20   to this source 
0040: 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65 20  code.  In place 
0050: 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f 74  of.# a legal not
0060: 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20 62  ice, here is a b
0070: 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20 20  lessing:.#.#    
0080: 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20  May you do good 
0090: 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23 20  and not evil..# 
00a0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00b0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00c0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00d0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20 20  give others..#  
00e0: 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65 20    May you share 
00f0: 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74 61  freely, never ta
0100: 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20 79  king more than y
0110: 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a 2a  ou give..#.#****
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 0a 23 0a 23 20 54 65 73 74 73 20 66 6f  ***.#.# Tests fo
0170: 63 75 73 69 6e 67 20 6f 6e 20 74 68 65 20 66 74  cusing on the ft
0180: 73 35 20 74 6f 6b 65 6e 69 7a 65 72 73 0a 23 0a  s5 tokenizers.#.
0190: 0a 73 6f 75 72 63 65 20 5b 66 69 6c 65 20 6a 6f  .source [file jo
01a0: 69 6e 20 5b 66 69 6c 65 20 64 69 72 6e 61 6d 65  in [file dirname
01b0: 20 5b 69 6e 66 6f 20 73 63 72 69 70 74 5d 5d 20   [info script]] 
01c0: 66 74 73 35 5f 63 6f 6d 6d 6f 6e 2e 74 63 6c 5d  fts5_common.tcl]
01d0: 0a 0a 23 20 49 66 20 53 51 4c 49 54 45 5f 45 4e  ..# If SQLITE_EN
01e0: 41 42 4c 45 5f 46 54 53 35 20 69 73 20 64 65 66  ABLE_FTS5 is def
01f0: 69 6e 65 64 2c 20 6f 6d 69 74 20 74 68 69 73 20  ined, omit this 
0200: 66 69 6c 65 2e 0a 69 66 63 61 70 61 62 6c 65 20  file..ifcapable 
0210: 21 66 74 73 35 20 7b 0a 20 20 66 69 6e 69 73 68  !fts5 {.  finish
0220: 5f 74 65 73 74 0a 20 20 72 65 74 75 72 6e 0a 7d  _test.  return.}
0230: 0a 0a 70 72 6f 63 20 66 74 73 33 5f 75 6e 69 63  ..proc fts3_unic
0240: 6f 64 65 5f 70 61 74 68 20 7b 66 69 6c 65 7d 20  ode_path {file} 
0250: 7b 0a 20 20 66 69 6c 65 20 6a 6f 69 6e 20 5b 66  {.  file join [f
0260: 69 6c 65 20 64 69 72 6e 61 6d 65 20 5b 69 6e 66  ile dirname [inf
0270: 6f 20 73 63 72 69 70 74 5d 5d 20 2e 2e 20 2e 2e  o script]] .. ..
0280: 20 66 74 73 33 20 75 6e 69 63 6f 64 65 20 24 66   fts3 unicode $f
0290: 69 6c 65 0a 7d 0a 0a 73 6f 75 72 63 65 20 5b 66  ile.}..source [f
02a0: 74 73 33 5f 75 6e 69 63 6f 64 65 5f 70 61 74 68  ts3_unicode_path
02b0: 20 70 61 72 73 65 75 6e 69 63 6f 64 65 2e 74 63   parseunicode.tc
02c0: 6c 5d 0a 73 65 74 20 74 65 73 74 70 72 65 66 69  l].set testprefi
02d0: 78 20 66 74 73 35 75 6e 69 63 6f 64 65 33 0a 0a  x fts5unicode3..
02e0: 73 65 74 20 43 46 20 5b 66 74 73 33 5f 75 6e 69  set CF [fts3_uni
02f0: 63 6f 64 65 5f 70 61 74 68 20 43 61 73 65 46 6f  code_path CaseFo
0300: 6c 64 69 6e 67 2e 74 78 74 5d 0a 73 65 74 20 55  lding.txt].set U
0310: 44 20 5b 66 74 73 33 5f 75 6e 69 63 6f 64 65 5f  D [fts3_unicode_
0320: 70 61 74 68 20 55 6e 69 63 6f 64 65 44 61 74 61  path UnicodeData
0330: 2e 74 78 74 5d 0a 0a 74 6c 5f 6c 6f 61 64 5f 63  .txt]..tl_load_c
0340: 61 73 65 66 6f 6c 64 69 6e 67 5f 74 78 74 20 24  asefolding_txt $
0350: 43 46 0a 66 6f 72 65 61 63 68 20 78 20 5b 61 6e  CF.foreach x [an
0360: 5f 6c 6f 61 64 5f 75 6e 69 63 6f 64 65 64 61 74  _load_unicodedat
0370: 61 5f 74 65 78 74 20 24 55 44 5d 20 7b 0a 20 20  a_text $UD] {.  
0380: 73 65 74 20 61 4e 6f 74 41 6c 6e 75 6d 28 24 78  set aNotAlnum($x
0390: 29 20 31 0a 7d 0a 0a 66 6f 72 65 61 63 68 20 7b  ) 1.}..foreach {
03a0: 79 7d 20 5b 72 64 5f 6c 6f 61 64 5f 75 6e 69 63  y} [rd_load_unic
03b0: 6f 64 65 64 61 74 61 5f 74 65 78 74 20 24 55 44  odedata_text $UD
03c0: 5d 20 7b 0a 20 20 66 6f 72 65 61 63 68 20 7b 63  ] {.  foreach {c
03d0: 6f 64 65 20 61 73 63 69 69 7d 20 24 79 20 7b 7d  ode ascii} $y {}
03e0: 0a 20 20 69 66 20 7b 24 61 73 63 69 69 3d 3d 22  .  if {$ascii=="
03f0: 22 7d 20 7b 0a 20 20 20 20 73 65 74 20 69 6e 74  "} {.    set int
0400: 20 30 0a 20 20 7d 20 65 6c 73 65 20 7b 0a 20 20   0.  } else {.  
0410: 20 20 62 69 6e 61 72 79 20 73 63 61 6e 20 24 61    binary scan $a
0420: 73 63 69 69 20 63 20 69 6e 74 0a 20 20 7d 0a 20  scii c int.  }. 
0430: 20 73 65 74 20 61 44 69 61 63 72 69 74 69 63 28   set aDiacritic(
0440: 24 63 6f 64 65 29 20 24 69 6e 74 0a 7d 0a 0a 70  $code) $int.}..p
0450: 72 6f 63 20 74 63 6c 5f 66 6f 6c 64 20 7b 69 20  roc tcl_fold {i 
0460: 7b 62 52 65 6d 6f 76 65 44 69 61 63 72 69 74 69  {bRemoveDiacriti
0470: 63 20 30 7d 7d 20 7b 0a 20 20 67 6c 6f 62 61 6c  c 0}} {.  global
0480: 20 74 6c 5f 6c 6f 6f 6b 75 70 5f 74 61 62 6c 65   tl_lookup_table
0490: 0a 20 20 67 6c 6f 62 61 6c 20 61 44 69 61 63 72  .  global aDiacr
04a0: 69 74 69 63 0a 0a 20 20 69 66 20 7b 5b 69 6e 66  itic..  if {[inf
04b0: 6f 20 65 78 69 73 74 73 20 74 6c 5f 6c 6f 6f 6b  o exists tl_look
04c0: 75 70 5f 74 61 62 6c 65 28 24 69 29 5d 7d 20 7b  up_table($i)]} {
04d0: 0a 20 20 20 20 73 65 74 20 69 20 24 74 6c 5f 6c  .    set i $tl_l
04e0: 6f 6f 6b 75 70 5f 74 61 62 6c 65 28 24 69 29 0a  ookup_table($i).
04f0: 20 20 7d 0a 20 20 69 66 20 7b 24 62 52 65 6d 6f    }.  if {$bRemo
0500: 76 65 44 69 61 63 72 69 74 69 63 20 26 26 20 5b  veDiacritic && [
0510: 69 6e 66 6f 20 65 78 69 73 74 73 20 61 44 69 61  info exists aDia
0520: 63 72 69 74 69 63 28 24 69 29 5d 7d 20 7b 0a 20  critic($i)]} {. 
0530: 20 20 20 73 65 74 20 69 20 24 61 44 69 61 63 72     set i $aDiacr
0540: 69 74 69 63 28 24 69 29 0a 20 20 7d 0a 20 20 65  itic($i).  }.  e
0550: 78 70 72 20 24 69 0a 7d 0a 64 62 20 66 75 6e 63  xpr $i.}.db func
0560: 20 74 63 6c 5f 66 6f 6c 64 20 74 63 6c 5f 66 6f   tcl_fold tcl_fo
0570: 6c 64 0a 0a 70 72 6f 63 20 74 63 6c 5f 69 73 61  ld..proc tcl_isa
0580: 6c 6e 75 6d 20 7b 69 7d 20 7b 0a 20 20 67 6c 6f  lnum {i} {.  glo
0590: 62 61 6c 20 61 4e 6f 74 41 6c 6e 75 6d 0a 20 20  bal aNotAlnum.  
05a0: 65 78 70 72 20 7b 21 5b 69 6e 66 6f 20 65 78 69  expr {![info exi
05b0: 73 74 73 20 61 4e 6f 74 41 6c 6e 75 6d 28 24 69  sts aNotAlnum($i
05c0: 29 5d 7d 0a 7d 0a 64 62 20 66 75 6e 63 20 74 63  )]}.}.db func tc
05d0: 6c 5f 69 73 61 6c 6e 75 6d 20 74 63 6c 5f 69 73  l_isalnum tcl_is
05e0: 61 6c 6e 75 6d 0a 0a 0a 64 6f 5f 63 61 74 63 68  alnum...do_catch
05f0: 73 71 6c 5f 74 65 73 74 20 31 2e 30 2e 31 20 7b  sql_test 1.0.1 {
0600: 0a 20 20 53 45 4c 45 43 54 20 66 74 73 35 5f 69  .  SELECT fts5_i
0610: 73 61 6c 6e 75 6d 28 31 2c 20 32 2c 20 33 29 3b  salnum(1, 2, 3);
0620: 0a 7d 20 7b 31 20 7b 77 72 6f 6e 67 20 6e 75 6d  .} {1 {wrong num
0630: 62 65 72 20 6f 66 20 61 72 67 75 6d 65 6e 74 73  ber of arguments
0640: 20 74 6f 20 66 75 6e 63 74 69 6f 6e 20 66 74 73   to function fts
0650: 35 5f 69 73 61 6c 6e 75 6d 7d 7d 0a 64 6f 5f 63  5_isalnum}}.do_c
0660: 61 74 63 68 73 71 6c 5f 74 65 73 74 20 31 2e 30  atchsql_test 1.0
0670: 2e 32 20 7b 0a 20 20 53 45 4c 45 43 54 20 66 74  .2 {.  SELECT ft
0680: 73 35 5f 66 6f 6c 64 28 29 3b 0a 7d 20 7b 31 20  s5_fold();.} {1 
0690: 7b 77 72 6f 6e 67 20 6e 75 6d 62 65 72 20 6f 66  {wrong number of
06a0: 20 61 72 67 75 6d 65 6e 74 73 20 74 6f 20 66 75   arguments to fu
06b0: 6e 63 74 69 6f 6e 20 66 74 73 35 5f 66 6f 6c 64  nction fts5_fold
06c0: 7d 7d 0a 64 6f 5f 63 61 74 63 68 73 71 6c 5f 74  }}.do_catchsql_t
06d0: 65 73 74 20 31 2e 30 2e 33 20 7b 0a 20 20 53 45  est 1.0.3 {.  SE
06e0: 4c 45 43 54 20 66 74 73 35 5f 66 6f 6c 64 28 31  LECT fts5_fold(1
06f0: 2c 32 2c 33 29 3b 0a 7d 20 7b 31 20 7b 77 72 6f  ,2,3);.} {1 {wro
0700: 6e 67 20 6e 75 6d 62 65 72 20 6f 66 20 61 72 67  ng number of arg
0710: 75 6d 65 6e 74 73 20 74 6f 20 66 75 6e 63 74 69  uments to functi
0720: 6f 6e 20 66 74 73 35 5f 66 6f 6c 64 7d 7d 0a 0a  on fts5_fold}}..
0730: 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20  do_execsql_test 
0740: 31 2e 31 20 7b 0a 20 20 57 49 54 48 20 69 69 28  1.1 {.  WITH ii(
0750: 69 29 20 41 53 20 28 0a 20 20 20 20 53 45 4c 45  i) AS (.    SELE
0760: 43 54 20 2d 31 0a 20 20 20 20 55 4e 49 4f 4e 20  CT -1.    UNION 
0770: 41 4c 4c 0a 20 20 20 20 53 45 4c 45 43 54 20 69  ALL.    SELECT i
0780: 2b 31 20 46 52 4f 4d 20 69 69 20 57 48 45 52 45  +1 FROM ii WHERE
0790: 20 69 3c 31 30 30 30 30 30 0a 20 20 29 0a 20 20   i<100000.  ).  
07a0: 53 45 4c 45 43 54 20 63 6f 75 6e 74 28 2a 29 2c  SELECT count(*),
07b0: 20 6d 69 6e 28 69 29 20 46 52 4f 4d 20 69 69 20   min(i) FROM ii 
07c0: 57 48 45 52 45 20 66 74 73 35 5f 66 6f 6c 64 28  WHERE fts5_fold(
07d0: 69 29 21 3d 43 41 53 54 28 74 63 6c 5f 66 6f 6c  i)!=CAST(tcl_fol
07e0: 64 28 69 29 20 41 53 20 69 6e 74 29 3b 0a 7d 20  d(i) AS int);.} 
07f0: 7b 30 20 7b 7d 7d 0a 0a 64 6f 5f 65 78 65 63 73  {0 {}}..do_execs
0800: 71 6c 5f 74 65 73 74 20 31 2e 32 20 7b 0a 20 20  ql_test 1.2 {.  
0810: 57 49 54 48 20 69 69 28 69 29 20 41 53 20 28 0a  WITH ii(i) AS (.
0820: 20 20 20 20 53 45 4c 45 43 54 20 2d 31 0a 20 20      SELECT -1.  
0830: 20 20 55 4e 49 4f 4e 20 41 4c 4c 0a 20 20 20 20    UNION ALL.    
0840: 53 45 4c 45 43 54 20 69 2b 31 20 46 52 4f 4d 20  SELECT i+1 FROM 
0850: 69 69 20 57 48 45 52 45 20 69 3c 31 30 30 30 30  ii WHERE i<10000
0860: 30 0a 20 20 29 0a 20 20 53 45 4c 45 43 54 20 63  0.  ).  SELECT c
0870: 6f 75 6e 74 28 2a 29 2c 20 6d 69 6e 28 69 29 20  ount(*), min(i) 
0880: 46 52 4f 4d 20 69 69 20 0a 20 20 57 48 45 52 45  FROM ii .  WHERE
0890: 20 66 74 73 35 5f 66 6f 6c 64 28 69 2c 31 29 21   fts5_fold(i,1)!
08a0: 3d 43 41 53 54 28 74 63 6c 5f 66 6f 6c 64 28 69  =CAST(tcl_fold(i
08b0: 2c 31 29 20 41 53 20 69 6e 74 29 3b 0a 7d 20 7b  ,1) AS int);.} {
08c0: 30 20 7b 7d 7d 0a 0a 64 6f 5f 65 78 65 63 73 71  0 {}}..do_execsq
08d0: 6c 5f 74 65 73 74 20 31 2e 33 20 7b 0a 20 20 57  l_test 1.3 {.  W
08e0: 49 54 48 20 69 69 28 69 29 20 41 53 20 28 0a 20  ITH ii(i) AS (. 
08f0: 20 20 20 53 45 4c 45 43 54 20 2d 31 0a 20 20 20     SELECT -1.   
0900: 20 55 4e 49 4f 4e 20 41 4c 4c 0a 20 20 20 20 53   UNION ALL.    S
0910: 45 4c 45 43 54 20 69 2b 31 20 46 52 4f 4d 20 69  ELECT i+1 FROM i
0920: 69 20 57 48 45 52 45 20 69 3c 31 30 30 30 30 30  i WHERE i<100000
0930: 0a 20 20 29 0a 20 20 53 45 4c 45 43 54 20 63 6f  .  ).  SELECT co
0940: 75 6e 74 28 2a 29 2c 20 6d 69 6e 28 69 29 20 46  unt(*), min(i) F
0950: 52 4f 4d 20 69 69 20 0a 20 20 57 48 45 52 45 20  ROM ii .  WHERE 
0960: 66 74 73 35 5f 69 73 61 6c 6e 75 6d 28 69 29 21  fts5_isalnum(i)!
0970: 3d 43 41 53 54 28 74 63 6c 5f 69 73 61 6c 6e 75  =CAST(tcl_isalnu
0980: 6d 28 69 29 20 41 53 20 69 6e 74 29 3b 0a 7d 20  m(i) AS int);.} 
0990: 7b 30 20 7b 7d 7d 0a 0a 64 6f 5f 74 65 73 74 20  {0 {}}..do_test 
09a0: 31 2e 34 20 7b 0a 20 20 73 65 74 20 73 74 72 20  1.4 {.  set str 
09b0: 7b 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20  {CREATE VIRTUAL 
09c0: 54 41 42 4c 45 20 66 33 20 55 53 49 4e 47 20 66  TABLE f3 USING f
09d0: 74 73 35 28 61 2c 20 74 6f 6b 65 6e 69 7a 65 3d  ts5(a, tokenize=
09e0: 7d 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b  }.  append str {
09f0: 22 75 6e 69 63 6f 64 65 36 31 20 73 65 70 61 72  "unicode61 separ
0a00: 61 74 6f 72 73 20 27 7d 0a 20 20 66 6f 72 20 7b  ators '}.  for {
0a10: 73 65 74 20 69 20 37 30 30 7d 20 7b 24 69 3c 39  set i 700} {$i<9
0a20: 30 30 7d 20 7b 69 6e 63 72 20 69 7d 20 7b 0a 20  00} {incr i} {. 
0a30: 20 20 20 61 70 70 65 6e 64 20 73 74 72 20 5b 66     append str [f
0a40: 6f 72 6d 61 74 20 25 63 20 24 69 5d 0a 20 20 7d  ormat %c $i].  }
0a50: 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b 27  .  append str {'
0a60: 22 29 3b 7d 0a 20 20 65 78 65 63 73 71 6c 20 24  ");}.  execsql $
0a70: 73 74 72 0a 7d 20 7b 7d 0a 64 6f 5f 74 65 73 74  str.} {}.do_test
0a80: 20 31 2e 35 20 7b 0a 20 20 73 65 74 20 73 74 72   1.5 {.  set str
0a90: 20 7b 43 52 45 41 54 45 20 56 49 52 54 55 41 4c   {CREATE VIRTUAL
0aa0: 20 54 41 42 4c 45 20 66 35 20 55 53 49 4e 47 20   TABLE f5 USING 
0ab0: 66 74 73 35 28 61 2c 20 74 6f 6b 65 6e 69 7a 65  fts5(a, tokenize
0ac0: 3d 7d 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20  =}.  append str 
0ad0: 7b 22 75 6e 69 63 6f 64 65 36 31 20 74 6f 6b 65  {"unicode61 toke
0ae0: 6e 63 68 61 72 73 20 27 7d 0a 20 20 66 6f 72 20  nchars '}.  for 
0af0: 7b 73 65 74 20 69 20 37 30 30 7d 20 7b 24 69 3c  {set i 700} {$i<
0b00: 39 30 30 7d 20 7b 69 6e 63 72 20 69 7d 20 7b 0a  900} {incr i} {.
0b10: 20 20 20 20 61 70 70 65 6e 64 20 73 74 72 20 5b      append str [
0b20: 66 6f 72 6d 61 74 20 25 63 20 24 69 5d 0a 20 20  format %c $i].  
0b30: 7d 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b  }.  append str {
0b40: 27 22 29 3b 7d 0a 20 20 65 78 65 63 73 71 6c 20  '");}.  execsql 
0b50: 24 73 74 72 0a 7d 20 7b 7d 0a 0a 0a 66 69 6e 69  $str.} {}...fini
0b60: 73 68 5f 74 65 73 74 0a                          sh_test.