/ Hex Artifact Content
Login

Artifact 25c2070e1e8755d414bf9c8200427b277a9f99fa:


0000: 23 20 32 30 30 37 20 4a 75 6e 65 20 32 31 0a 23  # 2007 June 21.#
0010: 0a 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69  .# The author di
0020: 73 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68  sclaims copyrigh
0030: 74 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65  t to this source
0040: 20 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65   code.  In place
0050: 20 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f   of.# a legal no
0060: 74 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20  tice, here is a 
0070: 62 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20  blessing:.#.#   
0080: 20 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64   May you do good
0090: 20 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23   and not evil..#
00a0: 20 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64      May you find
00b0: 20 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72   forgiveness for
00c0: 20 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f   yourself and fo
00d0: 72 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20  rgive others..# 
00e0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
00f0: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0100: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0110: 79 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a  you give..#.#***
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 0a 23 20 54 68 69 73 20 66 69  ******.# This fi
0170: 6c 65 20 69 6d 70 6c 65 6d 65 6e 74 73 20 72 65  le implements re
0180: 67 72 65 73 73 69 6f 6e 20 74 65 73 74 73 20 66  gression tests f
0190: 6f 72 20 53 51 4c 69 74 65 20 6c 69 62 72 61 72  or SQLite librar
01a0: 79 2e 20 54 68 65 20 66 6f 63 75 73 20 0a 23 20  y. The focus .# 
01b0: 6f 66 20 74 68 69 73 20 73 63 72 69 70 74 20 69  of this script i
01c0: 73 20 74 65 73 74 69 6e 67 20 74 68 65 20 70 6c  s testing the pl
01d0: 75 67 67 61 62 6c 65 20 74 6f 6b 65 6e 69 73 65  uggable tokenise
01e0: 72 20 66 65 61 74 75 72 65 20 6f 66 20 74 68 65  r feature of the
01f0: 20 0a 23 20 46 54 53 33 20 6d 6f 64 75 6c 65 2e   .# FTS3 module.
0200: 0a 23 0a 23 20 24 49 64 3a 20 66 74 73 33 61 74  .#.# $Id: fts3at
0210: 6f 6b 65 6e 2e 74 65 73 74 2c 76 20 31 2e 31 20  oken.test,v 1.1 
0220: 32 30 30 37 2f 30 38 2f 32 30 20 31 37 3a 33 38  2007/08/20 17:38
0230: 3a 34 32 20 73 68 65 73 73 20 45 78 70 20 24 0a  :42 shess Exp $.
0240: 23 0a 0a 73 65 74 20 74 65 73 74 64 69 72 20 5b  #..set testdir [
0250: 66 69 6c 65 20 64 69 72 6e 61 6d 65 20 24 61 72  file dirname $ar
0260: 67 76 30 5d 0a 73 6f 75 72 63 65 20 24 74 65 73  gv0].source $tes
0270: 74 64 69 72 2f 74 65 73 74 65 72 2e 74 63 6c 0a  tdir/tester.tcl.
0280: 0a 23 20 49 66 20 53 51 4c 49 54 45 5f 45 4e 41  .# If SQLITE_ENA
0290: 42 4c 45 5f 46 54 53 33 20 69 73 20 64 65 66 69  BLE_FTS3 is defi
02a0: 6e 65 64 2c 20 6f 6d 69 74 20 74 68 69 73 20 66  ned, omit this f
02b0: 69 6c 65 2e 0a 69 66 63 61 70 61 62 6c 65 20 21  ile..ifcapable !
02c0: 66 74 73 33 20 7b 0a 20 20 66 69 6e 69 73 68 5f  fts3 {.  finish_
02d0: 74 65 73 74 0a 20 20 72 65 74 75 72 6e 0a 7d 0a  test.  return.}.
02e0: 0a 70 72 6f 63 20 65 73 63 61 70 65 5f 73 74 72  .proc escape_str
02f0: 69 6e 67 20 7b 73 74 72 7d 20 7b 0a 20 20 73 65  ing {str} {.  se
0300: 74 20 6f 75 74 20 22 22 0a 20 20 66 6f 72 65 61  t out "".  forea
0310: 63 68 20 63 68 61 72 20 5b 73 70 6c 69 74 20 24  ch char [split $
0320: 73 74 72 20 22 22 5d 20 7b 0a 20 20 20 20 73 63  str ""] {.    sc
0330: 61 6e 20 24 63 68 61 72 20 25 63 20 69 0a 20 20  an $char %c i.  
0340: 20 20 69 66 20 7b 24 69 3c 3d 31 32 37 7d 20 7b    if {$i<=127} {
0350: 0a 20 20 20 20 20 20 61 70 70 65 6e 64 20 6f 75  .      append ou
0360: 74 20 24 63 68 61 72 0a 20 20 20 20 7d 20 65 6c  t $char.    } el
0370: 73 65 20 7b 0a 20 20 20 20 20 20 61 70 70 65 6e  se {.      appen
0380: 64 20 6f 75 74 20 5b 66 6f 72 6d 61 74 20 7b 5c  d out [format {\
0390: 78 25 2e 34 78 7d 20 24 69 5d 0a 20 20 20 20 7d  x%.4x} $i].    }
03a0: 0a 20 20 7d 0a 20 20 73 65 74 20 6f 75 74 0a 7d  .  }.  set out.}
03b0: 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ..#-------------
03c0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03d0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03e0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03f0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20  -------------.# 
0400: 54 65 73 74 20 63 61 73 65 73 20 66 74 73 33 74  Test cases fts3t
0410: 6f 6b 65 6e 2d 31 2e 2a 20 61 72 65 20 74 68 65  oken-1.* are the
0420: 20 77 61 72 6d 2d 62 6f 64 79 20 74 65 73 74 20   warm-body test 
0430: 66 6f 72 20 74 68 65 20 53 51 4c 20 73 63 61 6c  for the SQL scal
0440: 61 72 0a 23 20 66 75 6e 63 74 69 6f 6e 20 66 74  ar.# function ft
0450: 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 28 29 2e 20  s3_tokenizer(). 
0460: 54 68 65 20 70 72 6f 63 65 64 75 72 65 20 69 73  The procedure is
0470: 20 61 73 20 66 6f 6c 6c 6f 77 73 3a 0a 23 0a 23   as follows:.#.#
0480: 20 20 20 31 3a 20 56 65 72 69 66 79 20 74 68 61     1: Verify tha
0490: 74 20 74 68 65 72 65 20 69 73 20 6e 6f 20 73 75  t there is no su
04a0: 63 68 20 66 74 73 33 20 74 6f 6b 65 6e 69 7a 65  ch fts3 tokenize
04b0: 72 20 61 73 20 27 62 6c 61 68 27 2e 0a 23 0a 23  r as 'blah'..#.#
04c0: 20 20 20 32 3a 20 51 75 65 72 79 20 66 6f 72 20     2: Query for 
04d0: 74 68 65 20 62 75 69 6c 74 2d 69 6e 20 74 6f 6b  the built-in tok
04e0: 65 6e 69 7a 65 72 20 27 73 69 6d 70 6c 65 27 2e  enizer 'simple'.
04f0: 20 49 6e 73 65 72 74 20 61 20 63 6f 70 79 20 6f   Insert a copy o
0500: 66 20 74 68 65 0a 23 20 20 20 20 20 20 72 65 74  f the.#      ret
0510: 72 69 65 76 65 64 20 76 61 6c 75 65 20 61 73 20  rieved value as 
0520: 74 6f 6b 65 6e 69 7a 65 72 20 27 62 6c 61 68 27  tokenizer 'blah'
0530: 2e 0a 23 0a 23 20 20 20 33 3a 20 54 65 73 74 20  ..#.#   3: Test 
0540: 74 68 61 74 20 74 68 65 20 76 61 6c 75 65 20 72  that the value r
0550: 65 74 75 72 6e 65 64 20 66 6f 72 20 74 6f 6b 65  eturned for toke
0560: 6e 69 7a 65 72 20 27 62 6c 61 68 27 20 69 73 20  nizer 'blah' is 
0570: 6e 6f 77 20 74 68 65 0a 23 20 20 20 20 20 20 73  now the.#      s
0580: 61 6d 65 20 61 73 20 74 68 61 74 20 72 65 74 72  ame as that retr
0590: 69 65 76 65 64 20 66 6f 72 20 27 73 69 6d 70 6c  ieved for 'simpl
05a0: 65 27 2e 0a 23 0a 23 20 20 20 34 3a 20 54 65 73  e'..#.#   4: Tes
05b0: 74 20 74 68 61 74 20 69 74 20 69 73 20 6e 6f 77  t that it is now
05c0: 20 70 6f 73 73 69 62 6c 65 20 74 6f 20 63 72 65   possible to cre
05d0: 61 74 65 20 61 6e 20 66 74 73 33 20 74 61 62 6c  ate an fts3 tabl
05e0: 65 20 75 73 69 6e 67 20 0a 23 20 20 20 20 20 20  e using .#      
05f0: 74 6f 6b 65 6e 69 7a 65 72 20 27 62 6c 61 68 27  tokenizer 'blah'
0600: 20 28 69 74 20 77 61 73 20 6e 6f 74 20 70 6f 73   (it was not pos
0610: 73 69 62 6c 65 20 69 6e 20 73 74 65 70 20 31 29  sible in step 1)
0620: 2e 0a 23 0a 23 20 20 20 35 3a 20 54 65 73 74 20  ..#.#   5: Test 
0630: 74 68 61 74 20 74 68 65 20 74 61 62 6c 65 20 63  that the table c
0640: 72 65 61 74 65 64 20 74 6f 20 75 73 65 20 74 6f  reated to use to
0650: 6b 65 6e 69 7a 65 72 20 27 62 6c 61 68 27 20 69  kenizer 'blah' i
0660: 73 20 75 73 61 62 6c 65 2e 0a 23 0a 64 6f 5f 74  s usable..#.do_t
0670: 65 73 74 20 66 74 73 33 74 6f 6b 65 6e 2d 31 2e  est fts3token-1.
0680: 31 20 7b 0a 20 20 63 61 74 63 68 73 71 6c 20 7b  1 {.  catchsql {
0690: 0a 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54  .    CREATE VIRT
06a0: 55 41 4c 20 54 41 42 4c 45 20 74 31 20 55 53 49  UAL TABLE t1 USI
06b0: 4e 47 20 66 74 73 33 28 63 6f 6e 74 65 6e 74 2c  NG fts3(content,
06c0: 20 74 6f 6b 65 6e 69 7a 65 20 62 6c 61 68 29 3b   tokenize blah);
06d0: 0a 20 20 7d 0a 7d 20 7b 31 20 7b 75 6e 6b 6e 6f  .  }.} {1 {unkno
06e0: 77 6e 20 74 6f 6b 65 6e 69 7a 65 72 3a 20 62 6c  wn tokenizer: bl
06f0: 61 68 7d 7d 0a 64 6f 5f 74 65 73 74 20 66 74 73  ah}}.do_test fts
0700: 33 74 6f 6b 65 6e 2d 31 2e 32 20 7b 0a 20 20 65  3token-1.2 {.  e
0710: 78 65 63 73 71 6c 20 7b 0a 20 20 20 20 53 45 4c  xecsql {.    SEL
0720: 45 43 54 20 66 74 73 33 5f 74 6f 6b 65 6e 69 7a  ECT fts3_tokeniz
0730: 65 72 28 27 62 6c 61 68 27 2c 20 66 74 73 33 5f  er('blah', fts3_
0740: 74 6f 6b 65 6e 69 7a 65 72 28 27 73 69 6d 70 6c  tokenizer('simpl
0750: 65 27 29 29 20 49 53 20 4e 55 4c 4c 3b 0a 20 20  e')) IS NULL;.  
0760: 7d 0a 7d 20 7b 30 7d 0a 64 6f 5f 74 65 73 74 20  }.} {0}.do_test 
0770: 66 74 73 33 74 6f 6b 65 6e 2d 31 2e 33 20 7b 0a  fts3token-1.3 {.
0780: 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20 20    execsql {.    
0790: 53 45 4c 45 43 54 20 66 74 73 33 5f 74 6f 6b 65  SELECT fts3_toke
07a0: 6e 69 7a 65 72 28 27 62 6c 61 68 27 29 20 3d 3d  nizer('blah') ==
07b0: 20 66 74 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 28   fts3_tokenizer(
07c0: 27 73 69 6d 70 6c 65 27 29 3b 0a 20 20 7d 0a 7d  'simple');.  }.}
07d0: 20 7b 31 7d 0a 64 6f 5f 74 65 73 74 20 66 74 73   {1}.do_test fts
07e0: 33 74 6f 6b 65 6e 2d 31 2e 34 20 7b 0a 20 20 63  3token-1.4 {.  c
07f0: 61 74 63 68 73 71 6c 20 7b 0a 20 20 20 20 43 52  atchsql {.    CR
0800: 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42  EATE VIRTUAL TAB
0810: 4c 45 20 74 31 20 55 53 49 4e 47 20 66 74 73 33  LE t1 USING fts3
0820: 28 63 6f 6e 74 65 6e 74 2c 20 74 6f 6b 65 6e 69  (content, tokeni
0830: 7a 65 20 62 6c 61 68 29 3b 0a 20 20 7d 0a 7d 20  ze blah);.  }.} 
0840: 7b 30 20 7b 7d 7d 0a 64 6f 5f 74 65 73 74 20 66  {0 {}}.do_test f
0850: 74 73 33 74 6f 6b 65 6e 2d 31 2e 35 20 7b 0a 20  ts3token-1.5 {. 
0860: 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20 20 49   execsql {.    I
0870: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 28 63 6f  NSERT INTO t1(co
0880: 6e 74 65 6e 74 29 20 56 41 4c 55 45 53 28 27 54  ntent) VALUES('T
0890: 68 65 72 65 20 77 61 73 20 6d 6f 76 65 6d 65 6e  here was movemen
08a0: 74 20 61 74 20 74 68 65 20 73 74 61 74 69 6f 6e  t at the station
08b0: 27 29 3b 0a 20 20 20 20 49 4e 53 45 52 54 20 49  ');.    INSERT I
08c0: 4e 54 4f 20 74 31 28 63 6f 6e 74 65 6e 74 29 20  NTO t1(content) 
08d0: 56 41 4c 55 45 53 28 27 46 6f 72 20 74 68 65 20  VALUES('For the 
08e0: 77 6f 72 64 20 68 61 73 20 70 61 73 73 65 64 20  word has passed 
08f0: 61 72 6f 75 6e 64 27 29 3b 0a 20 20 20 20 49 4e  around');.    IN
0900: 53 45 52 54 20 49 4e 54 4f 20 74 31 28 63 6f 6e  SERT INTO t1(con
0910: 74 65 6e 74 29 20 56 41 4c 55 45 53 28 27 54 68  tent) VALUES('Th
0920: 61 74 20 74 68 65 20 63 6f 6c 74 20 66 72 6f 6d  at the colt from
0930: 20 6f 6c 20 72 65 67 72 65 74 20 68 61 64 20 67   ol regret had g
0940: 6f 74 20 61 77 61 79 27 29 3b 0a 20 20 20 20 53  ot away');.    S
0950: 45 4c 45 43 54 20 63 6f 6e 74 65 6e 74 20 46 52  ELECT content FR
0960: 4f 4d 20 74 31 20 57 48 45 52 45 20 63 6f 6e 74  OM t1 WHERE cont
0970: 65 6e 74 20 4d 41 54 43 48 20 27 6d 6f 76 65 6d  ent MATCH 'movem
0980: 65 6e 74 27 0a 20 20 7d 0a 7d 20 7b 7b 54 68 65  ent'.  }.} {{The
0990: 72 65 20 77 61 73 20 6d 6f 76 65 6d 65 6e 74 20  re was movement 
09a0: 61 74 20 74 68 65 20 73 74 61 74 69 6f 6e 7d 7d  at the station}}
09b0: 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ..#-------------
09c0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09d0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09e0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09f0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20  -------------.# 
0a00: 54 65 73 74 20 63 61 73 65 73 20 66 74 73 33 74  Test cases fts3t
0a10: 6f 6b 65 6e 2d 32 2e 2a 20 74 65 73 74 20 65 72  oken-2.* test er
0a20: 72 6f 72 20 63 61 73 65 73 20 69 6e 20 74 68 65  ror cases in the
0a30: 20 73 63 61 6c 61 72 20 66 75 6e 63 74 69 6f 6e   scalar function
0a40: 20 62 61 73 65 64 0a 23 20 41 50 49 20 66 6f 72   based.# API for
0a50: 20 67 65 74 74 69 6e 67 20 61 6e 64 20 73 65 74   getting and set
0a60: 74 69 6e 67 20 74 6f 6b 65 6e 69 7a 65 72 73 2e  ting tokenizers.
0a70: 0a 23 0a 64 6f 5f 74 65 73 74 20 66 74 73 33 74  .#.do_test fts3t
0a80: 6f 6b 65 6e 2d 32 2e 31 20 7b 0a 20 20 63 61 74  oken-2.1 {.  cat
0a90: 63 68 73 71 6c 20 7b 0a 20 20 20 20 53 45 4c 45  chsql {.    SELE
0aa0: 43 54 20 66 74 73 33 5f 74 6f 6b 65 6e 69 7a 65  CT fts3_tokenize
0ab0: 72 28 27 6e 6f 73 75 63 68 74 6f 6b 65 6e 69 7a  r('nosuchtokeniz
0ac0: 65 72 27 29 3b 0a 20 20 7d 0a 7d 20 7b 31 20 7b  er');.  }.} {1 {
0ad0: 75 6e 6b 6e 6f 77 6e 20 74 6f 6b 65 6e 69 7a 65  unknown tokenize
0ae0: 72 3a 20 6e 6f 73 75 63 68 74 6f 6b 65 6e 69 7a  r: nosuchtokeniz
0af0: 65 72 7d 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d  er}}..#---------
0b00: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b10: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b40: 2d 0a 23 20 54 65 73 74 20 63 61 73 65 73 20 66  -.# Test cases f
0b50: 74 73 33 74 6f 6b 65 6e 2d 33 2e 2a 20 74 65 73  ts3token-3.* tes
0b60: 74 20 74 68 65 20 74 68 72 65 65 20 62 75 69 6c  t the three buil
0b70: 74 2d 69 6e 20 74 6f 6b 65 6e 69 7a 65 72 73 20  t-in tokenizers 
0b80: 77 69 74 68 20 61 0a 23 20 73 69 6d 70 6c 65 20  with a.# simple 
0b90: 69 6e 70 75 74 20 73 74 72 69 6e 67 20 76 69 61  input string via
0ba0: 20 74 68 65 20 62 75 69 6c 74 2d 69 6e 20 74 65   the built-in te
0bb0: 73 74 20 66 75 6e 63 74 69 6f 6e 2e 20 54 68 69  st function. Thi
0bc0: 73 20 69 73 20 61 73 20 6d 75 63 68 0a 23 20 74  s is as much.# t
0bd0: 6f 20 74 65 73 74 20 74 68 65 20 74 65 73 74 20  o test the test 
0be0: 66 75 6e 63 74 69 6f 6e 20 61 73 20 74 68 65 20  function as the 
0bf0: 74 6f 6b 65 6e 69 7a 65 72 20 69 6d 70 6c 65 6d  tokenizer implem
0c00: 65 6e 74 61 74 69 6f 6e 73 2e 0a 23 0a 64 6f 5f  entations..#.do_
0c10: 74 65 73 74 20 66 74 73 33 74 6f 6b 65 6e 2d 33  test fts3token-3
0c20: 2e 31 20 7b 0a 20 20 65 78 65 63 73 71 6c 20 7b  .1 {.  execsql {
0c30: 0a 20 20 20 20 53 45 4c 45 43 54 20 66 74 73 33  .    SELECT fts3
0c40: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 74 65 73 74 28  _tokenizer_test(
0c50: 27 73 69 6d 70 6c 65 27 2c 20 27 49 20 64 6f 6e  'simple', 'I don
0c60: 27 27 74 20 73 65 65 20 68 6f 77 27 29 3b 0a 20  ''t see how');. 
0c70: 20 7d 0a 7d 20 7b 7b 30 20 69 20 49 20 31 20 64   }.} {{0 i I 1 d
0c80: 6f 6e 20 64 6f 6e 20 32 20 74 20 74 20 33 20 73  on don 2 t t 3 s
0c90: 65 65 20 73 65 65 20 34 20 68 6f 77 20 68 6f 77  ee see 4 how how
0ca0: 7d 7d 0a 64 6f 5f 74 65 73 74 20 66 74 73 33 74  }}.do_test fts3t
0cb0: 6f 6b 65 6e 2d 33 2e 32 20 7b 0a 20 20 65 78 65  oken-3.2 {.  exe
0cc0: 63 73 71 6c 20 7b 0a 20 20 20 20 53 45 4c 45 43  csql {.    SELEC
0cd0: 54 20 66 74 73 33 5f 74 6f 6b 65 6e 69 7a 65 72  T fts3_tokenizer
0ce0: 5f 74 65 73 74 28 27 70 6f 72 74 65 72 27 2c 20  _test('porter', 
0cf0: 27 49 20 64 6f 6e 27 27 74 20 73 65 65 20 68 6f  'I don''t see ho
0d00: 77 27 29 3b 0a 20 20 7d 0a 7d 20 7b 7b 30 20 69  w');.  }.} {{0 i
0d10: 20 49 20 31 20 64 6f 6e 20 64 6f 6e 20 32 20 74   I 1 don don 2 t
0d20: 20 74 20 33 20 73 65 65 20 73 65 65 20 34 20 68   t 3 see see 4 h
0d30: 6f 77 20 68 6f 77 7d 7d 0a 69 66 63 61 70 61 62  ow how}}.ifcapab
0d40: 6c 65 20 69 63 75 20 7b 0a 20 20 64 6f 5f 74 65  le icu {.  do_te
0d50: 73 74 20 66 74 73 33 74 6f 6b 65 6e 2d 33 2e 33  st fts3token-3.3
0d60: 20 7b 0a 20 20 20 20 65 78 65 63 73 71 6c 20 7b   {.    execsql {
0d70: 0a 20 20 20 20 20 20 53 45 4c 45 43 54 20 66 74  .      SELECT ft
0d80: 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 74 65 73  s3_tokenizer_tes
0d90: 74 28 27 69 63 75 27 2c 20 27 49 20 64 6f 6e 27  t('icu', 'I don'
0da0: 27 74 20 73 65 65 20 68 6f 77 27 29 3b 0a 20 20  't see how');.  
0db0: 20 20 7d 0a 20 20 7d 20 7b 7b 30 20 69 20 49 20    }.  } {{0 i I 
0dc0: 31 20 64 6f 6e 27 74 20 64 6f 6e 27 74 20 32 20  1 don't don't 2 
0dd0: 73 65 65 20 73 65 65 20 33 20 68 6f 77 20 68 6f  see see 3 how ho
0de0: 77 7d 7d 0a 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d  w}}.}..#--------
0df0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e00: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e10: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e30: 2d 2d 0a 23 20 54 65 73 74 20 63 61 73 65 73 20  --.# Test cases 
0e40: 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 2a 20 74 65  fts3token-4.* te
0e50: 73 74 20 74 68 65 20 49 43 55 20 74 6f 6b 65 6e  st the ICU token
0e60: 69 7a 65 72 2e 20 49 6e 20 70 72 61 63 74 69 63  izer. In practic
0e70: 65 2c 20 74 68 69 73 0a 23 20 74 6f 6b 65 6e 69  e, this.# tokeni
0e80: 7a 65 72 20 6f 6e 6c 79 20 68 61 73 20 74 77 6f  zer only has two
0e90: 20 6d 6f 64 65 73 20 2d 20 22 74 68 61 69 22 20   modes - "thai" 
0ea0: 61 6e 64 20 22 65 76 65 72 79 62 6f 64 79 20 65  and "everybody e
0eb0: 6c 73 65 22 2e 20 53 6f 6d 65 20 6f 74 68 65 72  lse". Some other
0ec0: 0a 23 20 41 73 69 61 6e 20 6c 61 6e 67 75 61 67  .# Asian languag
0ed0: 65 73 20 28 4c 61 6f 2c 20 4b 68 6d 65 72 20 65  es (Lao, Khmer e
0ee0: 74 63 2e 29 20 72 65 71 75 69 72 65 20 74 68 65  tc.) require the
0ef0: 20 73 61 6d 65 20 73 70 65 63 69 61 6c 20 74 72   same special tr
0f00: 65 61 74 6d 65 6e 74 20 61 73 20 0a 23 20 54 68  eatment as .# Th
0f10: 61 69 2c 20 62 75 74 20 49 43 55 20 64 6f 65 73  ai, but ICU does
0f20: 6e 27 74 20 73 75 70 70 6f 72 74 20 74 68 65 6d  n't support them
0f30: 20 79 65 74 2e 0a 23 0a 69 66 63 61 70 61 62 6c   yet..#.ifcapabl
0f40: 65 20 69 63 75 20 7b 0a 0a 20 20 70 72 6f 63 20  e icu {..  proc 
0f50: 64 6f 5f 69 63 75 5f 74 65 73 74 20 7b 6e 61 6d  do_icu_test {nam
0f60: 65 20 6c 6f 63 61 6c 65 20 69 6e 70 75 74 20 6f  e locale input o
0f70: 75 74 70 75 74 7d 20 7b 0a 20 20 20 20 73 65 74  utput} {.    set
0f80: 20 3a 3a 6f 75 74 20 5b 64 62 20 65 76 61 6c 20   ::out [db eval 
0f90: 7b 20 53 45 4c 45 43 54 20 66 74 73 33 5f 74 6f  { SELECT fts3_to
0fa0: 6b 65 6e 69 7a 65 72 5f 74 65 73 74 28 27 69 63  kenizer_test('ic
0fb0: 75 27 2c 20 24 6c 6f 63 61 6c 65 2c 20 24 69 6e  u', $locale, $in
0fc0: 70 75 74 29 20 7d 5d 0a 20 20 20 20 64 6f 5f 74  put) }].    do_t
0fd0: 65 73 74 20 24 6e 61 6d 65 20 7b 0a 20 20 20 20  est $name {.    
0fe0: 20 20 6c 69 6e 64 65 78 20 24 3a 3a 6f 75 74 20    lindex $::out 
0ff0: 30 0a 20 20 20 20 7d 20 24 6f 75 74 70 75 74 0a  0.    } $output.
1000: 20 20 7d 0a 20 20 0a 20 20 64 6f 5f 69 63 75 5f    }.  .  do_icu_
1010: 74 65 73 74 20 66 74 73 33 74 6f 6b 65 6e 2d 34  test fts3token-4
1020: 2e 31 20 65 6e 5f 55 53 20 20 7b 7d 20 20 20 7b  .1 en_US  {}   {
1030: 7d 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73 74 20  }.  do_icu_test 
1040: 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 32 20 65 6e  fts3token-4.2 en
1050: 5f 55 53 20 7b 54 65 73 74 20 63 61 73 65 73 20  _US {Test cases 
1060: 66 74 73 33 7d 20 5b 6c 69 73 74 20 5c 0a 20 20  fts3} [list \.  
1070: 20 20 30 20 74 65 73 74 20 54 65 73 74 20 31 20    0 test Test 1 
1080: 63 61 73 65 73 20 63 61 73 65 73 20 32 20 66 74  cases cases 2 ft
1090: 73 33 20 66 74 73 33 0a 20 20 5d 0a 0a 20 20 23  s3 fts3.  ]..  #
10a0: 20 54 68 65 20 66 6f 6c 6c 6f 77 69 6e 67 20 74   The following t
10b0: 65 73 74 20 73 68 6f 77 73 20 74 68 61 74 20 49  est shows that I
10c0: 43 55 20 69 73 20 73 6d 61 72 74 20 65 6e 6f 75  CU is smart enou
10d0: 67 68 20 74 6f 20 72 65 63 6f 67 6e 69 73 65 0a  gh to recognise.
10e0: 20 20 23 20 54 68 61 69 20 63 68 61 72 61 72 61    # Thai charara
10f0: 63 74 65 72 73 2c 20 65 76 65 6e 20 77 68 65 6e  cters, even when
1100: 20 74 68 65 20 6c 6f 63 61 6c 65 20 69 73 20 73   the locale is s
1110: 65 74 20 74 6f 20 45 6e 67 6c 69 73 68 2f 55 6e  et to English/Un
1120: 69 74 65 64 20 0a 20 20 23 20 53 74 61 74 65 73  ited .  # States
1130: 2e 0a 20 20 23 0a 20 20 73 65 74 20 69 6e 70 75  ..  #.  set inpu
1140: 74 20 22 5c 75 30 65 32 64 5c 75 30 65 33 30 5c  t "\u0e2d\u0e30\
1150: 75 30 65 34 34 5c 75 30 65 32 33 5c 75 30 65 31  u0e44\u0e23\u0e1
1160: 39 5c 75 30 65 33 30 5c 75 30 65 30 34 5c 75 30  9\u0e30\u0e04\u0
1170: 65 32 33 5c 75 30 65 33 31 5c 75 30 65 31 61 22  e23\u0e31\u0e1a"
1180: 0a 20 20 73 65 74 20 6f 75 74 70 75 74 20 20 20  .  set output   
1190: 20 22 30 20 5c 75 30 65 32 64 5c 75 30 65 33 30   "0 \u0e2d\u0e30
11a0: 5c 75 30 65 34 34 5c 75 30 65 32 33 20 5c 75 30  \u0e44\u0e23 \u0
11b0: 65 32 64 5c 75 30 65 33 30 5c 75 30 65 34 34 5c  e2d\u0e30\u0e44\
11c0: 75 30 65 32 33 20 22 0a 20 20 61 70 70 65 6e 64  u0e23 ".  append
11d0: 20 6f 75 74 70 75 74 20 22 31 20 5c 75 30 65 31   output "1 \u0e1
11e0: 39 5c 75 30 65 33 30 20 5c 75 30 65 31 39 5c 75  9\u0e30 \u0e19\u
11f0: 30 65 33 30 20 22 0a 20 20 61 70 70 65 6e 64 20  0e30 ".  append 
1200: 6f 75 74 70 75 74 20 22 32 20 5c 75 30 65 30 34  output "2 \u0e04
1210: 5c 75 30 65 32 33 5c 75 30 65 33 31 5c 75 30 65  \u0e23\u0e31\u0e
1220: 31 61 20 5c 75 30 65 30 34 5c 75 30 65 32 33 5c  1a \u0e04\u0e23\
1230: 75 30 65 33 31 5c 75 30 65 31 61 22 0a 0a 20 20  u0e31\u0e1a"..  
1240: 64 6f 5f 69 63 75 5f 74 65 73 74 20 66 74 73 33  do_icu_test fts3
1250: 74 6f 6b 65 6e 2d 34 2e 33 20 74 68 5f 54 48 20  token-4.3 th_TH 
1260: 20 24 69 6e 70 75 74 20 24 6f 75 74 70 75 74 0a   $input $output.
1270: 20 20 64 6f 5f 69 63 75 5f 74 65 73 74 20 66 74    do_icu_test ft
1280: 73 33 74 6f 6b 65 6e 2d 34 2e 34 20 65 6e 5f 55  s3token-4.4 en_U
1290: 53 20 20 24 69 6e 70 75 74 20 24 6f 75 74 70 75  S  $input $outpu
12a0: 74 0a 0a 20 20 23 20 49 43 55 20 68 61 6e 64 6c  t..  # ICU handl
12b0: 65 73 20 61 6e 20 75 6e 6b 6e 6f 77 6e 20 6c 6f  es an unknown lo
12c0: 63 61 6c 65 20 62 79 20 66 61 6c 6c 69 6e 67 20  cale by falling 
12d0: 62 61 63 6b 20 74 6f 20 74 68 65 20 64 65 66 61  back to the defa
12e0: 75 6c 74 2e 0a 20 20 23 20 53 6f 20 74 68 69 73  ult..  # So this
12f0: 20 69 73 20 6e 6f 74 20 61 6e 20 65 72 72 6f 72   is not an error
1300: 2e 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73 74 20  ..  do_icu_test 
1310: 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 35 20 4d 69  fts3token-4.5 Mi
1320: 64 64 6c 65 4f 66 54 68 65 4f 63 65 61 6e 20 20  ddleOfTheOcean  
1330: 24 69 6e 70 75 74 20 24 6f 75 74 70 75 74 0a 0a  $input $output..
1340: 20 20 73 65 74 20 20 20 20 6c 6f 6e 67 74 6f 6b    set    longtok
1350: 65 6e 20 22 41 52 65 61 6c 6c 79 52 65 61 6c 6c  en "AReallyReall
1360: 79 4c 6f 6e 67 54 6f 6b 65 6e 4f 6e 65 54 68 61  yLongTokenOneTha
1370: 74 57 69 6c 6c 53 75 72 65 6c 79 52 65 71 75 69  tWillSurelyRequi
1380: 72 65 22 0a 20 20 61 70 70 65 6e 64 20 6c 6f 6e  re".  append lon
1390: 67 74 6f 6b 65 6e 20 22 41 52 65 61 6c 6c 6f 63  gtoken "ARealloc
13a0: 49 6e 54 68 65 49 63 75 54 6f 6b 65 6e 69 7a 65  InTheIcuTokenize
13b0: 72 43 6f 64 65 22 0a 0a 20 20 73 65 74 20 20 20  rCode"..  set   
13c0: 20 69 6e 70 75 74 20 22 73 68 6f 72 74 20 74 6f   input "short to
13d0: 6b 65 6e 73 20 74 68 65 6e 20 22 0a 20 20 61 70  kens then ".  ap
13e0: 70 65 6e 64 20 69 6e 70 75 74 20 24 6c 6f 6e 67  pend input $long
13f0: 74 6f 6b 65 6e 0a 20 20 73 65 74 20 20 20 20 6f  token.  set    o
1400: 75 74 70 75 74 20 22 30 20 73 68 6f 72 74 20 73  utput "0 short s
1410: 68 6f 72 74 20 22 0a 20 20 61 70 70 65 6e 64 20  hort ".  append 
1420: 6f 75 74 70 75 74 20 22 31 20 74 6f 6b 65 6e 73  output "1 tokens
1430: 20 74 6f 6b 65 6e 73 20 22 0a 20 20 61 70 70 65   tokens ".  appe
1440: 6e 64 20 6f 75 74 70 75 74 20 22 32 20 74 68 65  nd output "2 the
1450: 6e 20 74 68 65 6e 20 22 0a 20 20 61 70 70 65 6e  n then ".  appen
1460: 64 20 6f 75 74 70 75 74 20 22 33 20 5b 73 74 72  d output "3 [str
1470: 69 6e 67 20 74 6f 6c 6f 77 65 72 20 24 6c 6f 6e  ing tolower $lon
1480: 67 74 6f 6b 65 6e 5d 20 24 6c 6f 6e 67 74 6f 6b  gtoken] $longtok
1490: 65 6e 22 0a 0a 20 20 64 6f 5f 69 63 75 5f 74 65  en"..  do_icu_te
14a0: 73 74 20 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 36  st fts3token-4.6
14b0: 20 4d 69 64 64 6c 65 4f 66 54 68 65 4f 63 65 61   MiddleOfTheOcea
14c0: 6e 20 20 24 69 6e 70 75 74 20 24 6f 75 74 70 75  n  $input $outpu
14d0: 74 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73 74 20  t.  do_icu_test 
14e0: 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 37 20 74 68  fts3token-4.7 th
14f0: 5f 54 48 20 20 24 69 6e 70 75 74 20 24 6f 75 74  _TH  $input $out
1500: 70 75 74 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73  put.  do_icu_tes
1510: 74 20 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 38 20  t fts3token-4.8 
1520: 65 6e 5f 55 53 20 20 24 69 6e 70 75 74 20 24 6f  en_US  $input $o
1530: 75 74 70 75 74 0a 7d 0a 0a 64 6f 5f 74 65 73 74  utput.}..do_test
1540: 20 66 74 73 33 74 6f 6b 65 6e 2d 69 6e 74 65 72   fts3token-inter
1550: 6e 61 6c 20 7b 0a 20 20 65 78 65 63 73 71 6c 20  nal {.  execsql 
1560: 7b 20 53 45 4c 45 43 54 20 66 74 73 33 5f 74 6f  { SELECT fts3_to
1570: 6b 65 6e 69 7a 65 72 5f 69 6e 74 65 72 6e 61 6c  kenizer_internal
1580: 5f 74 65 73 74 28 29 20 7d 0a 7d 20 7b 6f 6b 7d  _test() }.} {ok}
1590: 0a 0a 66 69 6e 69 73 68 5f 74 65 73 74 0a        ..finish_test.