/ Hex Artifact Content
Login

Artifact deb46f7020d87ea7a14a433fb7a7f4bef42a9652:


0000: 2f 2a 0a 2a 2a 20 32 30 30 37 20 4a 75 6e 65 20  /*.** 2007 June 
0010: 32 32 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74  22.**.** The aut
0020: 68 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f  hor disclaims co
0030: 70 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20  pyright to this 
0040: 73 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49 6e  source code.  In
0050: 20 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20 6c   place of.** a l
0060: 65 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65 72  egal notice, her
0070: 65 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67 3a  e is a blessing:
0080: 0a 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79 6f  .**.**    May yo
0090: 75 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e 6f  u do good and no
00a0: 74 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d 61  t evil..**    Ma
00b0: 79 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67 69  y you find forgi
00c0: 76 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72 73  veness for yours
00d0: 65 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65 20  elf and forgive 
00e0: 6f 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d 61  others..**    Ma
00f0: 79 20 79 6f 75 20 73 68 61 72 65 20 66 72 65 65  y you share free
0100: 6c 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e 67  ly, never taking
0110: 20 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20 67   more than you g
0120: 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a  ive..**.********
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 0a 2a 2a 20 54 68 69 73 20 66 69 6c 65 20 69  *.** This file i
0180: 6d 70 6c 65 6d 65 6e 74 73 20 61 20 74 6f 6b 65  mplements a toke
0190: 6e 69 7a 65 72 20 66 6f 72 20 66 74 73 33 20 62  nizer for fts3 b
01a0: 61 73 65 64 20 6f 6e 20 74 68 65 20 49 43 55 20  ased on the ICU 
01b0: 6c 69 62 72 61 72 79 2e 0a 2a 2f 0a 23 69 6e 63  library..*/.#inc
01c0: 6c 75 64 65 20 22 66 74 73 33 49 6e 74 2e 68 22  lude "fts3Int.h"
01d0: 0a 23 69 66 20 21 64 65 66 69 6e 65 64 28 53 51  .#if !defined(SQ
01e0: 4c 49 54 45 5f 43 4f 52 45 29 20 7c 7c 20 64 65  LITE_CORE) || de
01f0: 66 69 6e 65 64 28 53 51 4c 49 54 45 5f 45 4e 41  fined(SQLITE_ENA
0200: 42 4c 45 5f 46 54 53 33 29 0a 23 69 66 64 65 66  BLE_FTS3).#ifdef
0210: 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 49   SQLITE_ENABLE_I
0220: 43 55 0a 0a 23 69 6e 63 6c 75 64 65 20 3c 61 73  CU..#include <as
0230: 73 65 72 74 2e 68 3e 0a 23 69 6e 63 6c 75 64 65  sert.h>.#include
0240: 20 3c 73 74 72 69 6e 67 2e 68 3e 0a 23 69 6e 63   <string.h>.#inc
0250: 6c 75 64 65 20 22 66 74 73 33 5f 74 6f 6b 65 6e  lude "fts3_token
0260: 69 7a 65 72 2e 68 22 0a 0a 23 69 6e 63 6c 75 64  izer.h"..#includ
0270: 65 20 3c 75 6e 69 63 6f 64 65 2f 75 62 72 6b 2e  e <unicode/ubrk.
0280: 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 75 6e 69  h>.#include <uni
0290: 63 6f 64 65 2f 75 63 6f 6c 2e 68 3e 0a 23 69 6e  code/ucol.h>.#in
02a0: 63 6c 75 64 65 20 3c 75 6e 69 63 6f 64 65 2f 75  clude <unicode/u
02b0: 73 74 72 69 6e 67 2e 68 3e 0a 23 69 6e 63 6c 75  string.h>.#inclu
02c0: 64 65 20 3c 75 6e 69 63 6f 64 65 2f 75 74 66 31  de <unicode/utf1
02d0: 36 2e 68 3e 0a 0a 74 79 70 65 64 65 66 20 73 74  6.h>..typedef st
02e0: 72 75 63 74 20 49 63 75 54 6f 6b 65 6e 69 7a 65  ruct IcuTokenize
02f0: 72 20 49 63 75 54 6f 6b 65 6e 69 7a 65 72 3b 0a  r IcuTokenizer;.
0300: 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20 49  typedef struct I
0310: 63 75 43 75 72 73 6f 72 20 49 63 75 43 75 72 73  cuCursor IcuCurs
0320: 6f 72 3b 0a 0a 73 74 72 75 63 74 20 49 63 75 54  or;..struct IcuT
0330: 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20 20 73 71 6c  okenizer {.  sql
0340: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 62  ite3_tokenizer b
0350: 61 73 65 3b 0a 20 20 63 68 61 72 20 2a 7a 4c 6f  ase;.  char *zLo
0360: 63 61 6c 65 3b 0a 7d 3b 0a 0a 73 74 72 75 63 74  cale;.};..struct
0370: 20 49 63 75 43 75 72 73 6f 72 20 7b 0a 20 20 73   IcuCursor {.  s
0380: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
0390: 5f 63 75 72 73 6f 72 20 62 61 73 65 3b 0a 0a 20  _cursor base;.. 
03a0: 20 55 42 72 65 61 6b 49 74 65 72 61 74 6f 72 20   UBreakIterator 
03b0: 2a 70 49 74 65 72 3b 20 20 20 20 20 20 2f 2a 20  *pIter;      /* 
03c0: 49 43 55 20 62 72 65 61 6b 2d 69 74 65 72 61 74  ICU break-iterat
03d0: 6f 72 20 6f 62 6a 65 63 74 20 2a 2f 0a 20 20 69  or object */.  i
03e0: 6e 74 20 6e 43 68 61 72 3b 20 20 20 20 20 20 20  nt nChar;       
03f0: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4e 75             /* Nu
0400: 6d 62 65 72 20 6f 66 20 55 43 68 61 72 20 65 6c  mber of UChar el
0410: 65 6d 65 6e 74 73 20 69 6e 20 70 49 6e 70 75 74  ements in pInput
0420: 20 2a 2f 0a 20 20 55 43 68 61 72 20 2a 61 43 68   */.  UChar *aCh
0430: 61 72 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  ar;             
0440: 20 20 2f 2a 20 43 6f 70 79 20 6f 66 20 69 6e 70    /* Copy of inp
0450: 75 74 20 75 73 69 6e 67 20 75 74 66 2d 31 36 20  ut using utf-16 
0460: 65 6e 63 6f 64 69 6e 67 20 2a 2f 0a 20 20 69 6e  encoding */.  in
0470: 74 20 2a 61 4f 66 66 73 65 74 3b 20 20 20 20 20  t *aOffset;     
0480: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 66 66            /* Off
0490: 73 65 74 73 20 6f 66 20 65 61 63 68 20 63 68 61  sets of each cha
04a0: 72 61 63 74 65 72 20 69 6e 20 75 74 66 2d 38 20  racter in utf-8 
04b0: 69 6e 70 75 74 20 2a 2f 0a 0a 20 20 69 6e 74 20  input */..  int 
04c0: 6e 42 75 66 66 65 72 3b 0a 20 20 63 68 61 72 20  nBuffer;.  char 
04d0: 2a 7a 42 75 66 66 65 72 3b 0a 0a 20 20 69 6e 74  *zBuffer;..  int
04e0: 20 69 54 6f 6b 65 6e 3b 0a 7d 3b 0a 0a 2f 2a 0a   iToken;.};../*.
04f0: 2a 2a 20 43 72 65 61 74 65 20 61 20 6e 65 77 20  ** Create a new 
0500: 74 6f 6b 65 6e 69 7a 65 72 20 69 6e 73 74 61 6e  tokenizer instan
0510: 63 65 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  ce..*/.static in
0520: 74 20 69 63 75 43 72 65 61 74 65 28 0a 20 20 69  t icuCreate(.  i
0530: 6e 74 20 61 72 67 63 2c 20 20 20 20 20 20 20 20  nt argc,        
0540: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0550: 20 20 20 20 2f 2a 20 4e 75 6d 62 65 72 20 6f 66      /* Number of
0560: 20 65 6e 74 72 69 65 73 20 69 6e 20 61 72 67 76   entries in argv
0570: 5b 5d 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68  [] */.  const ch
0580: 61 72 20 2a 20 63 6f 6e 73 74 20 2a 61 72 67 76  ar * const *argv
0590: 2c 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20  ,            /* 
05a0: 54 6f 6b 65 6e 69 7a 65 72 20 63 72 65 61 74 69  Tokenizer creati
05b0: 6f 6e 20 61 72 67 75 6d 65 6e 74 73 20 2a 2f 0a  on arguments */.
05c0: 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69    sqlite3_tokeni
05d0: 7a 65 72 20 2a 2a 70 70 54 6f 6b 65 6e 69 7a 65  zer **ppTokenize
05e0: 72 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 43  r      /* OUT: C
05f0: 72 65 61 74 65 64 20 74 6f 6b 65 6e 69 7a 65 72  reated tokenizer
0600: 20 2a 2f 0a 29 7b 0a 20 20 49 63 75 54 6f 6b 65   */.){.  IcuToke
0610: 6e 69 7a 65 72 20 2a 70 3b 0a 20 20 69 6e 74 20  nizer *p;.  int 
0620: 6e 20 3d 20 30 3b 0a 0a 20 20 69 66 28 20 61 72  n = 0;..  if( ar
0630: 67 63 3e 30 20 29 7b 0a 20 20 20 20 6e 20 3d 20  gc>0 ){.    n = 
0640: 73 74 72 6c 65 6e 28 61 72 67 76 5b 30 5d 29 2b  strlen(argv[0])+
0650: 31 3b 0a 20 20 7d 0a 20 20 70 20 3d 20 28 49 63  1;.  }.  p = (Ic
0660: 75 54 6f 6b 65 6e 69 7a 65 72 20 2a 29 73 71 6c  uTokenizer *)sql
0670: 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65  ite3_malloc(size
0680: 6f 66 28 49 63 75 54 6f 6b 65 6e 69 7a 65 72 29  of(IcuTokenizer)
0690: 2b 6e 29 3b 0a 20 20 69 66 28 20 21 70 20 29 7b  +n);.  if( !p ){
06a0: 0a 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c 49  .    return SQLI
06b0: 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 7d 0a 20 20  TE_NOMEM;.  }.  
06c0: 6d 65 6d 73 65 74 28 70 2c 20 30 2c 20 73 69 7a  memset(p, 0, siz
06d0: 65 6f 66 28 49 63 75 54 6f 6b 65 6e 69 7a 65 72  eof(IcuTokenizer
06e0: 29 29 3b 0a 0a 20 20 69 66 28 20 6e 20 29 7b 0a  ));..  if( n ){.
06f0: 20 20 20 20 70 2d 3e 7a 4c 6f 63 61 6c 65 20 3d      p->zLocale =
0700: 20 28 63 68 61 72 20 2a 29 26 70 5b 31 5d 3b 0a   (char *)&p[1];.
0710: 20 20 20 20 6d 65 6d 63 70 79 28 70 2d 3e 7a 4c      memcpy(p->zL
0720: 6f 63 61 6c 65 2c 20 61 72 67 76 5b 30 5d 2c 20  ocale, argv[0], 
0730: 6e 29 3b 0a 20 20 7d 0a 0a 20 20 2a 70 70 54 6f  n);.  }..  *ppTo
0740: 6b 65 6e 69 7a 65 72 20 3d 20 28 73 71 6c 69 74  kenizer = (sqlit
0750: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 70  e3_tokenizer *)p
0760: 3b 0a 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49  ;..  return SQLI
0770: 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  TE_OK;.}../*.** 
0780: 44 65 73 74 72 6f 79 20 61 20 74 6f 6b 65 6e 69  Destroy a tokeni
0790: 7a 65 72 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  zer.*/.static in
07a0: 74 20 69 63 75 44 65 73 74 72 6f 79 28 73 71 6c  t icuDestroy(sql
07b0: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  ite3_tokenizer *
07c0: 70 54 6f 6b 65 6e 69 7a 65 72 29 7b 0a 20 20 49  pTokenizer){.  I
07d0: 63 75 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d  cuTokenizer *p =
07e0: 20 28 49 63 75 54 6f 6b 65 6e 69 7a 65 72 20 2a   (IcuTokenizer *
07f0: 29 70 54 6f 6b 65 6e 69 7a 65 72 3b 0a 20 20 73  )pTokenizer;.  s
0800: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 29 3b 0a  qlite3_free(p);.
0810: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
0820: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 50 72 65  OK;.}../*.** Pre
0830: 70 61 72 65 20 74 6f 20 62 65 67 69 6e 20 74 6f  pare to begin to
0840: 6b 65 6e 69 7a 69 6e 67 20 61 20 70 61 72 74 69  kenizing a parti
0850: 63 75 6c 61 72 20 73 74 72 69 6e 67 2e 20 20 54  cular string.  T
0860: 68 65 20 69 6e 70 75 74 0a 2a 2a 20 73 74 72 69  he input.** stri
0870: 6e 67 20 74 6f 20 62 65 20 74 6f 6b 65 6e 69 7a  ng to be tokeniz
0880: 65 64 20 69 73 20 70 49 6e 70 75 74 5b 30 2e 2e  ed is pInput[0..
0890: 6e 42 79 74 65 73 2d 31 5d 2e 20 20 41 20 63 75  nBytes-1].  A cu
08a0: 72 73 6f 72 0a 2a 2a 20 75 73 65 64 20 74 6f 20  rsor.** used to 
08b0: 69 6e 63 72 65 6d 65 6e 74 61 6c 6c 79 20 74 6f  incrementally to
08c0: 6b 65 6e 69 7a 65 20 74 68 69 73 20 73 74 72 69  kenize this stri
08d0: 6e 67 20 69 73 20 72 65 74 75 72 6e 65 64 20 69  ng is returned i
08e0: 6e 20 0a 2a 2a 20 2a 70 70 43 75 72 73 6f 72 2e  n .** *ppCursor.
08f0: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 69  .*/.static int i
0900: 63 75 4f 70 65 6e 28 0a 20 20 73 71 6c 69 74 65  cuOpen(.  sqlite
0910: 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f  3_tokenizer *pTo
0920: 6b 65 6e 69 7a 65 72 2c 20 20 20 20 20 20 20 20  kenizer,        
0930: 20 2f 2a 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65   /* The tokenize
0940: 72 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61  r */.  const cha
0950: 72 20 2a 7a 49 6e 70 75 74 2c 20 20 20 20 20 20  r *zInput,      
0960: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
0970: 20 49 6e 70 75 74 20 73 74 72 69 6e 67 20 2a 2f   Input string */
0980: 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 2c 20 20  .  int nInput,  
0990: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
09a0: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4c 65 6e            /* Len
09b0: 67 74 68 20 6f 66 20 7a 49 6e 70 75 74 20 69 6e  gth of zInput in
09c0: 20 62 79 74 65 73 20 2a 2f 0a 20 20 73 71 6c 69   bytes */.  sqli
09d0: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
09e0: 72 73 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72 20  rsor **ppCursor 
09f0: 20 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e     /* OUT: Token
0a00: 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f 72 20 2a  ization cursor *
0a10: 2f 0a 29 7b 0a 20 20 49 63 75 54 6f 6b 65 6e 69  /.){.  IcuTokeni
0a20: 7a 65 72 20 2a 70 20 3d 20 28 49 63 75 54 6f 6b  zer *p = (IcuTok
0a30: 65 6e 69 7a 65 72 20 2a 29 70 54 6f 6b 65 6e 69  enizer *)pTokeni
0a40: 7a 65 72 3b 0a 20 20 49 63 75 43 75 72 73 6f 72  zer;.  IcuCursor
0a50: 20 2a 70 43 73 72 3b 0a 0a 20 20 63 6f 6e 73 74   *pCsr;..  const
0a60: 20 69 6e 74 33 32 5f 74 20 6f 70 74 20 3d 20 55   int32_t opt = U
0a70: 5f 46 4f 4c 44 5f 43 41 53 45 5f 44 45 46 41 55  _FOLD_CASE_DEFAU
0a80: 4c 54 3b 0a 20 20 55 45 72 72 6f 72 43 6f 64 65  LT;.  UErrorCode
0a90: 20 73 74 61 74 75 73 20 3d 20 55 5f 5a 45 52 4f   status = U_ZERO
0aa0: 5f 45 52 52 4f 52 3b 0a 20 20 69 6e 74 20 6e 43  _ERROR;.  int nC
0ab0: 68 61 72 3b 0a 0a 20 20 55 43 68 61 72 33 32 20  har;..  UChar32 
0ac0: 63 3b 0a 20 20 69 6e 74 20 69 49 6e 70 75 74 20  c;.  int iInput 
0ad0: 3d 20 30 3b 0a 20 20 69 6e 74 20 69 4f 75 74 20  = 0;.  int iOut 
0ae0: 3d 20 30 3b 0a 0a 20 20 2a 70 70 43 75 72 73 6f  = 0;..  *ppCurso
0af0: 72 20 3d 20 30 3b 0a 0a 20 20 69 66 28 20 7a 49  r = 0;..  if( zI
0b00: 6e 70 75 74 3d 3d 30 20 29 7b 0a 20 20 20 20 6e  nput==0 ){.    n
0b10: 49 6e 70 75 74 20 3d 20 30 3b 0a 20 20 20 20 7a  Input = 0;.    z
0b20: 49 6e 70 75 74 20 3d 20 22 22 3b 0a 20 20 7d 65  Input = "";.  }e
0b30: 6c 73 65 20 69 66 28 20 6e 49 6e 70 75 74 3c 30  lse if( nInput<0
0b40: 20 29 7b 0a 20 20 20 20 6e 49 6e 70 75 74 20 3d   ){.    nInput =
0b50: 20 73 74 72 6c 65 6e 28 7a 49 6e 70 75 74 29 3b   strlen(zInput);
0b60: 0a 20 20 7d 0a 20 20 6e 43 68 61 72 20 3d 20 6e  .  }.  nChar = n
0b70: 49 6e 70 75 74 2b 31 3b 0a 20 20 70 43 73 72 20  Input+1;.  pCsr 
0b80: 3d 20 28 49 63 75 43 75 72 73 6f 72 20 2a 29 73  = (IcuCursor *)s
0b90: 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 0a 20  qlite3_malloc(. 
0ba0: 20 20 20 20 20 73 69 7a 65 6f 66 28 49 63 75 43       sizeof(IcuC
0bb0: 75 72 73 6f 72 29 20 2b 20 20 20 20 20 20 20 20  ursor) +        
0bc0: 20 20 20 20 20 20 20 20 2f 2a 20 49 63 75 43 75          /* IcuCu
0bd0: 72 73 6f 72 20 2a 2f 0a 20 20 20 20 20 20 28 28  rsor */.      ((
0be0: 6e 43 68 61 72 2b 33 29 26 7e 33 29 20 2a 20 73  nChar+3)&~3) * s
0bf0: 69 7a 65 6f 66 28 55 43 68 61 72 29 20 2b 20 20  izeof(UChar) +  
0c00: 20 2f 2a 20 49 63 75 43 75 72 73 6f 72 2e 61 43   /* IcuCursor.aC
0c10: 68 61 72 5b 5d 20 2a 2f 0a 20 20 20 20 20 20 28  har[] */.      (
0c20: 6e 43 68 61 72 2b 31 29 20 2a 20 73 69 7a 65 6f  nChar+1) * sizeo
0c30: 66 28 69 6e 74 29 20 20 20 20 20 20 20 20 20 20  f(int)          
0c40: 20 20 2f 2a 20 49 63 75 43 75 72 73 6f 72 2e 61    /* IcuCursor.a
0c50: 4f 66 66 73 65 74 5b 5d 20 2a 2f 0a 20 20 29 3b  Offset[] */.  );
0c60: 0a 20 20 69 66 28 20 21 70 43 73 72 20 29 7b 0a  .  if( !pCsr ){.
0c70: 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54      return SQLIT
0c80: 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 7d 0a 20 20 6d  E_NOMEM;.  }.  m
0c90: 65 6d 73 65 74 28 70 43 73 72 2c 20 30 2c 20 73  emset(pCsr, 0, s
0ca0: 69 7a 65 6f 66 28 49 63 75 43 75 72 73 6f 72 29  izeof(IcuCursor)
0cb0: 29 3b 0a 20 20 70 43 73 72 2d 3e 61 43 68 61 72  );.  pCsr->aChar
0cc0: 20 3d 20 28 55 43 68 61 72 20 2a 29 26 70 43 73   = (UChar *)&pCs
0cd0: 72 5b 31 5d 3b 0a 20 20 70 43 73 72 2d 3e 61 4f  r[1];.  pCsr->aO
0ce0: 66 66 73 65 74 20 3d 20 28 69 6e 74 20 2a 29 26  ffset = (int *)&
0cf0: 70 43 73 72 2d 3e 61 43 68 61 72 5b 28 6e 43 68  pCsr->aChar[(nCh
0d00: 61 72 2b 33 29 26 7e 33 5d 3b 0a 0a 20 20 70 43  ar+3)&~3];..  pC
0d10: 73 72 2d 3e 61 4f 66 66 73 65 74 5b 69 4f 75 74  sr->aOffset[iOut
0d20: 5d 20 3d 20 69 49 6e 70 75 74 3b 0a 20 20 55 38  ] = iInput;.  U8
0d30: 5f 4e 45 58 54 28 7a 49 6e 70 75 74 2c 20 69 49  _NEXT(zInput, iI
0d40: 6e 70 75 74 2c 20 6e 49 6e 70 75 74 2c 20 63 29  nput, nInput, c)
0d50: 3b 20 0a 20 20 77 68 69 6c 65 28 20 63 3e 30 20  ; .  while( c>0 
0d60: 29 7b 0a 20 20 20 20 69 6e 74 20 69 73 45 72 72  ){.    int isErr
0d70: 6f 72 20 3d 20 30 3b 0a 20 20 20 20 63 20 3d 20  or = 0;.    c = 
0d80: 75 5f 66 6f 6c 64 43 61 73 65 28 63 2c 20 6f 70  u_foldCase(c, op
0d90: 74 29 3b 0a 20 20 20 20 55 31 36 5f 41 50 50 45  t);.    U16_APPE
0da0: 4e 44 28 70 43 73 72 2d 3e 61 43 68 61 72 2c 20  ND(pCsr->aChar, 
0db0: 69 4f 75 74 2c 20 6e 43 68 61 72 2c 20 63 2c 20  iOut, nChar, c, 
0dc0: 69 73 45 72 72 6f 72 29 3b 0a 20 20 20 20 69 66  isError);.    if
0dd0: 28 20 69 73 45 72 72 6f 72 20 29 7b 0a 20 20 20  ( isError ){.   
0de0: 20 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28     sqlite3_free(
0df0: 70 43 73 72 29 3b 0a 20 20 20 20 20 20 72 65 74  pCsr);.      ret
0e00: 75 72 6e 20 53 51 4c 49 54 45 5f 45 52 52 4f 52  urn SQLITE_ERROR
0e10: 3b 0a 20 20 20 20 7d 0a 20 20 20 20 70 43 73 72  ;.    }.    pCsr
0e20: 2d 3e 61 4f 66 66 73 65 74 5b 69 4f 75 74 5d 20  ->aOffset[iOut] 
0e30: 3d 20 69 49 6e 70 75 74 3b 0a 0a 20 20 20 20 69  = iInput;..    i
0e40: 66 28 20 69 49 6e 70 75 74 3c 6e 49 6e 70 75 74  f( iInput<nInput
0e50: 20 29 7b 0a 20 20 20 20 20 20 55 38 5f 4e 45 58   ){.      U8_NEX
0e60: 54 28 7a 49 6e 70 75 74 2c 20 69 49 6e 70 75 74  T(zInput, iInput
0e70: 2c 20 6e 49 6e 70 75 74 2c 20 63 29 3b 0a 20 20  , nInput, c);.  
0e80: 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 20 20 63    }else{.      c
0e90: 20 3d 20 30 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a   = 0;.    }.  }.
0ea0: 0a 20 20 70 43 73 72 2d 3e 70 49 74 65 72 20 3d  .  pCsr->pIter =
0eb0: 20 75 62 72 6b 5f 6f 70 65 6e 28 55 42 52 4b 5f   ubrk_open(UBRK_
0ec0: 57 4f 52 44 2c 20 70 2d 3e 7a 4c 6f 63 61 6c 65  WORD, p->zLocale
0ed0: 2c 20 70 43 73 72 2d 3e 61 43 68 61 72 2c 20 69  , pCsr->aChar, i
0ee0: 4f 75 74 2c 20 26 73 74 61 74 75 73 29 3b 0a 20  Out, &status);. 
0ef0: 20 69 66 28 20 21 55 5f 53 55 43 43 45 53 53 28   if( !U_SUCCESS(
0f00: 73 74 61 74 75 73 29 20 29 7b 0a 20 20 20 20 73  status) ){.    s
0f10: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 43 73 72  qlite3_free(pCsr
0f20: 29 3b 0a 20 20 20 20 72 65 74 75 72 6e 20 53 51  );.    return SQ
0f30: 4c 49 54 45 5f 45 52 52 4f 52 3b 0a 20 20 7d 0a  LITE_ERROR;.  }.
0f40: 20 20 70 43 73 72 2d 3e 6e 43 68 61 72 20 3d 20    pCsr->nChar = 
0f50: 69 4f 75 74 3b 0a 0a 20 20 75 62 72 6b 5f 66 69  iOut;..  ubrk_fi
0f60: 72 73 74 28 70 43 73 72 2d 3e 70 49 74 65 72 29  rst(pCsr->pIter)
0f70: 3b 0a 20 20 2a 70 70 43 75 72 73 6f 72 20 3d 20  ;.  *ppCursor = 
0f80: 28 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a  (sqlite3_tokeniz
0f90: 65 72 5f 63 75 72 73 6f 72 20 2a 29 70 43 73 72  er_cursor *)pCsr
0fa0: 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54  ;.  return SQLIT
0fb0: 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43  E_OK;.}../*.** C
0fc0: 6c 6f 73 65 20 61 20 74 6f 6b 65 6e 69 7a 61 74  lose a tokenizat
0fd0: 69 6f 6e 20 63 75 72 73 6f 72 20 70 72 65 76 69  ion cursor previ
0fe0: 6f 75 73 6c 79 20 6f 70 65 6e 65 64 20 62 79 20  ously opened by 
0ff0: 61 20 63 61 6c 6c 20 74 6f 20 69 63 75 4f 70 65  a call to icuOpe
1000: 6e 28 29 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69  n()..*/.static i
1010: 6e 74 20 69 63 75 43 6c 6f 73 65 28 73 71 6c 69  nt icuClose(sqli
1020: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
1030: 72 73 6f 72 20 2a 70 43 75 72 73 6f 72 29 7b 0a  rsor *pCursor){.
1040: 20 20 49 63 75 43 75 72 73 6f 72 20 2a 70 43 73    IcuCursor *pCs
1050: 72 20 3d 20 28 49 63 75 43 75 72 73 6f 72 20 2a  r = (IcuCursor *
1060: 29 70 43 75 72 73 6f 72 3b 0a 20 20 75 62 72 6b  )pCursor;.  ubrk
1070: 5f 63 6c 6f 73 65 28 70 43 73 72 2d 3e 70 49 74  _close(pCsr->pIt
1080: 65 72 29 3b 0a 20 20 73 71 6c 69 74 65 33 5f 66  er);.  sqlite3_f
1090: 72 65 65 28 70 43 73 72 2d 3e 7a 42 75 66 66 65  ree(pCsr->zBuffe
10a0: 72 29 3b 0a 20 20 73 71 6c 69 74 65 33 5f 66 72  r);.  sqlite3_fr
10b0: 65 65 28 70 43 73 72 29 3b 0a 20 20 72 65 74 75  ee(pCsr);.  retu
10c0: 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a  rn SQLITE_OK;.}.
10d0: 0a 2f 2a 0a 2a 2a 20 45 78 74 72 61 63 74 20 74  ./*.** Extract t
10e0: 68 65 20 6e 65 78 74 20 74 6f 6b 65 6e 20 66 72  he next token fr
10f0: 6f 6d 20 61 20 74 6f 6b 65 6e 69 7a 61 74 69 6f  om a tokenizatio
1100: 6e 20 63 75 72 73 6f 72 2e 0a 2a 2f 0a 73 74 61  n cursor..*/.sta
1110: 74 69 63 20 69 6e 74 20 69 63 75 4e 65 78 74 28  tic int icuNext(
1120: 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  .  sqlite3_token
1130: 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 70 43 75  izer_cursor *pCu
1140: 72 73 6f 72 2c 20 20 2f 2a 20 43 75 72 73 6f 72  rsor,  /* Cursor
1150: 20 72 65 74 75 72 6e 65 64 20 62 79 20 73 69 6d   returned by sim
1160: 70 6c 65 4f 70 65 6e 20 2a 2f 0a 20 20 63 6f 6e  pleOpen */.  con
1170: 73 74 20 63 68 61 72 20 2a 2a 70 70 54 6f 6b 65  st char **ppToke
1180: 6e 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20  n,              
1190: 20 2f 2a 20 4f 55 54 3a 20 2a 70 70 54 6f 6b 65   /* OUT: *ppToke
11a0: 6e 20 69 73 20 74 68 65 20 74 6f 6b 65 6e 20 74  n is the token t
11b0: 65 78 74 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 6e  ext */.  int *pn
11c0: 42 79 74 65 73 2c 20 20 20 20 20 20 20 20 20 20  Bytes,          
11d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
11e0: 4f 55 54 3a 20 4e 75 6d 62 65 72 20 6f 66 20 62  OUT: Number of b
11f0: 79 74 65 73 20 69 6e 20 74 6f 6b 65 6e 20 2a 2f  ytes in token */
1200: 0a 20 20 69 6e 74 20 2a 70 69 53 74 61 72 74 4f  .  int *piStartO
1210: 66 66 73 65 74 2c 20 20 20 20 20 20 20 20 20 20  ffset,          
1220: 20 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 53         /* OUT: S
1230: 74 61 72 74 69 6e 67 20 6f 66 66 73 65 74 20 6f  tarting offset o
1240: 66 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74  f token */.  int
1250: 20 2a 70 69 45 6e 64 4f 66 66 73 65 74 2c 20 20   *piEndOffset,  
1260: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1270: 20 2f 2a 20 4f 55 54 3a 20 45 6e 64 69 6e 67 20   /* OUT: Ending 
1280: 6f 66 66 73 65 74 20 6f 66 20 74 6f 6b 65 6e 20  offset of token 
1290: 2a 2f 0a 20 20 69 6e 74 20 2a 70 69 50 6f 73 69  */.  int *piPosi
12a0: 74 69 6f 6e 20 20 20 20 20 20 20 20 20 20 20 20  tion            
12b0: 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a           /* OUT:
12c0: 20 50 6f 73 69 74 69 6f 6e 20 69 6e 74 65 67 65   Position intege
12d0: 72 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 29 7b  r of token */.){
12e0: 0a 20 20 49 63 75 43 75 72 73 6f 72 20 2a 70 43  .  IcuCursor *pC
12f0: 73 72 20 3d 20 28 49 63 75 43 75 72 73 6f 72 20  sr = (IcuCursor 
1300: 2a 29 70 43 75 72 73 6f 72 3b 0a 0a 20 20 69 6e  *)pCursor;..  in
1310: 74 20 69 53 74 61 72 74 20 3d 20 30 3b 0a 20 20  t iStart = 0;.  
1320: 69 6e 74 20 69 45 6e 64 20 3d 20 30 3b 0a 20 20  int iEnd = 0;.  
1330: 69 6e 74 20 6e 42 79 74 65 20 3d 20 30 3b 0a 0a  int nByte = 0;..
1340: 20 20 77 68 69 6c 65 28 20 69 53 74 61 72 74 3d    while( iStart=
1350: 3d 69 45 6e 64 20 29 7b 0a 20 20 20 20 55 43 68  =iEnd ){.    UCh
1360: 61 72 33 32 20 63 3b 0a 0a 20 20 20 20 69 53 74  ar32 c;..    iSt
1370: 61 72 74 20 3d 20 75 62 72 6b 5f 63 75 72 72 65  art = ubrk_curre
1380: 6e 74 28 70 43 73 72 2d 3e 70 49 74 65 72 29 3b  nt(pCsr->pIter);
1390: 0a 20 20 20 20 69 45 6e 64 20 3d 20 75 62 72 6b  .    iEnd = ubrk
13a0: 5f 6e 65 78 74 28 70 43 73 72 2d 3e 70 49 74 65  _next(pCsr->pIte
13b0: 72 29 3b 0a 20 20 20 20 69 66 28 20 69 45 6e 64  r);.    if( iEnd
13c0: 3d 3d 55 42 52 4b 5f 44 4f 4e 45 20 29 7b 0a 20  ==UBRK_DONE ){. 
13d0: 20 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c 49       return SQLI
13e0: 54 45 5f 44 4f 4e 45 3b 0a 20 20 20 20 7d 0a 0a  TE_DONE;.    }..
13f0: 20 20 20 20 77 68 69 6c 65 28 20 69 53 74 61 72      while( iStar
1400: 74 3c 69 45 6e 64 20 29 7b 0a 20 20 20 20 20 20  t<iEnd ){.      
1410: 69 6e 74 20 69 57 68 69 74 65 20 3d 20 69 53 74  int iWhite = iSt
1420: 61 72 74 3b 0a 20 20 20 20 20 20 55 31 36 5f 4e  art;.      U16_N
1430: 45 58 54 28 70 43 73 72 2d 3e 61 43 68 61 72 2c  EXT(pCsr->aChar,
1440: 20 69 57 68 69 74 65 2c 20 70 43 73 72 2d 3e 6e   iWhite, pCsr->n
1450: 43 68 61 72 2c 20 63 29 3b 0a 20 20 20 20 20 20  Char, c);.      
1460: 69 66 28 20 75 5f 69 73 73 70 61 63 65 28 63 29  if( u_isspace(c)
1470: 20 29 7b 0a 20 20 20 20 20 20 20 20 69 53 74 61   ){.        iSta
1480: 72 74 20 3d 20 69 57 68 69 74 65 3b 0a 20 20 20  rt = iWhite;.   
1490: 20 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 20 20     }else{.      
14a0: 20 20 62 72 65 61 6b 3b 0a 20 20 20 20 20 20 7d    break;.      }
14b0: 0a 20 20 20 20 7d 0a 20 20 20 20 61 73 73 65 72  .    }.    asser
14c0: 74 28 69 53 74 61 72 74 3c 3d 69 45 6e 64 29 3b  t(iStart<=iEnd);
14d0: 0a 20 20 7d 0a 0a 20 20 64 6f 20 7b 0a 20 20 20  .  }..  do {.   
14e0: 20 55 45 72 72 6f 72 43 6f 64 65 20 73 74 61 74   UErrorCode stat
14f0: 75 73 20 3d 20 55 5f 5a 45 52 4f 5f 45 52 52 4f  us = U_ZERO_ERRO
1500: 52 3b 0a 20 20 20 20 69 66 28 20 6e 42 79 74 65  R;.    if( nByte
1510: 20 29 7b 0a 20 20 20 20 20 20 63 68 61 72 20 2a   ){.      char *
1520: 7a 4e 65 77 20 3d 20 73 71 6c 69 74 65 33 5f 72  zNew = sqlite3_r
1530: 65 61 6c 6c 6f 63 28 70 43 73 72 2d 3e 7a 42 75  ealloc(pCsr->zBu
1540: 66 66 65 72 2c 20 6e 42 79 74 65 29 3b 0a 20 20  ffer, nByte);.  
1550: 20 20 20 20 69 66 28 20 21 7a 4e 65 77 20 29 7b      if( !zNew ){
1560: 0a 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20  .        return 
1570: 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20  SQLITE_NOMEM;.  
1580: 20 20 20 20 7d 0a 20 20 20 20 20 20 70 43 73 72      }.      pCsr
1590: 2d 3e 7a 42 75 66 66 65 72 20 3d 20 7a 4e 65 77  ->zBuffer = zNew
15a0: 3b 0a 20 20 20 20 20 20 70 43 73 72 2d 3e 6e 42  ;.      pCsr->nB
15b0: 75 66 66 65 72 20 3d 20 6e 42 79 74 65 3b 0a 20  uffer = nByte;. 
15c0: 20 20 20 7d 0a 0a 20 20 20 20 75 5f 73 74 72 54     }..    u_strT
15d0: 6f 55 54 46 38 28 0a 20 20 20 20 20 20 20 20 70  oUTF8(.        p
15e0: 43 73 72 2d 3e 7a 42 75 66 66 65 72 2c 20 70 43  Csr->zBuffer, pC
15f0: 73 72 2d 3e 6e 42 75 66 66 65 72 2c 20 26 6e 42  sr->nBuffer, &nB
1600: 79 74 65 2c 20 20 20 20 2f 2a 20 4f 75 74 70 75  yte,    /* Outpu
1610: 74 20 76 61 72 73 20 2a 2f 0a 20 20 20 20 20 20  t vars */.      
1620: 20 20 26 70 43 73 72 2d 3e 61 43 68 61 72 5b 69    &pCsr->aChar[i
1630: 53 74 61 72 74 5d 2c 20 69 45 6e 64 2d 69 53 74  Start], iEnd-iSt
1640: 61 72 74 2c 20 20 20 20 20 20 20 2f 2a 20 49 6e  art,       /* In
1650: 70 75 74 20 76 61 72 73 20 2a 2f 0a 20 20 20 20  put vars */.    
1660: 20 20 20 20 26 73 74 61 74 75 73 20 20 20 20 20      &status     
1670: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1680: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
1690: 4f 75 74 70 75 74 20 73 75 63 63 65 73 73 2f 66  Output success/f
16a0: 61 69 6c 75 72 65 20 2a 2f 0a 20 20 20 20 29 3b  ailure */.    );
16b0: 0a 20 20 7d 20 77 68 69 6c 65 28 20 6e 42 79 74  .  } while( nByt
16c0: 65 3e 70 43 73 72 2d 3e 6e 42 75 66 66 65 72 20  e>pCsr->nBuffer 
16d0: 29 3b 0a 0a 20 20 2a 70 70 54 6f 6b 65 6e 20 3d  );..  *ppToken =
16e0: 20 70 43 73 72 2d 3e 7a 42 75 66 66 65 72 3b 0a   pCsr->zBuffer;.
16f0: 20 20 2a 70 6e 42 79 74 65 73 20 3d 20 6e 42 79    *pnBytes = nBy
1700: 74 65 3b 0a 20 20 2a 70 69 53 74 61 72 74 4f 66  te;.  *piStartOf
1710: 66 73 65 74 20 3d 20 70 43 73 72 2d 3e 61 4f 66  fset = pCsr->aOf
1720: 66 73 65 74 5b 69 53 74 61 72 74 5d 3b 0a 20 20  fset[iStart];.  
1730: 2a 70 69 45 6e 64 4f 66 66 73 65 74 20 3d 20 70  *piEndOffset = p
1740: 43 73 72 2d 3e 61 4f 66 66 73 65 74 5b 69 45 6e  Csr->aOffset[iEn
1750: 64 5d 3b 0a 20 20 2a 70 69 50 6f 73 69 74 69 6f  d];.  *piPositio
1760: 6e 20 3d 20 70 43 73 72 2d 3e 69 54 6f 6b 65 6e  n = pCsr->iToken
1770: 2b 2b 3b 0a 0a 20 20 72 65 74 75 72 6e 20 53 51  ++;..  return SQ
1780: 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a  LITE_OK;.}../*.*
1790: 2a 20 54 68 65 20 73 65 74 20 6f 66 20 72 6f 75  * The set of rou
17a0: 74 69 6e 65 73 20 74 68 61 74 20 69 6d 70 6c 65  tines that imple
17b0: 6d 65 6e 74 20 74 68 65 20 73 69 6d 70 6c 65 20  ment the simple 
17c0: 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a 73 74 61  tokenizer.*/.sta
17d0: 74 69 63 20 63 6f 6e 73 74 20 73 71 6c 69 74 65  tic const sqlite
17e0: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75  3_tokenizer_modu
17f0: 6c 65 20 69 63 75 54 6f 6b 65 6e 69 7a 65 72 4d  le icuTokenizerM
1800: 6f 64 75 6c 65 20 3d 20 7b 0a 20 20 30 2c 20 20  odule = {.  0,  
1810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1820: 20 20 20 20 20 20 20 20 20 2f 2a 20 69 56 65 72           /* iVer
1830: 73 69 6f 6e 20 20 20 20 2a 2f 0a 20 20 69 63 75  sion    */.  icu
1840: 43 72 65 61 74 65 2c 20 20 20 20 20 20 20 20 20  Create,         
1850: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 78 43 72            /* xCr
1860: 65 61 74 65 20 20 20 20 20 2a 2f 0a 20 20 69 63  eate     */.  ic
1870: 75 44 65 73 74 72 6f 79 2c 20 20 20 20 20 20 20  uDestroy,       
1880: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 78 43             /* xC
1890: 72 65 61 74 65 20 20 20 20 20 2a 2f 0a 20 20 69  reate     */.  i
18a0: 63 75 4f 70 65 6e 2c 20 20 20 20 20 20 20 20 20  cuOpen,         
18b0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 78              /* x
18c0: 4f 70 65 6e 20 20 20 20 20 20 20 2a 2f 0a 20 20  Open       */.  
18d0: 69 63 75 43 6c 6f 73 65 2c 20 20 20 20 20 20 20  icuClose,       
18e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
18f0: 78 43 6c 6f 73 65 20 20 20 20 20 20 2a 2f 0a 20  xClose      */. 
1900: 20 69 63 75 4e 65 78 74 2c 20 20 20 20 20 20 20   icuNext,       
1910: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
1920: 20 78 4e 65 78 74 20 20 20 20 20 20 20 2a 2f 0a   xNext       */.
1930: 20 20 30 2c 20 20 20 20 20 20 20 20 20 20 20 20    0,            
1940: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f                 /
1950: 2a 20 78 4c 61 6e 67 75 61 67 65 69 64 20 2a 2f  * xLanguageid */
1960: 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 53 65 74 20 2a  .};../*.** Set *
1970: 70 70 4d 6f 64 75 6c 65 20 74 6f 20 70 6f 69 6e  ppModule to poin
1980: 74 20 61 74 20 74 68 65 20 69 6d 70 6c 65 6d 65  t at the impleme
1990: 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20 49  ntation of the I
19a0: 43 55 20 74 6f 6b 65 6e 69 7a 65 72 2e 0a 2a 2f  CU tokenizer..*/
19b0: 0a 76 6f 69 64 20 73 71 6c 69 74 65 33 46 74 73  .void sqlite3Fts
19c0: 33 49 63 75 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64  3IcuTokenizerMod
19d0: 75 6c 65 28 0a 20 20 73 71 6c 69 74 65 33 5f 74  ule(.  sqlite3_t
19e0: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20  okenizer_module 
19f0: 63 6f 6e 73 74 2a 2a 70 70 4d 6f 64 75 6c 65 0a  const**ppModule.
1a00: 29 7b 0a 20 20 2a 70 70 4d 6f 64 75 6c 65 20 3d  ){.  *ppModule =
1a10: 20 26 69 63 75 54 6f 6b 65 6e 69 7a 65 72 4d 6f   &icuTokenizerMo
1a20: 64 75 6c 65 3b 0a 7d 0a 0a 23 65 6e 64 69 66 20  dule;.}..#endif 
1a30: 2f 2a 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54  /* defined(SQLIT
1a40: 45 5f 45 4e 41 42 4c 45 5f 49 43 55 29 20 2a 2f  E_ENABLE_ICU) */
1a50: 0a 23 65 6e 64 69 66 20 2f 2a 20 21 64 65 66 69  .#endif /* !defi
1a60: 6e 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29  ned(SQLITE_CORE)
1a70: 20 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49   || defined(SQLI
1a80: 54 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33 29 20  TE_ENABLE_FTS3) 
1a90: 2a 2f 0a                                         */.