/ Hex Artifact Content
Login

Artifact 504984ac6993323247221eebe3cd55bead01b5f8:


0000: 2f 2a 0a 2a 2a 20 32 30 31 34 20 4d 61 79 20 33  /*.** 2014 May 3
0010: 31 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74 68  1.**.** The auth
0020: 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f 70  or disclaims cop
0030: 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20 73  yright to this s
0040: 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49 6e 20  ource code.  In 
0050: 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20 6c 65  place of.** a le
0060: 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65 72 65  gal notice, here
0070: 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67 3a 0a   is a blessing:.
0080: 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79 6f 75  **.**    May you
0090: 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e 6f 74   do good and not
00a0: 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d 61 79   evil..**    May
00b0: 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67 69 76   you find forgiv
00c0: 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72 73 65  eness for yourse
00d0: 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65 20 6f  lf and forgive o
00e0: 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d 61 79  thers..**    May
00f0: 20 79 6f 75 20 73 68 61 72 65 20 66 72 65 65 6c   you share freel
0100: 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e 67 20  y, never taking 
0110: 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20 67 69  more than you gi
0120: 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ve..**.*********
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 0a 2a 2f 0a 0a 0a 23 69 6e 63 6c  *****.*/...#incl
0180: 75 64 65 20 22 66 74 73 35 49 6e 74 2e 68 22 0a  ude "fts5Int.h".
0190: 0a 2f 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ./**************
01a0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
01b0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
01c0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
01d0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 0a 2a 2a 20  ************.** 
01e0: 53 74 61 72 74 20 6f 66 20 61 73 63 69 69 20 74  Start of ascii t
01f0: 6f 6b 65 6e 69 7a 65 72 20 69 6d 70 6c 65 6d 65  okenizer impleme
0200: 6e 74 61 74 69 6f 6e 2e 0a 2a 2f 0a 0a 2f 2a 0a  ntation..*/../*.
0210: 2a 2a 20 46 6f 72 20 74 6f 6b 65 6e 69 7a 65 72  ** For tokenizer
0220: 73 20 77 69 74 68 20 6e 6f 20 22 75 6e 69 63 6f  s with no "unico
0230: 64 65 22 20 6d 6f 64 69 66 69 65 72 2c 20 74 68  de" modifier, th
0240: 65 20 73 65 74 20 6f 66 20 74 6f 6b 65 6e 20 63  e set of token c
0250: 68 61 72 61 63 74 65 72 73 0a 2a 2a 20 69 73 20  haracters.** is 
0260: 74 68 65 20 73 61 6d 65 20 61 73 20 74 68 65 20  the same as the 
0270: 73 65 74 20 6f 66 20 41 53 43 49 49 20 72 61 6e  set of ASCII ran
0280: 67 65 20 61 6c 70 68 61 6e 75 6d 65 72 69 63 20  ge alphanumeric 
0290: 63 68 61 72 61 63 74 65 72 73 2e 20 0a 2a 2f 0a  characters. .*/.
02a0: 73 74 61 74 69 63 20 75 6e 73 69 67 6e 65 64 20  static unsigned 
02b0: 63 68 61 72 20 61 41 73 63 69 69 54 6f 6b 65 6e  char aAsciiToken
02c0: 43 68 61 72 5b 31 32 38 5d 20 3d 20 7b 0a 20 20  Char[128] = {.  
02d0: 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30  0, 0, 0, 0, 0, 0
02e0: 2c 20 30 2c 20 30 2c 20 20 20 30 2c 20 30 2c 20  , 0, 0,   0, 0, 
02f0: 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30  0, 0, 0, 0, 0, 0
0300: 2c 20 20 20 2f 2a 20 30 78 30 30 2e 2e 30 78 30  ,   /* 0x00..0x0
0310: 46 20 2a 2f 0a 20 20 30 2c 20 30 2c 20 30 2c 20  F */.  0, 0, 0, 
0320: 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 20  0, 0, 0, 0, 0,  
0330: 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20   0, 0, 0, 0, 0, 
0340: 30 2c 20 30 2c 20 30 2c 20 20 20 2f 2a 20 30 78  0, 0, 0,   /* 0x
0350: 31 30 2e 2e 30 78 31 46 20 2a 2f 0a 20 20 30 2c  10..0x1F */.  0,
0360: 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20   0, 0, 0, 0, 0, 
0370: 30 2c 20 30 2c 20 20 20 30 2c 20 30 2c 20 30 2c  0, 0,   0, 0, 0,
0380: 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20   0, 0, 0, 0, 0, 
0390: 20 20 2f 2a 20 30 78 32 30 2e 2e 30 78 32 46 20    /* 0x20..0x2F 
03a0: 2a 2f 0a 20 20 31 2c 20 31 2c 20 31 2c 20 31 2c  */.  1, 1, 1, 1,
03b0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 20 20 31   1, 1, 1, 1,   1
03c0: 2c 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c  , 1, 0, 0, 0, 0,
03d0: 20 30 2c 20 30 2c 20 20 20 2f 2a 20 30 78 33 30   0, 0,   /* 0x30
03e0: 2e 2e 30 78 33 46 20 2a 2f 0a 20 20 30 2c 20 31  ..0x3F */.  0, 1
03f0: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
0400: 20 31 2c 20 20 20 31 2c 20 31 2c 20 31 2c 20 31   1,   1, 1, 1, 1
0410: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 20 20  , 1, 1, 1, 1,   
0420: 2f 2a 20 30 78 34 30 2e 2e 30 78 34 46 20 2a 2f  /* 0x40..0x4F */
0430: 0a 20 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  .  1, 1, 1, 1, 1
0440: 2c 20 31 2c 20 31 2c 20 31 2c 20 20 20 31 2c 20  , 1, 1, 1,   1, 
0450: 31 2c 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20 30  1, 1, 0, 0, 0, 0
0460: 2c 20 30 2c 20 20 20 2f 2a 20 30 78 35 30 2e 2e  , 0,   /* 0x50..
0470: 30 78 35 46 20 2a 2f 0a 20 20 30 2c 20 31 2c 20  0x5F */.  0, 1, 
0480: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
0490: 2c 20 20 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20  ,   1, 1, 1, 1, 
04a0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 20 20 2f 2a  1, 1, 1, 1,   /*
04b0: 20 30 78 36 30 2e 2e 30 78 36 46 20 2a 2f 0a 20   0x60..0x6F */. 
04c0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
04d0: 31 2c 20 31 2c 20 31 2c 20 20 20 31 2c 20 31 2c  1, 1, 1,   1, 1,
04e0: 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20   1, 0, 0, 0, 0, 
04f0: 30 2c 20 20 20 2f 2a 20 30 78 37 30 2e 2e 30 78  0,   /* 0x70..0x
0500: 37 46 20 2a 2f 0a 7d 3b 0a 0a 74 79 70 65 64 65  7F */.};..typede
0510: 66 20 73 74 72 75 63 74 20 41 73 63 69 69 54 6f  f struct AsciiTo
0520: 6b 65 6e 69 7a 65 72 20 41 73 63 69 69 54 6f 6b  kenizer AsciiTok
0530: 65 6e 69 7a 65 72 3b 0a 73 74 72 75 63 74 20 41  enizer;.struct A
0540: 73 63 69 69 54 6f 6b 65 6e 69 7a 65 72 20 7b 0a  sciiTokenizer {.
0550: 20 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20    unsigned char 
0560: 61 54 6f 6b 65 6e 43 68 61 72 5b 31 32 38 5d 3b  aTokenChar[128];
0570: 0a 7d 3b 0a 0a 73 74 61 74 69 63 20 76 6f 69 64  .};..static void
0580: 20 66 74 73 35 41 73 63 69 69 41 64 64 45 78 63   fts5AsciiAddExc
0590: 65 70 74 69 6f 6e 73 28 0a 20 20 41 73 63 69 69  eptions(.  Ascii
05a0: 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 2c 20 0a 20  Tokenizer *p, . 
05b0: 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 41 72   const char *zAr
05c0: 67 2c 20 0a 20 20 69 6e 74 20 62 54 6f 6b 65 6e  g, .  int bToken
05d0: 43 68 61 72 73 0a 29 7b 0a 20 20 69 6e 74 20 69  Chars.){.  int i
05e0: 3b 0a 20 20 66 6f 72 28 69 3d 30 3b 20 7a 41 72  ;.  for(i=0; zAr
05f0: 67 5b 69 5d 3b 20 69 2b 2b 29 7b 0a 20 20 20 20  g[i]; i++){.    
0600: 69 66 28 20 28 7a 41 72 67 5b 69 5d 20 26 20 30  if( (zArg[i] & 0
0610: 78 38 30 29 3d 3d 30 20 29 7b 0a 20 20 20 20 20  x80)==0 ){.     
0620: 20 70 2d 3e 61 54 6f 6b 65 6e 43 68 61 72 5b 28   p->aTokenChar[(
0630: 69 6e 74 29 7a 41 72 67 5b 69 5d 5d 20 3d 20 28  int)zArg[i]] = (
0640: 75 6e 73 69 67 6e 65 64 20 63 68 61 72 29 62 54  unsigned char)bT
0650: 6f 6b 65 6e 43 68 61 72 73 3b 0a 20 20 20 20 7d  okenChars;.    }
0660: 0a 20 20 7d 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 44 65  .  }.}../*.** De
0670: 6c 65 74 65 20 61 20 22 61 73 63 69 69 22 20 74  lete a "ascii" t
0680: 6f 6b 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 73 74 61  okenizer..*/.sta
0690: 74 69 63 20 76 6f 69 64 20 66 74 73 35 41 73 63  tic void fts5Asc
06a0: 69 69 44 65 6c 65 74 65 28 46 74 73 35 54 6f 6b  iiDelete(Fts5Tok
06b0: 65 6e 69 7a 65 72 20 2a 70 29 7b 0a 20 20 73 71  enizer *p){.  sq
06c0: 6c 69 74 65 33 5f 66 72 65 65 28 70 29 3b 0a 7d  lite3_free(p);.}
06d0: 0a 0a 2f 2a 0a 2a 2a 20 43 72 65 61 74 65 20 61  ../*.** Create a
06e0: 6e 20 22 61 73 63 69 69 22 20 74 6f 6b 65 6e 69  n "ascii" tokeni
06f0: 7a 65 72 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69  zer..*/.static i
0700: 6e 74 20 66 74 73 35 41 73 63 69 69 43 72 65 61  nt fts5AsciiCrea
0710: 74 65 28 0a 20 20 76 6f 69 64 20 2a 70 43 74 78  te(.  void *pCtx
0720: 2c 20 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20  , .  const char 
0730: 2a 2a 61 7a 41 72 67 2c 20 69 6e 74 20 6e 41 72  **azArg, int nAr
0740: 67 2c 0a 20 20 46 74 73 35 54 6f 6b 65 6e 69 7a  g,.  Fts5Tokeniz
0750: 65 72 20 2a 2a 70 70 4f 75 74 0a 29 7b 0a 20 20  er **ppOut.){.  
0760: 69 6e 74 20 72 63 20 3d 20 53 51 4c 49 54 45 5f  int rc = SQLITE_
0770: 4f 4b 3b 0a 20 20 41 73 63 69 69 54 6f 6b 65 6e  OK;.  AsciiToken
0780: 69 7a 65 72 20 2a 70 20 3d 20 30 3b 0a 20 20 69  izer *p = 0;.  i
0790: 66 28 20 6e 41 72 67 25 32 20 29 7b 0a 20 20 20  f( nArg%2 ){.   
07a0: 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 45 52 52   rc = SQLITE_ERR
07b0: 4f 52 3b 0a 20 20 7d 65 6c 73 65 7b 0a 20 20 20  OR;.  }else{.   
07c0: 20 70 20 3d 20 73 71 6c 69 74 65 33 5f 6d 61 6c   p = sqlite3_mal
07d0: 6c 6f 63 28 73 69 7a 65 6f 66 28 41 73 63 69 69  loc(sizeof(Ascii
07e0: 54 6f 6b 65 6e 69 7a 65 72 29 29 3b 0a 20 20 20  Tokenizer));.   
07f0: 20 69 66 28 20 70 3d 3d 30 20 29 7b 0a 20 20 20   if( p==0 ){.   
0800: 20 20 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 4e     rc = SQLITE_N
0810: 4f 4d 45 4d 3b 0a 20 20 20 20 7d 65 6c 73 65 7b  OMEM;.    }else{
0820: 0a 20 20 20 20 20 20 69 6e 74 20 69 3b 0a 20 20  .      int i;.  
0830: 20 20 20 20 6d 65 6d 73 65 74 28 70 2c 20 30 2c      memset(p, 0,
0840: 20 73 69 7a 65 6f 66 28 41 73 63 69 69 54 6f 6b   sizeof(AsciiTok
0850: 65 6e 69 7a 65 72 29 29 3b 0a 20 20 20 20 20 20  enizer));.      
0860: 6d 65 6d 63 70 79 28 70 2d 3e 61 54 6f 6b 65 6e  memcpy(p->aToken
0870: 43 68 61 72 2c 20 61 41 73 63 69 69 54 6f 6b 65  Char, aAsciiToke
0880: 6e 43 68 61 72 2c 20 73 69 7a 65 6f 66 28 61 41  nChar, sizeof(aA
0890: 73 63 69 69 54 6f 6b 65 6e 43 68 61 72 29 29 3b  sciiTokenChar));
08a0: 0a 20 20 20 20 20 20 66 6f 72 28 69 3d 30 3b 20  .      for(i=0; 
08b0: 72 63 3d 3d 53 51 4c 49 54 45 5f 4f 4b 20 26 26  rc==SQLITE_OK &&
08c0: 20 69 3c 6e 41 72 67 3b 20 69 2b 3d 32 29 7b 0a   i<nArg; i+=2){.
08d0: 20 20 20 20 20 20 20 20 63 6f 6e 73 74 20 63 68          const ch
08e0: 61 72 20 2a 7a 41 72 67 20 3d 20 61 7a 41 72 67  ar *zArg = azArg
08f0: 5b 69 2b 31 5d 3b 0a 20 20 20 20 20 20 20 20 69  [i+1];.        i
0900: 66 28 20 30 3d 3d 73 71 6c 69 74 65 33 5f 73 74  f( 0==sqlite3_st
0910: 72 69 63 6d 70 28 61 7a 41 72 67 5b 69 5d 2c 20  ricmp(azArg[i], 
0920: 22 74 6f 6b 65 6e 63 68 61 72 73 22 29 20 29 7b  "tokenchars") ){
0930: 0a 20 20 20 20 20 20 20 20 20 20 66 74 73 35 41  .          fts5A
0940: 73 63 69 69 41 64 64 45 78 63 65 70 74 69 6f 6e  sciiAddException
0950: 73 28 70 2c 20 7a 41 72 67 2c 20 31 29 3b 0a 20  s(p, zArg, 1);. 
0960: 20 20 20 20 20 20 20 7d 65 6c 73 65 0a 20 20 20         }else.   
0970: 20 20 20 20 20 69 66 28 20 30 3d 3d 73 71 6c 69       if( 0==sqli
0980: 74 65 33 5f 73 74 72 69 63 6d 70 28 61 7a 41 72  te3_stricmp(azAr
0990: 67 5b 69 5d 2c 20 22 73 65 70 61 72 61 74 6f 72  g[i], "separator
09a0: 73 22 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20  s") ){.         
09b0: 20 66 74 73 35 41 73 63 69 69 41 64 64 45 78 63   fts5AsciiAddExc
09c0: 65 70 74 69 6f 6e 73 28 70 2c 20 7a 41 72 67 2c  eptions(p, zArg,
09d0: 20 30 29 3b 0a 20 20 20 20 20 20 20 20 7d 65 6c   0);.        }el
09e0: 73 65 7b 0a 20 20 20 20 20 20 20 20 20 20 72 63  se{.          rc
09f0: 20 3d 20 53 51 4c 49 54 45 5f 45 52 52 4f 52 3b   = SQLITE_ERROR;
0a00: 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20  .        }.     
0a10: 20 7d 0a 20 20 20 20 20 20 69 66 28 20 72 63 21   }.      if( rc!
0a20: 3d 53 51 4c 49 54 45 5f 4f 4b 20 29 7b 0a 20 20  =SQLITE_OK ){.  
0a30: 20 20 20 20 20 20 66 74 73 35 41 73 63 69 69 44        fts5AsciiD
0a40: 65 6c 65 74 65 28 28 46 74 73 35 54 6f 6b 65 6e  elete((Fts5Token
0a50: 69 7a 65 72 2a 29 70 29 3b 0a 20 20 20 20 20 20  izer*)p);.      
0a60: 20 20 70 20 3d 20 30 3b 0a 20 20 20 20 20 20 7d    p = 0;.      }
0a70: 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 2a 70  .    }.  }..  *p
0a80: 70 4f 75 74 20 3d 20 28 46 74 73 35 54 6f 6b 65  pOut = (Fts5Toke
0a90: 6e 69 7a 65 72 2a 29 70 3b 0a 20 20 72 65 74 75  nizer*)p;.  retu
0aa0: 72 6e 20 72 63 3b 0a 7d 0a 0a 0a 73 74 61 74 69  rn rc;.}...stati
0ab0: 63 20 76 6f 69 64 20 61 73 63 69 69 46 6f 6c 64  c void asciiFold
0ac0: 28 63 68 61 72 20 2a 61 4f 75 74 2c 20 63 6f 6e  (char *aOut, con
0ad0: 73 74 20 63 68 61 72 20 2a 61 49 6e 2c 20 69 6e  st char *aIn, in
0ae0: 74 20 6e 42 79 74 65 29 7b 0a 20 20 69 6e 74 20  t nByte){.  int 
0af0: 69 3b 0a 20 20 66 6f 72 28 69 3d 30 3b 20 69 3c  i;.  for(i=0; i<
0b00: 6e 42 79 74 65 3b 20 69 2b 2b 29 7b 0a 20 20 20  nByte; i++){.   
0b10: 20 63 68 61 72 20 63 20 3d 20 61 49 6e 5b 69 5d   char c = aIn[i]
0b20: 3b 0a 20 20 20 20 69 66 28 20 63 3e 3d 27 41 27  ;.    if( c>='A'
0b30: 20 26 26 20 63 3c 3d 27 5a 27 20 29 20 63 20 2b   && c<='Z' ) c +
0b40: 3d 20 33 32 3b 0a 20 20 20 20 61 4f 75 74 5b 69  = 32;.    aOut[i
0b50: 5d 20 3d 20 63 3b 0a 20 20 7d 0a 7d 0a 0a 2f 2a  ] = c;.  }.}../*
0b60: 0a 2a 2a 20 54 6f 6b 65 6e 69 7a 65 20 73 6f 6d  .** Tokenize som
0b70: 65 20 74 65 78 74 20 75 73 69 6e 67 20 74 68 65  e text using the
0b80: 20 61 73 63 69 69 20 74 6f 6b 65 6e 69 7a 65 72   ascii tokenizer
0b90: 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20  ..*/.static int 
0ba0: 66 74 73 35 41 73 63 69 69 54 6f 6b 65 6e 69 7a  fts5AsciiTokeniz
0bb0: 65 28 0a 20 20 46 74 73 35 54 6f 6b 65 6e 69 7a  e(.  Fts5Tokeniz
0bc0: 65 72 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 2c 0a  er *pTokenizer,.
0bd0: 20 20 76 6f 69 64 20 2a 70 43 74 78 2c 0a 20 20    void *pCtx,.  
0be0: 69 6e 74 20 66 6c 61 67 73 2c 0a 20 20 63 6f 6e  int flags,.  con
0bf0: 73 74 20 63 68 61 72 20 2a 70 54 65 78 74 2c 20  st char *pText, 
0c00: 69 6e 74 20 6e 54 65 78 74 2c 0a 20 20 69 6e 74  int nText,.  int
0c10: 20 28 2a 78 54 6f 6b 65 6e 29 28 76 6f 69 64 2a   (*xToken)(void*
0c20: 2c 20 69 6e 74 2c 20 63 6f 6e 73 74 20 63 68 61  , int, const cha
0c30: 72 2a 2c 20 69 6e 74 20 6e 54 6f 6b 65 6e 2c 20  r*, int nToken, 
0c40: 69 6e 74 20 69 53 74 61 72 74 2c 20 69 6e 74 20  int iStart, int 
0c50: 69 45 6e 64 29 0a 29 7b 0a 20 20 41 73 63 69 69  iEnd).){.  Ascii
0c60: 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d 20 28  Tokenizer *p = (
0c70: 41 73 63 69 69 54 6f 6b 65 6e 69 7a 65 72 2a 29  AsciiTokenizer*)
0c80: 70 54 6f 6b 65 6e 69 7a 65 72 3b 0a 20 20 69 6e  pTokenizer;.  in
0c90: 74 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 4f 4b  t rc = SQLITE_OK
0ca0: 3b 0a 20 20 69 6e 74 20 69 65 3b 0a 20 20 69 6e  ;.  int ie;.  in
0cb0: 74 20 69 73 20 3d 20 30 3b 0a 0a 20 20 63 68 61  t is = 0;..  cha
0cc0: 72 20 61 46 6f 6c 64 5b 36 34 5d 3b 0a 20 20 69  r aFold[64];.  i
0cd0: 6e 74 20 6e 46 6f 6c 64 20 3d 20 73 69 7a 65 6f  nt nFold = sizeo
0ce0: 66 28 61 46 6f 6c 64 29 3b 0a 20 20 63 68 61 72  f(aFold);.  char
0cf0: 20 2a 70 46 6f 6c 64 20 3d 20 61 46 6f 6c 64 3b   *pFold = aFold;
0d00: 0a 20 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72  .  unsigned char
0d10: 20 2a 61 20 3d 20 70 2d 3e 61 54 6f 6b 65 6e 43   *a = p->aTokenC
0d20: 68 61 72 3b 0a 0a 20 20 77 68 69 6c 65 28 20 69  har;..  while( i
0d30: 73 3c 6e 54 65 78 74 20 26 26 20 72 63 3d 3d 53  s<nText && rc==S
0d40: 51 4c 49 54 45 5f 4f 4b 20 29 7b 0a 20 20 20 20  QLITE_OK ){.    
0d50: 69 6e 74 20 6e 42 79 74 65 3b 0a 0a 20 20 20 20  int nByte;..    
0d60: 2f 2a 20 53 6b 69 70 20 61 6e 79 20 6c 65 61 64  /* Skip any lead
0d70: 69 6e 67 20 64 69 76 69 64 65 72 20 63 68 61 72  ing divider char
0d80: 61 63 74 65 72 73 2e 20 2a 2f 0a 20 20 20 20 77  acters. */.    w
0d90: 68 69 6c 65 28 20 69 73 3c 6e 54 65 78 74 20 26  hile( is<nText &
0da0: 26 20 28 28 70 54 65 78 74 5b 69 73 5d 26 30 78  & ((pText[is]&0x
0db0: 38 30 29 3d 3d 30 20 26 26 20 61 5b 28 69 6e 74  80)==0 && a[(int
0dc0: 29 70 54 65 78 74 5b 69 73 5d 5d 3d 3d 30 29 20  )pText[is]]==0) 
0dd0: 29 7b 0a 20 20 20 20 20 20 69 73 2b 2b 3b 0a 20  ){.      is++;. 
0de0: 20 20 20 7d 0a 20 20 20 20 69 66 28 20 69 73 3d     }.    if( is=
0df0: 3d 6e 54 65 78 74 20 29 20 62 72 65 61 6b 3b 0a  =nText ) break;.
0e00: 0a 20 20 20 20 2f 2a 20 43 6f 75 6e 74 20 74 68  .    /* Count th
0e10: 65 20 74 6f 6b 65 6e 20 63 68 61 72 61 63 74 65  e token characte
0e20: 72 73 20 2a 2f 0a 20 20 20 20 69 65 20 3d 20 69  rs */.    ie = i
0e30: 73 2b 31 3b 0a 20 20 20 20 77 68 69 6c 65 28 20  s+1;.    while( 
0e40: 69 65 3c 6e 54 65 78 74 20 26 26 20 28 28 70 54  ie<nText && ((pT
0e50: 65 78 74 5b 69 65 5d 26 30 78 38 30 29 20 7c 7c  ext[ie]&0x80) ||
0e60: 20 61 5b 28 69 6e 74 29 70 54 65 78 74 5b 69 65   a[(int)pText[ie
0e70: 5d 5d 20 29 20 29 7b 0a 20 20 20 20 20 20 69 65  ]] ) ){.      ie
0e80: 2b 2b 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20 2f  ++;.    }..    /
0e90: 2a 20 46 6f 6c 64 20 74 6f 20 6c 6f 77 65 72 20  * Fold to lower 
0ea0: 63 61 73 65 20 2a 2f 0a 20 20 20 20 6e 42 79 74  case */.    nByt
0eb0: 65 20 3d 20 69 65 2d 69 73 3b 0a 20 20 20 20 69  e = ie-is;.    i
0ec0: 66 28 20 6e 42 79 74 65 3e 6e 46 6f 6c 64 20 29  f( nByte>nFold )
0ed0: 7b 0a 20 20 20 20 20 20 69 66 28 20 70 46 6f 6c  {.      if( pFol
0ee0: 64 21 3d 61 46 6f 6c 64 20 29 20 73 71 6c 69 74  d!=aFold ) sqlit
0ef0: 65 33 5f 66 72 65 65 28 70 46 6f 6c 64 29 3b 0a  e3_free(pFold);.
0f00: 20 20 20 20 20 20 70 46 6f 6c 64 20 3d 20 73 71        pFold = sq
0f10: 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 6e 42 79  lite3_malloc(nBy
0f20: 74 65 2a 32 29 3b 0a 20 20 20 20 20 20 69 66 28  te*2);.      if(
0f30: 20 70 46 6f 6c 64 3d 3d 30 20 29 7b 0a 20 20 20   pFold==0 ){.   
0f40: 20 20 20 20 20 72 63 20 3d 20 53 51 4c 49 54 45       rc = SQLITE
0f50: 5f 4e 4f 4d 45 4d 3b 0a 20 20 20 20 20 20 20 20  _NOMEM;.        
0f60: 62 72 65 61 6b 3b 0a 20 20 20 20 20 20 7d 0a 20  break;.      }. 
0f70: 20 20 20 20 20 6e 46 6f 6c 64 20 3d 20 6e 42 79       nFold = nBy
0f80: 74 65 2a 32 3b 0a 20 20 20 20 7d 0a 20 20 20 20  te*2;.    }.    
0f90: 61 73 63 69 69 46 6f 6c 64 28 70 46 6f 6c 64 2c  asciiFold(pFold,
0fa0: 20 26 70 54 65 78 74 5b 69 73 5d 2c 20 6e 42 79   &pText[is], nBy
0fb0: 74 65 29 3b 0a 0a 20 20 20 20 2f 2a 20 49 6e 76  te);..    /* Inv
0fc0: 6f 6b 65 20 74 68 65 20 74 6f 6b 65 6e 20 63 61  oke the token ca
0fd0: 6c 6c 62 61 63 6b 20 2a 2f 0a 20 20 20 20 72 63  llback */.    rc
0fe0: 20 3d 20 78 54 6f 6b 65 6e 28 70 43 74 78 2c 20   = xToken(pCtx, 
0ff0: 30 2c 20 70 46 6f 6c 64 2c 20 6e 42 79 74 65 2c  0, pFold, nByte,
1000: 20 69 73 2c 20 69 65 29 3b 0a 20 20 20 20 69 73   is, ie);.    is
1010: 20 3d 20 69 65 2b 31 3b 0a 20 20 7d 0a 20 20 0a   = ie+1;.  }.  .
1020: 20 20 69 66 28 20 70 46 6f 6c 64 21 3d 61 46 6f    if( pFold!=aFo
1030: 6c 64 20 29 20 73 71 6c 69 74 65 33 5f 66 72 65  ld ) sqlite3_fre
1040: 65 28 70 46 6f 6c 64 29 3b 0a 20 20 69 66 28 20  e(pFold);.  if( 
1050: 72 63 3d 3d 53 51 4c 49 54 45 5f 44 4f 4e 45 20  rc==SQLITE_DONE 
1060: 29 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 4f 4b  ) rc = SQLITE_OK
1070: 3b 0a 20 20 72 65 74 75 72 6e 20 72 63 3b 0a 7d  ;.  return rc;.}
1080: 0a 0a 2f 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ../*************
1090: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
10a0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
10b0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
10c0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 0a 2a 2a  *************.**
10d0: 20 53 74 61 72 74 20 6f 66 20 75 6e 69 63 6f 64   Start of unicod
10e0: 65 36 31 20 74 6f 6b 65 6e 69 7a 65 72 20 69 6d  e61 tokenizer im
10f0: 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 2e 0a 2a 2f  plementation..*/
1100: 0a 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 66 6f 6c  .../*.** The fol
1110: 6c 6f 77 69 6e 67 20 74 77 6f 20 6d 61 63 72 6f  lowing two macro
1120: 73 20 2d 20 52 45 41 44 5f 55 54 46 38 20 61 6e  s - READ_UTF8 an
1130: 64 20 57 52 49 54 45 5f 55 54 46 38 20 2d 20 68  d WRITE_UTF8 - h
1140: 61 76 65 20 62 65 65 6e 20 63 6f 70 69 65 64 0a  ave been copied.
1150: 2a 2a 20 66 72 6f 6d 20 74 68 65 20 73 71 6c 69  ** from the sqli
1160: 74 65 33 20 73 6f 75 72 63 65 20 66 69 6c 65 20  te3 source file 
1170: 75 74 66 2e 63 2e 20 49 66 20 74 68 69 73 20 66  utf.c. If this f
1180: 69 6c 65 20 69 73 20 63 6f 6d 70 69 6c 65 64 20  ile is compiled 
1190: 61 73 20 70 61 72 74 0a 2a 2a 20 6f 66 20 74 68  as part.** of th
11a0: 65 20 61 6d 61 6c 67 61 6d 61 74 69 6f 6e 2c 20  e amalgamation, 
11b0: 74 68 65 79 20 61 72 65 20 6e 6f 74 20 72 65 71  they are not req
11c0: 75 69 72 65 64 2e 0a 2a 2f 0a 23 69 66 6e 64 65  uired..*/.#ifnde
11d0: 66 20 53 51 4c 49 54 45 5f 41 4d 41 4c 47 41 4d  f SQLITE_AMALGAM
11e0: 41 54 49 4f 4e 0a 0a 73 74 61 74 69 63 20 63 6f  ATION..static co
11f0: 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68 61  nst unsigned cha
1200: 72 20 73 71 6c 69 74 65 33 55 74 66 38 54 72 61  r sqlite3Utf8Tra
1210: 6e 73 31 5b 5d 20 3d 20 7b 0a 20 20 30 78 30 30  ns1[] = {.  0x00
1220: 2c 20 30 78 30 31 2c 20 30 78 30 32 2c 20 30 78  , 0x01, 0x02, 0x
1230: 30 33 2c 20 30 78 30 34 2c 20 30 78 30 35 2c 20  03, 0x04, 0x05, 
1240: 30 78 30 36 2c 20 30 78 30 37 2c 0a 20 20 30 78  0x06, 0x07,.  0x
1250: 30 38 2c 20 30 78 30 39 2c 20 30 78 30 61 2c 20  08, 0x09, 0x0a, 
1260: 30 78 30 62 2c 20 30 78 30 63 2c 20 30 78 30 64  0x0b, 0x0c, 0x0d
1270: 2c 20 30 78 30 65 2c 20 30 78 30 66 2c 0a 20 20  , 0x0e, 0x0f,.  
1280: 30 78 31 30 2c 20 30 78 31 31 2c 20 30 78 31 32  0x10, 0x11, 0x12
1290: 2c 20 30 78 31 33 2c 20 30 78 31 34 2c 20 30 78  , 0x13, 0x14, 0x
12a0: 31 35 2c 20 30 78 31 36 2c 20 30 78 31 37 2c 0a  15, 0x16, 0x17,.
12b0: 20 20 30 78 31 38 2c 20 30 78 31 39 2c 20 30 78    0x18, 0x19, 0x
12c0: 31 61 2c 20 30 78 31 62 2c 20 30 78 31 63 2c 20  1a, 0x1b, 0x1c, 
12d0: 30 78 31 64 2c 20 30 78 31 65 2c 20 30 78 31 66  0x1d, 0x1e, 0x1f
12e0: 2c 0a 20 20 30 78 30 30 2c 20 30 78 30 31 2c 20  ,.  0x00, 0x01, 
12f0: 30 78 30 32 2c 20 30 78 30 33 2c 20 30 78 30 34  0x02, 0x03, 0x04
1300: 2c 20 30 78 30 35 2c 20 30 78 30 36 2c 20 30 78  , 0x05, 0x06, 0x
1310: 30 37 2c 0a 20 20 30 78 30 38 2c 20 30 78 30 39  07,.  0x08, 0x09
1320: 2c 20 30 78 30 61 2c 20 30 78 30 62 2c 20 30 78  , 0x0a, 0x0b, 0x
1330: 30 63 2c 20 30 78 30 64 2c 20 30 78 30 65 2c 20  0c, 0x0d, 0x0e, 
1340: 30 78 30 66 2c 0a 20 20 30 78 30 30 2c 20 30 78  0x0f,.  0x00, 0x
1350: 30 31 2c 20 30 78 30 32 2c 20 30 78 30 33 2c 20  01, 0x02, 0x03, 
1360: 30 78 30 34 2c 20 30 78 30 35 2c 20 30 78 30 36  0x04, 0x05, 0x06
1370: 2c 20 30 78 30 37 2c 0a 20 20 30 78 30 30 2c 20  , 0x07,.  0x00, 
1380: 30 78 30 31 2c 20 30 78 30 32 2c 20 30 78 30 33  0x01, 0x02, 0x03
1390: 2c 20 30 78 30 30 2c 20 30 78 30 31 2c 20 30 78  , 0x00, 0x01, 0x
13a0: 30 30 2c 20 30 78 30 30 2c 0a 7d 3b 0a 0a 23 64  00, 0x00,.};..#d
13b0: 65 66 69 6e 65 20 52 45 41 44 5f 55 54 46 38 28  efine READ_UTF8(
13c0: 7a 49 6e 2c 20 7a 54 65 72 6d 2c 20 63 29 20 20  zIn, zTerm, c)  
13d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
13e0: 20 20 20 20 20 20 20 20 20 5c 0a 20 20 63 20 3d           \.  c =
13f0: 20 2a 28 7a 49 6e 2b 2b 29 3b 20 20 20 20 20 20   *(zIn++);      
1400: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1410: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1420: 20 20 20 20 20 20 5c 0a 20 20 69 66 28 20 63 3e        \.  if( c>
1430: 3d 30 78 63 30 20 29 7b 20 20 20 20 20 20 20 20  =0xc0 ){        
1440: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1450: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1460: 20 20 20 5c 0a 20 20 20 20 63 20 3d 20 73 71 6c     \.    c = sql
1470: 69 74 65 33 55 74 66 38 54 72 61 6e 73 31 5b 63  ite3Utf8Trans1[c
1480: 2d 30 78 63 30 5d 3b 20 20 20 20 20 20 20 20 20  -0xc0];         
1490: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
14a0: 5c 0a 20 20 20 20 77 68 69 6c 65 28 20 7a 49 6e  \.    while( zIn
14b0: 21 3d 7a 54 65 72 6d 20 26 26 20 28 2a 7a 49 6e  !=zTerm && (*zIn
14c0: 20 26 20 30 78 63 30 29 3d 3d 30 78 38 30 20 29   & 0xc0)==0x80 )
14d0: 7b 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20  {            \. 
14e0: 20 20 20 20 20 63 20 3d 20 28 63 3c 3c 36 29 20       c = (c<<6) 
14f0: 2b 20 28 30 78 33 66 20 26 20 2a 28 7a 49 6e 2b  + (0x3f & *(zIn+
1500: 2b 29 29 3b 20 20 20 20 20 20 20 20 20 20 20 20  +));            
1510: 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 20            \.    
1520: 7d 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  }               
1530: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1540: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1550: 20 20 20 20 20 20 20 5c 0a 20 20 20 20 69 66 28         \.    if(
1560: 20 63 3c 30 78 38 30 20 20 20 20 20 20 20 20 20   c<0x80         
1570: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1580: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1590: 20 20 20 20 5c 0a 20 20 20 20 20 20 20 20 7c 7c      \.        ||
15a0: 20 28 63 26 30 78 46 46 46 46 46 38 30 30 29 3d   (c&0xFFFFF800)=
15b0: 3d 30 78 44 38 30 30 20 20 20 20 20 20 20 20 20  =0xD800         
15c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
15d0: 20 5c 0a 20 20 20 20 20 20 20 20 7c 7c 20 28 63   \.        || (c
15e0: 26 30 78 46 46 46 46 46 46 46 45 29 3d 3d 30 78  &0xFFFFFFFE)==0x
15f0: 46 46 46 45 20 29 7b 20 20 63 20 3d 20 30 78 46  FFFE ){  c = 0xF
1600: 46 46 44 3b 20 7d 20 20 20 20 20 20 20 20 5c 0a  FFD; }        \.
1610: 20 20 7d 0a 0a 0a 23 64 65 66 69 6e 65 20 57 52    }...#define WR
1620: 49 54 45 5f 55 54 46 38 28 7a 4f 75 74 2c 20 63  ITE_UTF8(zOut, c
1630: 29 20 7b 20 20 20 20 20 20 20 20 20 20 20 20 20  ) {             
1640: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
1650: 20 69 66 28 20 63 3c 30 78 30 30 30 38 30 20 29   if( c<0x00080 )
1660: 7b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  {               
1670: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1680: 20 20 20 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75        \.    *zOu
1690: 74 2b 2b 20 3d 20 28 75 6e 73 69 67 6e 65 64 20  t++ = (unsigned 
16a0: 63 68 61 72 29 28 63 26 30 78 46 46 29 3b 20 20  char)(c&0xFF);  
16b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c                 \
16c0: 0a 20 20 7d 20 20 20 20 20 20 20 20 20 20 20 20  .  }            
16d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
16e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
16f0: 20 20 20 20 20 20 20 20 5c 0a 20 20 65 6c 73 65          \.  else
1700: 20 69 66 28 20 63 3c 30 78 30 30 38 30 30 20 29   if( c<0x00800 )
1710: 7b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  {               
1720: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1730: 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d   \.    *zOut++ =
1740: 20 30 78 43 30 20 2b 20 28 75 6e 73 69 67 6e 65   0xC0 + (unsigne
1750: 64 20 63 68 61 72 29 28 28 63 3e 3e 36 29 26 30  d char)((c>>6)&0
1760: 78 31 46 29 3b 20 20 20 20 20 5c 0a 20 20 20 20  x1F);     \.    
1770: 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 38 30 20 2b  *zOut++ = 0x80 +
1780: 20 28 75 6e 73 69 67 6e 65 64 20 63 68 61 72 29   (unsigned char)
1790: 28 63 20 26 20 30 78 33 46 29 3b 20 20 20 20 20  (c & 0x3F);     
17a0: 20 20 20 5c 0a 20 20 7d 20 20 20 20 20 20 20 20     \.  }        
17b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
17c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
17d0: 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20              \.  
17e0: 65 6c 73 65 20 69 66 28 20 63 3c 30 78 31 30 30  else if( c<0x100
17f0: 30 30 20 29 7b 20 20 20 20 20 20 20 20 20 20 20  00 ){           
1800: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1810: 20 20 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74       \.    *zOut
1820: 2b 2b 20 3d 20 30 78 45 30 20 2b 20 28 75 6e 73  ++ = 0xE0 + (uns
1830: 69 67 6e 65 64 20 63 68 61 72 29 28 28 63 3e 3e  igned char)((c>>
1840: 31 32 29 26 30 78 30 46 29 3b 20 20 20 20 5c 0a  12)&0x0F);    \.
1850: 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78      *zOut++ = 0x
1860: 38 30 20 2b 20 28 75 6e 73 69 67 6e 65 64 20 63  80 + (unsigned c
1870: 68 61 72 29 28 28 63 3e 3e 36 29 20 26 20 30 78  har)((c>>6) & 0x
1880: 33 46 29 3b 20 20 20 5c 0a 20 20 20 20 2a 7a 4f  3F);   \.    *zO
1890: 75 74 2b 2b 20 3d 20 30 78 38 30 20 2b 20 28 75  ut++ = 0x80 + (u
18a0: 6e 73 69 67 6e 65 64 20 63 68 61 72 29 28 63 20  nsigned char)(c 
18b0: 26 20 30 78 33 46 29 3b 20 20 20 20 20 20 20 20  & 0x3F);        
18c0: 5c 0a 20 20 7d 65 6c 73 65 7b 20 20 20 20 20 20  \.  }else{      
18d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
18e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
18f0: 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 20 2a           \.    *
1900: 7a 4f 75 74 2b 2b 20 3d 20 30 78 46 30 20 2b 20  zOut++ = 0xF0 + 
1910: 28 75 6e 73 69 67 6e 65 64 20 63 68 61 72 29 28  (unsigned char)(
1920: 28 63 3e 3e 31 38 29 20 26 20 30 78 30 37 29 3b  (c>>18) & 0x07);
1930: 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20    \.    *zOut++ 
1940: 3d 20 30 78 38 30 20 2b 20 28 75 6e 73 69 67 6e  = 0x80 + (unsign
1950: 65 64 20 63 68 61 72 29 28 28 63 3e 3e 31 32 29  ed char)((c>>12)
1960: 20 26 20 30 78 33 46 29 3b 20 20 5c 0a 20 20 20   & 0x3F);  \.   
1970: 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 38 30 20   *zOut++ = 0x80 
1980: 2b 20 28 75 6e 73 69 67 6e 65 64 20 63 68 61 72  + (unsigned char
1990: 29 28 28 63 3e 3e 36 29 20 26 20 30 78 33 46 29  )((c>>6) & 0x3F)
19a0: 3b 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b  ;   \.    *zOut+
19b0: 2b 20 3d 20 30 78 38 30 20 2b 20 28 75 6e 73 69  + = 0x80 + (unsi
19c0: 67 6e 65 64 20 63 68 61 72 29 28 63 20 26 20 30  gned char)(c & 0
19d0: 78 33 46 29 3b 20 20 20 20 20 20 20 20 5c 0a 20  x3F);        \. 
19e0: 20 7d 20 20 20 20 20 20 20 20 20 20 20 20 20 20   }              
19f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1a00: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1a10: 20 20 20 20 20 20 5c 0a 7d 0a 0a 23 65 6e 64 69        \.}..#endi
1a20: 66 20 2f 2a 20 69 66 6e 64 65 66 20 53 51 4c 49  f /* ifndef SQLI
1a30: 54 45 5f 41 4d 41 4c 47 41 4d 41 54 49 4f 4e 20  TE_AMALGAMATION 
1a40: 2a 2f 0a 0a 74 79 70 65 64 65 66 20 73 74 72 75  */..typedef stru
1a50: 63 74 20 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65  ct Unicode61Toke
1a60: 6e 69 7a 65 72 20 55 6e 69 63 6f 64 65 36 31 54  nizer Unicode61T
1a70: 6f 6b 65 6e 69 7a 65 72 3b 0a 73 74 72 75 63 74  okenizer;.struct
1a80: 20 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65 6e 69   Unicode61Tokeni
1a90: 7a 65 72 20 7b 0a 20 20 75 6e 73 69 67 6e 65 64  zer {.  unsigned
1aa0: 20 63 68 61 72 20 61 54 6f 6b 65 6e 43 68 61 72   char aTokenChar
1ab0: 5b 31 32 38 5d 3b 20 20 2f 2a 20 41 53 43 49 49  [128];  /* ASCII
1ac0: 20 72 61 6e 67 65 20 74 6f 6b 65 6e 20 63 68 61   range token cha
1ad0: 72 61 63 74 65 72 73 20 2a 2f 0a 20 20 63 68 61  racters */.  cha
1ae0: 72 20 2a 61 46 6f 6c 64 3b 20 20 20 20 20 20 20  r *aFold;       
1af0: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
1b00: 42 75 66 66 65 72 20 74 6f 20 66 6f 6c 64 20 74  Buffer to fold t
1b10: 65 78 74 20 69 6e 74 6f 20 2a 2f 0a 20 20 69 6e  ext into */.  in
1b20: 74 20 6e 46 6f 6c 64 3b 20 20 20 20 20 20 20 20  t nFold;        
1b30: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
1b40: 20 53 69 7a 65 20 6f 66 20 61 46 6f 6c 64 5b 5d   Size of aFold[]
1b50: 20 69 6e 20 62 79 74 65 73 20 2a 2f 0a 20 20 69   in bytes */.  i
1b60: 6e 74 20 62 52 65 6d 6f 76 65 44 69 61 63 72 69  nt bRemoveDiacri
1b70: 74 69 63 3b 20 20 20 20 20 20 20 20 20 20 20 2f  tic;           /
1b80: 2a 20 54 72 75 65 20 69 66 20 72 65 6d 6f 76 65  * True if remove
1b90: 5f 64 69 61 63 72 69 74 69 63 73 3d 31 20 69 73  _diacritics=1 is
1ba0: 20 73 65 74 20 2a 2f 0a 20 20 69 6e 74 20 6e 45   set */.  int nE
1bb0: 78 63 65 70 74 69 6f 6e 3b 0a 20 20 69 6e 74 20  xception;.  int 
1bc0: 2a 61 69 45 78 63 65 70 74 69 6f 6e 3b 0a 7d 3b  *aiException;.};
1bd0: 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 66 74 73  ..static int fts
1be0: 35 55 6e 69 63 6f 64 65 41 64 64 45 78 63 65 70  5UnicodeAddExcep
1bf0: 74 69 6f 6e 73 28 0a 20 20 55 6e 69 63 6f 64 65  tions(.  Unicode
1c00: 36 31 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 2c 20  61Tokenizer *p, 
1c10: 20 20 20 20 20 20 20 20 20 2f 2a 20 54 6f 6b 65           /* Toke
1c20: 6e 69 7a 65 72 20 6f 62 6a 65 63 74 20 2a 2f 0a  nizer object */.
1c30: 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 2c    const char *z,
1c40: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1c50: 20 20 2f 2a 20 43 68 61 72 61 63 74 65 72 73 20    /* Characters 
1c60: 74 6f 20 74 72 65 61 74 20 61 73 20 65 78 63 65  to treat as exce
1c70: 70 74 69 6f 6e 73 20 2a 2f 0a 20 20 69 6e 74 20  ptions */.  int 
1c80: 62 54 6f 6b 65 6e 43 68 61 72 73 20 20 20 20 20  bTokenChars     
1c90: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 31              /* 1
1ca0: 20 66 6f 72 20 27 74 6f 6b 65 6e 63 68 61 72 73   for 'tokenchars
1cb0: 27 2c 20 30 20 66 6f 72 20 27 73 65 70 61 72 61  ', 0 for 'separa
1cc0: 74 6f 72 73 27 20 2a 2f 0a 29 7b 0a 20 20 69 6e  tors' */.){.  in
1cd0: 74 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 4f 4b  t rc = SQLITE_OK
1ce0: 3b 0a 20 20 69 6e 74 20 6e 20 3d 20 28 69 6e 74  ;.  int n = (int
1cf0: 29 73 74 72 6c 65 6e 28 7a 29 3b 0a 20 20 69 6e  )strlen(z);.  in
1d00: 74 20 2a 61 4e 65 77 3b 0a 0a 20 20 69 66 28 20  t *aNew;..  if( 
1d10: 6e 3e 30 20 29 7b 0a 20 20 20 20 61 4e 65 77 20  n>0 ){.    aNew 
1d20: 3d 20 28 69 6e 74 2a 29 73 71 6c 69 74 65 33 5f  = (int*)sqlite3_
1d30: 72 65 61 6c 6c 6f 63 28 70 2d 3e 61 69 45 78 63  realloc(p->aiExc
1d40: 65 70 74 69 6f 6e 2c 20 28 6e 2b 70 2d 3e 6e 45  eption, (n+p->nE
1d50: 78 63 65 70 74 69 6f 6e 29 2a 73 69 7a 65 6f 66  xception)*sizeof
1d60: 28 69 6e 74 29 29 3b 0a 20 20 20 20 69 66 28 20  (int));.    if( 
1d70: 61 4e 65 77 20 29 7b 0a 20 20 20 20 20 20 69 6e  aNew ){.      in
1d80: 74 20 6e 4e 65 77 20 3d 20 70 2d 3e 6e 45 78 63  t nNew = p->nExc
1d90: 65 70 74 69 6f 6e 3b 0a 20 20 20 20 20 20 63 6f  eption;.      co
1da0: 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68 61  nst unsigned cha
1db0: 72 20 2a 7a 43 73 72 20 3d 20 28 63 6f 6e 73 74  r *zCsr = (const
1dc0: 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72 2a 29   unsigned char*)
1dd0: 7a 3b 0a 20 20 20 20 20 20 63 6f 6e 73 74 20 75  z;.      const u
1de0: 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a 7a 54  nsigned char *zT
1df0: 65 72 6d 20 3d 20 28 63 6f 6e 73 74 20 75 6e 73  erm = (const uns
1e00: 69 67 6e 65 64 20 63 68 61 72 2a 29 26 7a 5b 6e  igned char*)&z[n
1e10: 5d 3b 0a 20 20 20 20 20 20 77 68 69 6c 65 28 20  ];.      while( 
1e20: 7a 43 73 72 3c 7a 54 65 72 6d 20 29 7b 0a 20 20  zCsr<zTerm ){.  
1e30: 20 20 20 20 20 20 69 6e 74 20 69 43 6f 64 65 3b        int iCode;
1e40: 0a 20 20 20 20 20 20 20 20 69 6e 74 20 62 54 6f  .        int bTo
1e50: 6b 65 6e 3b 0a 20 20 20 20 20 20 20 20 52 45 41  ken;.        REA
1e60: 44 5f 55 54 46 38 28 7a 43 73 72 2c 20 7a 54 65  D_UTF8(zCsr, zTe
1e70: 72 6d 2c 20 69 43 6f 64 65 29 3b 0a 20 20 20 20  rm, iCode);.    
1e80: 20 20 20 20 69 66 28 20 69 43 6f 64 65 3c 31 32      if( iCode<12
1e90: 38 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 70  8 ){.          p
1ea0: 2d 3e 61 54 6f 6b 65 6e 43 68 61 72 5b 69 43 6f  ->aTokenChar[iCo
1eb0: 64 65 5d 20 3d 20 28 75 6e 73 69 67 6e 65 64 20  de] = (unsigned 
1ec0: 63 68 61 72 29 62 54 6f 6b 65 6e 43 68 61 72 73  char)bTokenChars
1ed0: 3b 0a 20 20 20 20 20 20 20 20 7d 65 6c 73 65 7b  ;.        }else{
1ee0: 0a 20 20 20 20 20 20 20 20 20 20 62 54 6f 6b 65  .          bToke
1ef0: 6e 20 3d 20 73 71 6c 69 74 65 33 46 74 73 35 55  n = sqlite3Fts5U
1f00: 6e 69 63 6f 64 65 49 73 61 6c 6e 75 6d 28 69 43  nicodeIsalnum(iC
1f10: 6f 64 65 29 3b 0a 20 20 20 20 20 20 20 20 20 20  ode);.          
1f20: 61 73 73 65 72 74 28 20 28 62 54 6f 6b 65 6e 3d  assert( (bToken=
1f30: 3d 30 20 7c 7c 20 62 54 6f 6b 65 6e 3d 3d 31 29  =0 || bToken==1)
1f40: 20 29 3b 20 0a 20 20 20 20 20 20 20 20 20 20 61   ); .          a
1f50: 73 73 65 72 74 28 20 28 62 54 6f 6b 65 6e 43 68  ssert( (bTokenCh
1f60: 61 72 73 3d 3d 30 20 7c 7c 20 62 54 6f 6b 65 6e  ars==0 || bToken
1f70: 43 68 61 72 73 3d 3d 31 29 20 29 3b 0a 20 20 20  Chars==1) );.   
1f80: 20 20 20 20 20 20 20 69 66 28 20 62 54 6f 6b 65         if( bToke
1f90: 6e 21 3d 62 54 6f 6b 65 6e 43 68 61 72 73 20 26  n!=bTokenChars &
1fa0: 26 20 73 71 6c 69 74 65 33 46 74 73 35 55 6e 69  & sqlite3Fts5Uni
1fb0: 63 6f 64 65 49 73 64 69 61 63 72 69 74 69 63 28  codeIsdiacritic(
1fc0: 69 43 6f 64 65 29 3d 3d 30 20 29 7b 0a 20 20 20  iCode)==0 ){.   
1fd0: 20 20 20 20 20 20 20 20 20 69 6e 74 20 69 3b 0a           int i;.
1fe0: 20 20 20 20 20 20 20 20 20 20 20 20 66 6f 72 28              for(
1ff0: 69 3d 30 3b 20 69 3c 6e 4e 65 77 3b 20 69 2b 2b  i=0; i<nNew; i++
2000: 29 7b 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  ){.             
2010: 20 69 66 28 20 61 4e 65 77 5b 69 5d 3e 69 43 6f   if( aNew[i]>iCo
2020: 64 65 20 29 20 62 72 65 61 6b 3b 0a 20 20 20 20  de ) break;.    
2030: 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20          }.      
2040: 20 20 20 20 20 20 6d 65 6d 6d 6f 76 65 28 26 61        memmove(&a
2050: 4e 65 77 5b 69 2b 31 5d 2c 20 26 61 4e 65 77 5b  New[i+1], &aNew[
2060: 69 5d 2c 20 28 6e 4e 65 77 2d 69 29 2a 73 69 7a  i], (nNew-i)*siz
2070: 65 6f 66 28 69 6e 74 29 29 3b 0a 20 20 20 20 20  eof(int));.     
2080: 20 20 20 20 20 20 20 61 4e 65 77 5b 69 5d 20 3d         aNew[i] =
2090: 20 69 43 6f 64 65 3b 0a 20 20 20 20 20 20 20 20   iCode;.        
20a0: 20 20 20 20 6e 4e 65 77 2b 2b 3b 0a 20 20 20 20      nNew++;.    
20b0: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 20 20        }.        
20c0: 7d 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20  }.      }.      
20d0: 70 2d 3e 61 69 45 78 63 65 70 74 69 6f 6e 20 3d  p->aiException =
20e0: 20 61 4e 65 77 3b 0a 20 20 20 20 20 20 70 2d 3e   aNew;.      p->
20f0: 6e 45 78 63 65 70 74 69 6f 6e 20 3d 20 6e 4e 65  nException = nNe
2100: 77 3b 0a 20 20 20 20 7d 65 6c 73 65 7b 0a 20 20  w;.    }else{.  
2110: 20 20 20 20 72 63 20 3d 20 53 51 4c 49 54 45 5f      rc = SQLITE_
2120: 4e 4f 4d 45 4d 3b 0a 20 20 20 20 7d 0a 20 20 7d  NOMEM;.    }.  }
2130: 0a 0a 20 20 72 65 74 75 72 6e 20 72 63 3b 0a 7d  ..  return rc;.}
2140: 0a 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 74  ../*.** Return t
2150: 72 75 65 20 69 66 20 74 68 65 20 70 2d 3e 61 69  rue if the p->ai
2160: 45 78 63 65 70 74 69 6f 6e 5b 5d 20 61 72 72 61  Exception[] arra
2170: 79 20 63 6f 6e 74 61 69 6e 73 20 74 68 65 20 76  y contains the v
2180: 61 6c 75 65 20 69 43 6f 64 65 2e 0a 2a 2f 0a 73  alue iCode..*/.s
2190: 74 61 74 69 63 20 69 6e 74 20 66 74 73 35 55 6e  tatic int fts5Un
21a0: 69 63 6f 64 65 49 73 45 78 63 65 70 74 69 6f 6e  icodeIsException
21b0: 28 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65 6e 69  (Unicode61Tokeni
21c0: 7a 65 72 20 2a 70 2c 20 69 6e 74 20 69 43 6f 64  zer *p, int iCod
21d0: 65 29 7b 0a 20 20 69 66 28 20 70 2d 3e 6e 45 78  e){.  if( p->nEx
21e0: 63 65 70 74 69 6f 6e 3e 30 20 29 7b 0a 20 20 20  ception>0 ){.   
21f0: 20 69 6e 74 20 2a 61 20 3d 20 70 2d 3e 61 69 45   int *a = p->aiE
2200: 78 63 65 70 74 69 6f 6e 3b 0a 20 20 20 20 69 6e  xception;.    in
2210: 74 20 69 4c 6f 20 3d 20 30 3b 0a 20 20 20 20 69  t iLo = 0;.    i
2220: 6e 74 20 69 48 69 20 3d 20 70 2d 3e 6e 45 78 63  nt iHi = p->nExc
2230: 65 70 74 69 6f 6e 2d 31 3b 0a 0a 20 20 20 20 77  eption-1;..    w
2240: 68 69 6c 65 28 20 69 48 69 3e 3d 69 4c 6f 20 29  hile( iHi>=iLo )
2250: 7b 0a 20 20 20 20 20 20 69 6e 74 20 69 54 65 73  {.      int iTes
2260: 74 20 3d 20 28 69 48 69 20 2b 20 69 4c 6f 29 20  t = (iHi + iLo) 
2270: 2f 20 32 3b 0a 20 20 20 20 20 20 69 66 28 20 69  / 2;.      if( i
2280: 43 6f 64 65 3d 3d 61 5b 69 54 65 73 74 5d 20 29  Code==a[iTest] )
2290: 7b 0a 20 20 20 20 20 20 20 20 72 65 74 75 72 6e  {.        return
22a0: 20 31 3b 0a 20 20 20 20 20 20 7d 65 6c 73 65 20   1;.      }else 
22b0: 69 66 28 20 69 43 6f 64 65 3e 61 5b 69 54 65 73  if( iCode>a[iTes
22c0: 74 5d 20 29 7b 0a 20 20 20 20 20 20 20 20 69 4c  t] ){.        iL
22d0: 6f 20 3d 20 69 54 65 73 74 2b 31 3b 0a 20 20 20  o = iTest+1;.   
22e0: 20 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 20 20     }else{.      
22f0: 20 20 69 48 69 20 3d 20 69 54 65 73 74 2d 31 3b    iHi = iTest-1;
2300: 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 7d 0a 20  .      }.    }. 
2310: 20 7d 0a 0a 20 20 72 65 74 75 72 6e 20 30 3b 0a   }..  return 0;.
2320: 7d 0a 0a 2f 2a 0a 2a 2a 20 44 65 6c 65 74 65 20  }../*.** Delete 
2330: 61 20 22 75 6e 69 63 6f 64 65 36 31 22 20 74 6f  a "unicode61" to
2340: 6b 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 73 74 61 74  kenizer..*/.stat
2350: 69 63 20 76 6f 69 64 20 66 74 73 35 55 6e 69 63  ic void fts5Unic
2360: 6f 64 65 44 65 6c 65 74 65 28 46 74 73 35 54 6f  odeDelete(Fts5To
2370: 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 29 7b 0a  kenizer *pTok){.
2380: 20 20 69 66 28 20 70 54 6f 6b 20 29 7b 0a 20 20    if( pTok ){.  
2390: 20 20 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65 6e    Unicode61Token
23a0: 69 7a 65 72 20 2a 70 20 3d 20 28 55 6e 69 63 6f  izer *p = (Unico
23b0: 64 65 36 31 54 6f 6b 65 6e 69 7a 65 72 2a 29 70  de61Tokenizer*)p
23c0: 54 6f 6b 3b 0a 20 20 20 20 73 71 6c 69 74 65 33  Tok;.    sqlite3
23d0: 5f 66 72 65 65 28 70 2d 3e 61 69 45 78 63 65 70  _free(p->aiExcep
23e0: 74 69 6f 6e 29 3b 0a 20 20 20 20 73 71 6c 69 74  tion);.    sqlit
23f0: 65 33 5f 66 72 65 65 28 70 2d 3e 61 46 6f 6c 64  e3_free(p->aFold
2400: 29 3b 0a 20 20 20 20 73 71 6c 69 74 65 33 5f 66  );.    sqlite3_f
2410: 72 65 65 28 70 29 3b 0a 20 20 7d 0a 20 20 72 65  ree(p);.  }.  re
2420: 74 75 72 6e 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43  turn;.}../*.** C
2430: 72 65 61 74 65 20 61 20 22 75 6e 69 63 6f 64 65  reate a "unicode
2440: 36 31 22 20 74 6f 6b 65 6e 69 7a 65 72 2e 0a 2a  61" tokenizer..*
2450: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 66 74 73  /.static int fts
2460: 35 55 6e 69 63 6f 64 65 43 72 65 61 74 65 28 0a  5UnicodeCreate(.
2470: 20 20 76 6f 69 64 20 2a 70 43 74 78 2c 20 0a 20    void *pCtx, . 
2480: 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a 61 7a   const char **az
2490: 41 72 67 2c 20 69 6e 74 20 6e 41 72 67 2c 0a 20  Arg, int nArg,. 
24a0: 20 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72 20 2a   Fts5Tokenizer *
24b0: 2a 70 70 4f 75 74 0a 29 7b 0a 20 20 69 6e 74 20  *ppOut.){.  int 
24c0: 72 63 20 3d 20 53 51 4c 49 54 45 5f 4f 4b 3b 20  rc = SQLITE_OK; 
24d0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 52              /* R
24e0: 65 74 75 72 6e 20 63 6f 64 65 20 2a 2f 0a 20 20  eturn code */.  
24f0: 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65 6e 69 7a  Unicode61Tokeniz
2500: 65 72 20 2a 70 20 3d 20 30 3b 20 20 20 20 20 20  er *p = 0;      
2510: 2f 2a 20 4e 65 77 20 74 6f 6b 65 6e 69 7a 65 72  /* New tokenizer
2520: 20 6f 62 6a 65 63 74 20 2a 2f 20 0a 0a 20 20 69   object */ ..  i
2530: 66 28 20 6e 41 72 67 25 32 20 29 7b 0a 20 20 20  f( nArg%2 ){.   
2540: 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 45 52 52   rc = SQLITE_ERR
2550: 4f 52 3b 0a 20 20 7d 65 6c 73 65 7b 0a 20 20 20  OR;.  }else{.   
2560: 20 70 20 3d 20 28 55 6e 69 63 6f 64 65 36 31 54   p = (Unicode61T
2570: 6f 6b 65 6e 69 7a 65 72 2a 29 73 71 6c 69 74 65  okenizer*)sqlite
2580: 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f 66 28  3_malloc(sizeof(
2590: 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65 6e 69 7a  Unicode61Tokeniz
25a0: 65 72 29 29 3b 0a 20 20 20 20 69 66 28 20 70 20  er));.    if( p 
25b0: 29 7b 0a 20 20 20 20 20 20 69 6e 74 20 69 3b 0a  ){.      int i;.
25c0: 20 20 20 20 20 20 6d 65 6d 73 65 74 28 70 2c 20        memset(p, 
25d0: 30 2c 20 73 69 7a 65 6f 66 28 55 6e 69 63 6f 64  0, sizeof(Unicod
25e0: 65 36 31 54 6f 6b 65 6e 69 7a 65 72 29 29 3b 0a  e61Tokenizer));.
25f0: 20 20 20 20 20 20 6d 65 6d 63 70 79 28 70 2d 3e        memcpy(p->
2600: 61 54 6f 6b 65 6e 43 68 61 72 2c 20 61 41 73 63  aTokenChar, aAsc
2610: 69 69 54 6f 6b 65 6e 43 68 61 72 2c 20 73 69 7a  iiTokenChar, siz
2620: 65 6f 66 28 61 41 73 63 69 69 54 6f 6b 65 6e 43  eof(aAsciiTokenC
2630: 68 61 72 29 29 3b 0a 20 20 20 20 20 20 70 2d 3e  har));.      p->
2640: 62 52 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63  bRemoveDiacritic
2650: 20 3d 20 31 3b 0a 20 20 20 20 20 20 70 2d 3e 6e   = 1;.      p->n
2660: 46 6f 6c 64 20 3d 20 36 34 3b 0a 20 20 20 20 20  Fold = 64;.     
2670: 20 70 2d 3e 61 46 6f 6c 64 20 3d 20 73 71 6c 69   p->aFold = sqli
2680: 74 65 33 5f 6d 61 6c 6c 6f 63 28 70 2d 3e 6e 46  te3_malloc(p->nF
2690: 6f 6c 64 20 2a 20 73 69 7a 65 6f 66 28 63 68 61  old * sizeof(cha
26a0: 72 29 29 3b 0a 20 20 20 20 20 20 69 66 28 20 70  r));.      if( p
26b0: 2d 3e 61 46 6f 6c 64 3d 3d 30 20 29 7b 0a 20 20  ->aFold==0 ){.  
26c0: 20 20 20 20 20 20 72 63 20 3d 20 53 51 4c 49 54        rc = SQLIT
26d0: 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 20 20 20 20 7d  E_NOMEM;.      }
26e0: 0a 20 20 20 20 20 20 66 6f 72 28 69 3d 30 3b 20  .      for(i=0; 
26f0: 72 63 3d 3d 53 51 4c 49 54 45 5f 4f 4b 20 26 26  rc==SQLITE_OK &&
2700: 20 69 3c 6e 41 72 67 3b 20 69 2b 3d 32 29 7b 0a   i<nArg; i+=2){.
2710: 20 20 20 20 20 20 20 20 63 6f 6e 73 74 20 63 68          const ch
2720: 61 72 20 2a 7a 41 72 67 20 3d 20 61 7a 41 72 67  ar *zArg = azArg
2730: 5b 69 2b 31 5d 3b 0a 20 20 20 20 20 20 20 20 69  [i+1];.        i
2740: 66 28 20 30 3d 3d 73 71 6c 69 74 65 33 5f 73 74  f( 0==sqlite3_st
2750: 72 69 63 6d 70 28 61 7a 41 72 67 5b 69 5d 2c 20  ricmp(azArg[i], 
2760: 22 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69  "remove_diacriti
2770: 63 73 22 29 20 29 7b 0a 20 20 20 20 20 20 20 20  cs") ){.        
2780: 20 20 69 66 28 20 28 7a 41 72 67 5b 30 5d 21 3d    if( (zArg[0]!=
2790: 27 30 27 20 26 26 20 7a 41 72 67 5b 30 5d 21 3d  '0' && zArg[0]!=
27a0: 27 31 27 29 20 7c 7c 20 7a 41 72 67 5b 31 5d 20  '1') || zArg[1] 
27b0: 29 7b 0a 20 20 20 20 20 20 20 20 20 20 20 20 72  ){.            r
27c0: 63 20 3d 20 53 51 4c 49 54 45 5f 45 52 52 4f 52  c = SQLITE_ERROR
27d0: 3b 0a 20 20 20 20 20 20 20 20 20 20 7d 0a 20 20  ;.          }.  
27e0: 20 20 20 20 20 20 20 20 70 2d 3e 62 52 65 6d 6f          p->bRemo
27f0: 76 65 44 69 61 63 72 69 74 69 63 20 3d 20 28 7a  veDiacritic = (z
2800: 41 72 67 5b 30 5d 3d 3d 27 31 27 29 3b 0a 20 20  Arg[0]=='1');.  
2810: 20 20 20 20 20 20 7d 65 6c 73 65 0a 20 20 20 20        }else.    
2820: 20 20 20 20 69 66 28 20 30 3d 3d 73 71 6c 69 74      if( 0==sqlit
2830: 65 33 5f 73 74 72 69 63 6d 70 28 61 7a 41 72 67  e3_stricmp(azArg
2840: 5b 69 5d 2c 20 22 74 6f 6b 65 6e 63 68 61 72 73  [i], "tokenchars
2850: 22 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20  ") ){.          
2860: 72 63 20 3d 20 66 74 73 35 55 6e 69 63 6f 64 65  rc = fts5Unicode
2870: 41 64 64 45 78 63 65 70 74 69 6f 6e 73 28 70 2c  AddExceptions(p,
2880: 20 7a 41 72 67 2c 20 31 29 3b 0a 20 20 20 20 20   zArg, 1);.     
2890: 20 20 20 7d 65 6c 73 65 0a 20 20 20 20 20 20 20     }else.       
28a0: 20 69 66 28 20 30 3d 3d 73 71 6c 69 74 65 33 5f   if( 0==sqlite3_
28b0: 73 74 72 69 63 6d 70 28 61 7a 41 72 67 5b 69 5d  stricmp(azArg[i]
28c0: 2c 20 22 73 65 70 61 72 61 74 6f 72 73 22 29 20  , "separators") 
28d0: 29 7b 0a 20 20 20 20 20 20 20 20 20 20 72 63 20  ){.          rc 
28e0: 3d 20 66 74 73 35 55 6e 69 63 6f 64 65 41 64 64  = fts5UnicodeAdd
28f0: 45 78 63 65 70 74 69 6f 6e 73 28 70 2c 20 7a 41  Exceptions(p, zA
2900: 72 67 2c 20 30 29 3b 0a 20 20 20 20 20 20 20 20  rg, 0);.        
2910: 7d 65 6c 73 65 7b 0a 20 20 20 20 20 20 20 20 20  }else{.         
2920: 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 45 52 52   rc = SQLITE_ERR
2930: 4f 52 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20  OR;.        }.  
2940: 20 20 20 20 7d 0a 20 20 20 20 7d 65 6c 73 65 7b      }.    }else{
2950: 0a 20 20 20 20 20 20 72 63 20 3d 20 53 51 4c 49  .      rc = SQLI
2960: 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 20 20 7d 0a  TE_NOMEM;.    }.
2970: 20 20 20 20 69 66 28 20 72 63 21 3d 53 51 4c 49      if( rc!=SQLI
2980: 54 45 5f 4f 4b 20 29 7b 0a 20 20 20 20 20 20 66  TE_OK ){.      f
2990: 74 73 35 55 6e 69 63 6f 64 65 44 65 6c 65 74 65  ts5UnicodeDelete
29a0: 28 28 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72 2a  ((Fts5Tokenizer*
29b0: 29 70 29 3b 0a 20 20 20 20 20 20 70 20 3d 20 30  )p);.      p = 0
29c0: 3b 0a 20 20 20 20 7d 0a 20 20 20 20 2a 70 70 4f  ;.    }.    *ppO
29d0: 75 74 20 3d 20 28 46 74 73 35 54 6f 6b 65 6e 69  ut = (Fts5Tokeni
29e0: 7a 65 72 2a 29 70 3b 0a 20 20 7d 0a 20 20 72 65  zer*)p;.  }.  re
29f0: 74 75 72 6e 20 72 63 3b 0a 7d 0a 0a 2f 2a 0a 2a  turn rc;.}../*.*
2a00: 2a 20 52 65 74 75 72 6e 20 74 72 75 65 20 69 66  * Return true if
2a10: 2c 20 66 6f 72 20 74 68 65 20 70 75 72 70 6f 73  , for the purpos
2a20: 65 73 20 6f 66 20 74 6f 6b 65 6e 69 7a 69 6e 67  es of tokenizing
2a30: 20 77 69 74 68 20 74 68 65 20 74 6f 6b 65 6e 69   with the tokeni
2a40: 7a 65 72 0a 2a 2a 20 70 61 73 73 65 64 20 61 73  zer.** passed as
2a50: 20 74 68 65 20 66 69 72 73 74 20 61 72 67 75 6d   the first argum
2a60: 65 6e 74 2c 20 63 6f 64 65 70 6f 69 6e 74 20 69  ent, codepoint i
2a70: 43 6f 64 65 20 69 73 20 63 6f 6e 73 69 64 65 72  Code is consider
2a80: 65 64 20 61 20 74 6f 6b 65 6e 20 0a 2a 2a 20 63  ed a token .** c
2a90: 68 61 72 61 63 74 65 72 20 28 6e 6f 74 20 61 20  haracter (not a 
2aa0: 73 65 70 61 72 61 74 6f 72 29 2e 0a 2a 2f 0a 73  separator)..*/.s
2ab0: 74 61 74 69 63 20 69 6e 74 20 66 74 73 35 55 6e  tatic int fts5Un
2ac0: 69 63 6f 64 65 49 73 41 6c 6e 75 6d 28 55 6e 69  icodeIsAlnum(Uni
2ad0: 63 6f 64 65 36 31 54 6f 6b 65 6e 69 7a 65 72 20  code61Tokenizer 
2ae0: 2a 70 2c 20 69 6e 74 20 69 43 6f 64 65 29 7b 0a  *p, int iCode){.
2af0: 20 20 61 73 73 65 72 74 28 20 28 73 71 6c 69 74    assert( (sqlit
2b00: 65 33 46 74 73 35 55 6e 69 63 6f 64 65 49 73 61  e3Fts5UnicodeIsa
2b10: 6c 6e 75 6d 28 69 43 6f 64 65 29 20 26 20 30 78  lnum(iCode) & 0x
2b20: 46 46 46 46 46 46 46 45 29 3d 3d 30 20 29 3b 0a  FFFFFFFE)==0 );.
2b30: 20 20 72 65 74 75 72 6e 20 73 71 6c 69 74 65 33    return sqlite3
2b40: 46 74 73 35 55 6e 69 63 6f 64 65 49 73 61 6c 6e  Fts5UnicodeIsaln
2b50: 75 6d 28 69 43 6f 64 65 29 20 5e 20 66 74 73 35  um(iCode) ^ fts5
2b60: 55 6e 69 63 6f 64 65 49 73 45 78 63 65 70 74 69  UnicodeIsExcepti
2b70: 6f 6e 28 70 2c 20 69 43 6f 64 65 29 3b 0a 7d 0a  on(p, iCode);.}.
2b80: 0a 73 74 61 74 69 63 20 69 6e 74 20 66 74 73 35  .static int fts5
2b90: 55 6e 69 63 6f 64 65 54 6f 6b 65 6e 69 7a 65 28  UnicodeTokenize(
2ba0: 0a 20 20 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72  .  Fts5Tokenizer
2bb0: 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 2c 0a 20 20   *pTokenizer,.  
2bc0: 76 6f 69 64 20 2a 70 43 74 78 2c 0a 20 20 69 6e  void *pCtx,.  in
2bd0: 74 20 66 6c 61 67 73 2c 0a 20 20 63 6f 6e 73 74  t flags,.  const
2be0: 20 63 68 61 72 20 2a 70 54 65 78 74 2c 20 69 6e   char *pText, in
2bf0: 74 20 6e 54 65 78 74 2c 0a 20 20 69 6e 74 20 28  t nText,.  int (
2c00: 2a 78 54 6f 6b 65 6e 29 28 76 6f 69 64 2a 2c 20  *xToken)(void*, 
2c10: 69 6e 74 2c 20 63 6f 6e 73 74 20 63 68 61 72 2a  int, const char*
2c20: 2c 20 69 6e 74 20 6e 54 6f 6b 65 6e 2c 20 69 6e  , int nToken, in
2c30: 74 20 69 53 74 61 72 74 2c 20 69 6e 74 20 69 45  t iStart, int iE
2c40: 6e 64 29 0a 29 7b 0a 20 20 55 6e 69 63 6f 64 65  nd).){.  Unicode
2c50: 36 31 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d  61Tokenizer *p =
2c60: 20 28 55 6e 69 63 6f 64 65 36 31 54 6f 6b 65 6e   (Unicode61Token
2c70: 69 7a 65 72 2a 29 70 54 6f 6b 65 6e 69 7a 65 72  izer*)pTokenizer
2c80: 3b 0a 20 20 69 6e 74 20 72 63 20 3d 20 53 51 4c  ;.  int rc = SQL
2c90: 49 54 45 5f 4f 4b 3b 0a 20 20 75 6e 73 69 67 6e  ITE_OK;.  unsign
2ca0: 65 64 20 63 68 61 72 20 2a 61 20 3d 20 70 2d 3e  ed char *a = p->
2cb0: 61 54 6f 6b 65 6e 43 68 61 72 3b 0a 0a 20 20 75  aTokenChar;..  u
2cc0: 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a 7a 54  nsigned char *zT
2cd0: 65 72 6d 20 3d 20 28 75 6e 73 69 67 6e 65 64 20  erm = (unsigned 
2ce0: 63 68 61 72 2a 29 26 70 54 65 78 74 5b 6e 54 65  char*)&pText[nTe
2cf0: 78 74 5d 3b 0a 20 20 75 6e 73 69 67 6e 65 64 20  xt];.  unsigned 
2d00: 63 68 61 72 20 2a 7a 43 73 72 20 3d 20 28 75 6e  char *zCsr = (un
2d10: 73 69 67 6e 65 64 20 63 68 61 72 20 2a 29 70 54  signed char *)pT
2d20: 65 78 74 3b 0a 0a 20 20 2f 2a 20 4f 75 74 70 75  ext;..  /* Outpu
2d30: 74 20 62 75 66 66 65 72 20 2a 2f 0a 20 20 63 68  t buffer */.  ch
2d40: 61 72 20 2a 61 46 6f 6c 64 20 3d 20 70 2d 3e 61  ar *aFold = p->a
2d50: 46 6f 6c 64 3b 0a 20 20 69 6e 74 20 6e 46 6f 6c  Fold;.  int nFol
2d60: 64 20 3d 20 70 2d 3e 6e 46 6f 6c 64 3b 0a 20 20  d = p->nFold;.  
2d70: 63 6f 6e 73 74 20 63 68 61 72 20 2a 70 45 6e 64  const char *pEnd
2d80: 20 3d 20 26 61 46 6f 6c 64 5b 6e 46 6f 6c 64 2d   = &aFold[nFold-
2d90: 36 5d 3b 0a 0a 20 20 2f 2a 20 45 61 63 68 20 69  6];..  /* Each i
2da0: 74 65 72 61 74 69 6f 6e 20 6f 66 20 74 68 69 73  teration of this
2db0: 20 6c 6f 6f 70 20 67 6f 62 62 6c 65 73 20 75 70   loop gobbles up
2dc0: 20 61 20 63 6f 6e 74 69 67 75 6f 75 73 20 72 75   a contiguous ru
2dd0: 6e 20 6f 66 20 73 65 70 61 72 61 74 6f 72 73 2c  n of separators,
2de0: 0a 20 20 2a 2a 20 74 68 65 6e 20 74 68 65 20 6e  .  ** then the n
2df0: 65 78 74 20 74 6f 6b 65 6e 2e 20 20 2a 2f 0a 20  ext token.  */. 
2e00: 20 77 68 69 6c 65 28 20 72 63 3d 3d 53 51 4c 49   while( rc==SQLI
2e10: 54 45 5f 4f 4b 20 29 7b 0a 20 20 20 20 69 6e 74  TE_OK ){.    int
2e20: 20 69 43 6f 64 65 3b 20 20 20 20 20 20 20 20 20   iCode;         
2e30: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 6e 6f             /* no
2e40: 6e 2d 41 53 43 49 49 20 63 6f 64 65 70 6f 69 6e  n-ASCII codepoin
2e50: 74 20 72 65 61 64 20 66 72 6f 6d 20 69 6e 70 75  t read from inpu
2e60: 74 20 2a 2f 0a 20 20 20 20 63 68 61 72 20 2a 7a  t */.    char *z
2e70: 4f 75 74 20 3d 20 61 46 6f 6c 64 3b 0a 20 20 20  Out = aFold;.   
2e80: 20 69 6e 74 20 69 73 3b 0a 20 20 20 20 69 6e 74   int is;.    int
2e90: 20 69 65 3b 0a 0a 20 20 20 20 2f 2a 20 53 6b 69   ie;..    /* Ski
2ea0: 70 20 61 6e 79 20 73 65 70 61 72 61 74 6f 72 20  p any separator 
2eb0: 63 68 61 72 61 63 74 65 72 73 2e 20 2a 2f 0a 20  characters. */. 
2ec0: 20 20 20 77 68 69 6c 65 28 20 31 20 29 7b 0a 20     while( 1 ){. 
2ed0: 20 20 20 20 20 69 66 28 20 7a 43 73 72 3e 3d 7a       if( zCsr>=z
2ee0: 54 65 72 6d 20 29 20 67 6f 74 6f 20 74 6f 6b 65  Term ) goto toke
2ef0: 6e 69 7a 65 5f 64 6f 6e 65 3b 0a 20 20 20 20 20  nize_done;.     
2f00: 20 69 66 28 20 2a 7a 43 73 72 20 26 20 30 78 38   if( *zCsr & 0x8
2f10: 30 20 29 20 7b 0a 20 20 20 20 20 20 20 20 2f 2a  0 ) {.        /*
2f20: 20 41 20 63 68 61 72 61 63 74 65 72 20 6f 75 74   A character out
2f30: 73 69 64 65 20 6f 66 20 74 68 65 20 61 73 63 69  side of the asci
2f40: 69 20 72 61 6e 67 65 2e 20 53 6b 69 70 20 70 61  i range. Skip pa
2f50: 73 74 20 69 74 20 69 66 20 69 74 20 69 73 0a 20  st it if it is. 
2f60: 20 20 20 20 20 20 20 2a 2a 20 61 20 73 65 70 61         ** a sepa
2f70: 72 61 74 6f 72 20 63 68 61 72 61 63 74 65 72 2e  rator character.
2f80: 20 4f 72 20 62 72 65 61 6b 20 6f 75 74 20 6f 66   Or break out of
2f90: 20 74 68 65 20 6c 6f 6f 70 20 69 66 20 69 74 20   the loop if it 
2fa0: 69 73 20 6e 6f 74 2e 20 2a 2f 0a 20 20 20 20 20  is not. */.     
2fb0: 20 20 20 69 73 20 3d 20 7a 43 73 72 20 2d 20 28     is = zCsr - (
2fc0: 75 6e 73 69 67 6e 65 64 20 63 68 61 72 2a 29 70  unsigned char*)p
2fd0: 54 65 78 74 3b 0a 20 20 20 20 20 20 20 20 52 45  Text;.        RE
2fe0: 41 44 5f 55 54 46 38 28 7a 43 73 72 2c 20 7a 54  AD_UTF8(zCsr, zT
2ff0: 65 72 6d 2c 20 69 43 6f 64 65 29 3b 0a 20 20 20  erm, iCode);.   
3000: 20 20 20 20 20 69 66 28 20 66 74 73 35 55 6e 69       if( fts5Uni
3010: 63 6f 64 65 49 73 41 6c 6e 75 6d 28 70 2c 20 69  codeIsAlnum(p, i
3020: 43 6f 64 65 29 20 29 7b 0a 20 20 20 20 20 20 20  Code) ){.       
3030: 20 20 20 67 6f 74 6f 20 6e 6f 6e 5f 61 73 63 69     goto non_asci
3040: 69 5f 74 6f 6b 65 6e 63 68 61 72 3b 0a 20 20 20  i_tokenchar;.   
3050: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 65 6c       }.      }el
3060: 73 65 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20  se{.        if( 
3070: 61 5b 2a 7a 43 73 72 5d 20 29 7b 0a 20 20 20 20  a[*zCsr] ){.    
3080: 20 20 20 20 20 20 69 73 20 3d 20 7a 43 73 72 20        is = zCsr 
3090: 2d 20 28 75 6e 73 69 67 6e 65 64 20 63 68 61 72  - (unsigned char
30a0: 2a 29 70 54 65 78 74 3b 0a 20 20 20 20 20 20 20  *)pText;.       
30b0: 20 20 20 67 6f 74 6f 20 61 73 63 69 69 5f 74 6f     goto ascii_to
30c0: 6b 65 6e 63 68 61 72 3b 0a 20 20 20 20 20 20 20  kenchar;.       
30d0: 20 7d 0a 20 20 20 20 20 20 20 20 7a 43 73 72 2b   }.        zCsr+
30e0: 2b 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 7d  +;.      }.    }
30f0: 0a 0a 20 20 20 20 2f 2a 20 52 75 6e 20 74 68 72  ..    /* Run thr
3100: 6f 75 67 68 20 74 68 65 20 74 6f 6b 65 6e 63 68  ough the tokench
3110: 61 72 73 2e 20 46 6f 6c 64 20 74 68 65 6d 20 69  ars. Fold them i
3120: 6e 74 6f 20 74 68 65 20 6f 75 74 70 75 74 20 62  nto the output b
3130: 75 66 66 65 72 20 61 6c 6f 6e 67 0a 20 20 20 20  uffer along.    
3140: 2a 2a 20 74 68 65 20 77 61 79 2e 20 20 2a 2f 0a  ** the way.  */.
3150: 20 20 20 20 77 68 69 6c 65 28 20 7a 43 73 72 3c      while( zCsr<
3160: 7a 54 65 72 6d 20 29 7b 0a 0a 20 20 20 20 20 20  zTerm ){..      
3170: 2f 2a 20 47 72 6f 77 20 74 68 65 20 6f 75 74 70  /* Grow the outp
3180: 75 74 20 62 75 66 66 65 72 20 73 6f 20 74 68 61  ut buffer so tha
3190: 74 20 74 68 65 72 65 20 69 73 20 73 75 66 66 69  t there is suffi
31a0: 63 69 65 6e 74 20 73 70 61 63 65 20 74 6f 20 66  cient space to f
31b0: 69 74 20 74 68 65 0a 20 20 20 20 20 20 2a 2a 20  it the.      ** 
31c0: 6c 61 72 67 65 73 74 20 70 6f 73 73 69 62 6c 65  largest possible
31d0: 20 75 74 66 2d 38 20 63 68 61 72 61 63 74 65 72   utf-8 character
31e0: 2e 20 20 2a 2f 0a 20 20 20 20 20 20 69 66 28 20  .  */.      if( 
31f0: 7a 4f 75 74 3e 70 45 6e 64 20 29 7b 0a 20 20 20  zOut>pEnd ){.   
3200: 20 20 20 20 20 61 46 6f 6c 64 20 3d 20 73 71 6c       aFold = sql
3210: 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 6e 46 6f 6c  ite3_malloc(nFol
3220: 64 2a 32 29 3b 0a 20 20 20 20 20 20 20 20 69 66  d*2);.        if
3230: 28 20 61 46 6f 6c 64 3d 3d 30 20 29 7b 0a 20 20  ( aFold==0 ){.  
3240: 20 20 20 20 20 20 20 20 72 63 20 3d 20 53 51 4c          rc = SQL
3250: 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 20 20 20  ITE_NOMEM;.     
3260: 20 20 20 20 20 67 6f 74 6f 20 74 6f 6b 65 6e 69       goto tokeni
3270: 7a 65 5f 64 6f 6e 65 3b 0a 20 20 20 20 20 20 20  ze_done;.       
3280: 20 7d 0a 20 20 20 20 20 20 20 20 7a 4f 75 74 20   }.        zOut 
3290: 3d 20 26 61 46 6f 6c 64 5b 7a 4f 75 74 20 2d 20  = &aFold[zOut - 
32a0: 70 2d 3e 61 46 6f 6c 64 5d 3b 0a 20 20 20 20 20  p->aFold];.     
32b0: 20 20 20 6d 65 6d 63 70 79 28 61 46 6f 6c 64 2c     memcpy(aFold,
32c0: 20 70 2d 3e 61 46 6f 6c 64 2c 20 6e 46 6f 6c 64   p->aFold, nFold
32d0: 29 3b 0a 20 20 20 20 20 20 20 20 73 71 6c 69 74  );.        sqlit
32e0: 65 33 5f 66 72 65 65 28 70 2d 3e 61 46 6f 6c 64  e3_free(p->aFold
32f0: 29 3b 0a 20 20 20 20 20 20 20 20 70 2d 3e 61 46  );.        p->aF
3300: 6f 6c 64 20 3d 20 61 46 6f 6c 64 3b 0a 20 20 20  old = aFold;.   
3310: 20 20 20 20 20 70 2d 3e 6e 46 6f 6c 64 20 3d 20       p->nFold = 
3320: 6e 46 6f 6c 64 20 3d 20 6e 46 6f 6c 64 2a 32 3b  nFold = nFold*2;
3330: 0a 20 20 20 20 20 20 20 20 70 45 6e 64 20 3d 20  .        pEnd = 
3340: 26 61 46 6f 6c 64 5b 6e 46 6f 6c 64 2d 36 5d 3b  &aFold[nFold-6];
3350: 0a 20 20 20 20 20 20 7d 0a 0a 20 20 20 20 20 20  .      }..      
3360: 69 66 28 20 2a 7a 43 73 72 20 26 20 30 78 38 30  if( *zCsr & 0x80
3370: 20 29 7b 0a 20 20 20 20 20 20 20 20 2f 2a 20 41   ){.        /* A
3380: 6e 20 6e 6f 6e 2d 61 73 63 69 69 2d 72 61 6e 67  n non-ascii-rang
3390: 65 20 63 68 61 72 61 63 74 65 72 2e 20 46 6f 6c  e character. Fol
33a0: 64 20 69 74 20 69 6e 74 6f 20 74 68 65 20 6f 75  d it into the ou
33b0: 74 70 75 74 20 62 75 66 66 65 72 20 69 66 0a 20  tput buffer if. 
33c0: 20 20 20 20 20 20 20 2a 2a 20 69 74 20 69 73 20         ** it is 
33d0: 61 20 74 6f 6b 65 6e 20 63 68 61 72 61 63 74 65  a token characte
33e0: 72 2c 20 6f 72 20 62 72 65 61 6b 20 6f 75 74 20  r, or break out 
33f0: 6f 66 20 74 68 65 20 6c 6f 6f 70 20 69 66 20 69  of the loop if i
3400: 74 20 69 73 20 6e 6f 74 2e 20 2a 2f 0a 20 20 20  t is not. */.   
3410: 20 20 20 20 20 52 45 41 44 5f 55 54 46 38 28 7a       READ_UTF8(z
3420: 43 73 72 2c 20 7a 54 65 72 6d 2c 20 69 43 6f 64  Csr, zTerm, iCod
3430: 65 29 3b 0a 20 20 20 20 20 20 20 20 69 66 28 20  e);.        if( 
3440: 66 74 73 35 55 6e 69 63 6f 64 65 49 73 41 6c 6e  fts5UnicodeIsAln
3450: 75 6d 28 70 2c 69 43 6f 64 65 29 7c 7c 73 71 6c  um(p,iCode)||sql
3460: 69 74 65 33 46 74 73 35 55 6e 69 63 6f 64 65 49  ite3Fts5UnicodeI
3470: 73 64 69 61 63 72 69 74 69 63 28 69 43 6f 64 65  sdiacritic(iCode
3480: 29 20 29 7b 0a 20 6e 6f 6e 5f 61 73 63 69 69 5f  ) ){. non_ascii_
3490: 74 6f 6b 65 6e 63 68 61 72 3a 0a 20 20 20 20 20  tokenchar:.     
34a0: 20 20 20 20 20 69 43 6f 64 65 20 3d 20 73 71 6c       iCode = sql
34b0: 69 74 65 33 46 74 73 35 55 6e 69 63 6f 64 65 46  ite3Fts5UnicodeF
34c0: 6f 6c 64 28 69 43 6f 64 65 2c 20 70 2d 3e 62 52  old(iCode, p->bR
34d0: 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63 29 3b  emoveDiacritic);
34e0: 0a 20 20 20 20 20 20 20 20 20 20 69 66 28 20 69  .          if( i
34f0: 43 6f 64 65 20 29 20 57 52 49 54 45 5f 55 54 46  Code ) WRITE_UTF
3500: 38 28 7a 4f 75 74 2c 20 69 43 6f 64 65 29 3b 0a  8(zOut, iCode);.
3510: 20 20 20 20 20 20 20 20 7d 65 6c 73 65 7b 0a 20          }else{. 
3520: 20 20 20 20 20 20 20 20 20 62 72 65 61 6b 3b 0a           break;.
3530: 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20          }.      
3540: 7d 65 6c 73 65 20 69 66 28 20 61 5b 2a 7a 43 73  }else if( a[*zCs
3550: 72 5d 3d 3d 30 20 29 7b 0a 20 20 20 20 20 20 20  r]==0 ){.       
3560: 20 2f 2a 20 41 6e 20 61 73 63 69 69 2d 72 61 6e   /* An ascii-ran
3570: 67 65 20 73 65 70 61 72 61 74 6f 72 20 63 68 61  ge separator cha
3580: 72 61 63 74 65 72 2e 20 45 6e 64 20 6f 66 20 74  racter. End of t
3590: 6f 6b 65 6e 2e 20 2a 2f 0a 20 20 20 20 20 20 20  oken. */.       
35a0: 20 62 72 65 61 6b 3b 20 0a 20 20 20 20 20 20 7d   break; .      }
35b0: 65 6c 73 65 7b 0a 20 61 73 63 69 69 5f 74 6f 6b  else{. ascii_tok
35c0: 65 6e 63 68 61 72 3a 0a 20 20 20 20 20 20 20 20  enchar:.        
35d0: 69 66 28 20 2a 7a 43 73 72 3e 3d 27 41 27 20 26  if( *zCsr>='A' &
35e0: 26 20 2a 7a 43 73 72 3c 3d 27 5a 27 20 29 7b 0a  & *zCsr<='Z' ){.
35f0: 20 20 20 20 20 20 20 20 20 20 2a 7a 4f 75 74 2b            *zOut+
3600: 2b 20 3d 20 2a 7a 43 73 72 20 2b 20 33 32 3b 0a  + = *zCsr + 32;.
3610: 20 20 20 20 20 20 20 20 7d 65 6c 73 65 7b 0a 20          }else{. 
3620: 20 20 20 20 20 20 20 20 20 2a 7a 4f 75 74 2b 2b           *zOut++
3630: 20 3d 20 2a 7a 43 73 72 3b 0a 20 20 20 20 20 20   = *zCsr;.      
3640: 20 20 7d 0a 20 20 20 20 20 20 20 20 7a 43 73 72    }.        zCsr
3650: 2b 2b 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20 20  ++;.      }.    
3660: 20 20 69 65 20 3d 20 7a 43 73 72 20 2d 20 28 75    ie = zCsr - (u
3670: 6e 73 69 67 6e 65 64 20 63 68 61 72 2a 29 70 54  nsigned char*)pT
3680: 65 78 74 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20  ext;.    }..    
3690: 2f 2a 20 49 6e 76 6f 6b 65 20 74 68 65 20 74 6f  /* Invoke the to
36a0: 6b 65 6e 20 63 61 6c 6c 62 61 63 6b 20 2a 2f 0a  ken callback */.
36b0: 20 20 20 20 72 63 20 3d 20 78 54 6f 6b 65 6e 28      rc = xToken(
36c0: 70 43 74 78 2c 20 30 2c 20 61 46 6f 6c 64 2c 20  pCtx, 0, aFold, 
36d0: 7a 4f 75 74 2d 61 46 6f 6c 64 2c 20 69 73 2c 20  zOut-aFold, is, 
36e0: 69 65 29 3b 20 0a 20 20 7d 0a 20 20 0a 20 74 6f  ie); .  }.  . to
36f0: 6b 65 6e 69 7a 65 5f 64 6f 6e 65 3a 0a 20 20 69  kenize_done:.  i
3700: 66 28 20 72 63 3d 3d 53 51 4c 49 54 45 5f 44 4f  f( rc==SQLITE_DO
3710: 4e 45 20 29 20 72 63 20 3d 20 53 51 4c 49 54 45  NE ) rc = SQLITE
3720: 5f 4f 4b 3b 0a 20 20 72 65 74 75 72 6e 20 72 63  _OK;.  return rc
3730: 3b 0a 7d 0a 0a 2f 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ;.}../**********
3740: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
3750: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
3760: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
3770: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
3780: 0a 2a 2a 20 53 74 61 72 74 20 6f 66 20 70 6f 72  .** Start of por
3790: 74 65 72 20 73 74 65 6d 6d 65 72 20 69 6d 70 6c  ter stemmer impl
37a0: 65 6d 65 6e 74 61 74 69 6f 6e 2e 0a 2a 2f 0a 0a  ementation..*/..
37b0: 2f 2a 20 41 6e 79 20 74 6f 6b 65 6e 73 20 6c 61  /* Any tokens la
37c0: 72 67 65 72 20 74 68 61 6e 20 74 68 69 73 20 28  rger than this (
37d0: 69 6e 20 62 79 74 65 73 29 20 61 72 65 20 70 61  in bytes) are pa
37e0: 73 73 65 64 20 74 68 72 6f 75 67 68 20 77 69 74  ssed through wit
37f0: 68 6f 75 74 0a 2a 2a 20 73 74 65 6d 6d 69 6e 67  hout.** stemming
3800: 2e 20 2a 2f 0a 23 64 65 66 69 6e 65 20 46 54 53  . */.#define FTS
3810: 35 5f 50 4f 52 54 45 52 5f 4d 41 58 5f 54 4f 4b  5_PORTER_MAX_TOK
3820: 45 4e 20 36 34 0a 0a 74 79 70 65 64 65 66 20 73  EN 64..typedef s
3830: 74 72 75 63 74 20 50 6f 72 74 65 72 54 6f 6b 65  truct PorterToke
3840: 6e 69 7a 65 72 20 50 6f 72 74 65 72 54 6f 6b 65  nizer PorterToke
3850: 6e 69 7a 65 72 3b 0a 73 74 72 75 63 74 20 50 6f  nizer;.struct Po
3860: 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 20 7b 0a  rterTokenizer {.
3870: 20 20 66 74 73 35 5f 74 6f 6b 65 6e 69 7a 65 72    fts5_tokenizer
3880: 20 74 6f 6b 65 6e 69 7a 65 72 3b 20 20 20 20 20   tokenizer;     
3890: 20 20 2f 2a 20 50 61 72 65 6e 74 20 74 6f 6b 65    /* Parent toke
38a0: 6e 69 7a 65 72 20 6d 6f 64 75 6c 65 20 2a 2f 0a  nizer module */.
38b0: 20 20 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72 20    Fts5Tokenizer 
38c0: 2a 70 54 6f 6b 65 6e 69 7a 65 72 3b 20 20 20 20  *pTokenizer;    
38d0: 20 20 2f 2a 20 50 61 72 65 6e 74 20 74 6f 6b 65    /* Parent toke
38e0: 6e 69 7a 65 72 20 69 6e 73 74 61 6e 63 65 20 2a  nizer instance *
38f0: 2f 0a 20 20 63 68 61 72 20 61 42 75 66 5b 46 54  /.  char aBuf[FT
3900: 53 35 5f 50 4f 52 54 45 52 5f 4d 41 58 5f 54 4f  S5_PORTER_MAX_TO
3910: 4b 45 4e 20 2b 20 36 34 5d 3b 0a 7d 3b 0a 0a 2f  KEN + 64];.};../
3920: 2a 0a 2a 2a 20 44 65 6c 65 74 65 20 61 20 22 70  *.** Delete a "p
3930: 6f 72 74 65 72 22 20 74 6f 6b 65 6e 69 7a 65 72  orter" tokenizer
3940: 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 76 6f 69 64  ..*/.static void
3950: 20 66 74 73 35 50 6f 72 74 65 72 44 65 6c 65 74   fts5PorterDelet
3960: 65 28 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72 20  e(Fts5Tokenizer 
3970: 2a 70 54 6f 6b 29 7b 0a 20 20 69 66 28 20 70 54  *pTok){.  if( pT
3980: 6f 6b 20 29 7b 0a 20 20 20 20 50 6f 72 74 65 72  ok ){.    Porter
3990: 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d 20 28  Tokenizer *p = (
39a0: 50 6f 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 2a  PorterTokenizer*
39b0: 29 70 54 6f 6b 3b 0a 20 20 20 20 69 66 28 20 70  )pTok;.    if( p
39c0: 2d 3e 70 54 6f 6b 65 6e 69 7a 65 72 20 29 7b 0a  ->pTokenizer ){.
39d0: 20 20 20 20 20 20 70 2d 3e 74 6f 6b 65 6e 69 7a        p->tokeniz
39e0: 65 72 2e 78 44 65 6c 65 74 65 28 70 2d 3e 70 54  er.xDelete(p->pT
39f0: 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 20 20 7d  okenizer);.    }
3a00: 0a 20 20 20 20 73 71 6c 69 74 65 33 5f 66 72 65  .    sqlite3_fre
3a10: 65 28 70 29 3b 0a 20 20 7d 0a 7d 0a 0a 2f 2a 0a  e(p);.  }.}../*.
3a20: 2a 2a 20 43 72 65 61 74 65 20 61 20 22 70 6f 72  ** Create a "por
3a30: 74 65 72 22 20 74 6f 6b 65 6e 69 7a 65 72 2e 0a  ter" tokenizer..
3a40: 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 66 74  */.static int ft
3a50: 73 35 50 6f 72 74 65 72 43 72 65 61 74 65 28 0a  s5PorterCreate(.
3a60: 20 20 76 6f 69 64 20 2a 70 43 74 78 2c 20 0a 20    void *pCtx, . 
3a70: 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a 61 7a   const char **az
3a80: 41 72 67 2c 20 69 6e 74 20 6e 41 72 67 2c 0a 20  Arg, int nArg,. 
3a90: 20 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72 20 2a   Fts5Tokenizer *
3aa0: 2a 70 70 4f 75 74 0a 29 7b 0a 20 20 66 74 73 35  *ppOut.){.  fts5
3ab0: 5f 61 70 69 20 2a 70 41 70 69 20 3d 20 28 66 74  _api *pApi = (ft
3ac0: 73 35 5f 61 70 69 2a 29 70 43 74 78 3b 0a 20 20  s5_api*)pCtx;.  
3ad0: 69 6e 74 20 72 63 20 3d 20 53 51 4c 49 54 45 5f  int rc = SQLITE_
3ae0: 4f 4b 3b 0a 20 20 50 6f 72 74 65 72 54 6f 6b 65  OK;.  PorterToke
3af0: 6e 69 7a 65 72 20 2a 70 52 65 74 3b 0a 20 20 76  nizer *pRet;.  v
3b00: 6f 69 64 20 2a 70 55 73 65 72 64 61 74 61 20 3d  oid *pUserdata =
3b10: 20 30 3b 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   0;.  const char
3b20: 20 2a 7a 42 61 73 65 20 3d 20 22 75 6e 69 63 6f   *zBase = "unico
3b30: 64 65 36 31 22 3b 0a 0a 20 20 69 66 28 20 6e 41  de61";..  if( nA
3b40: 72 67 3e 30 20 29 7b 0a 20 20 20 20 7a 42 61 73  rg>0 ){.    zBas
3b50: 65 20 3d 20 61 7a 41 72 67 5b 30 5d 3b 0a 20 20  e = azArg[0];.  
3b60: 7d 0a 0a 20 20 70 52 65 74 20 3d 20 28 50 6f 72  }..  pRet = (Por
3b70: 74 65 72 54 6f 6b 65 6e 69 7a 65 72 2a 29 73 71  terTokenizer*)sq
3b80: 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a  lite3_malloc(siz
3b90: 65 6f 66 28 50 6f 72 74 65 72 54 6f 6b 65 6e 69  eof(PorterTokeni
3ba0: 7a 65 72 29 29 3b 0a 20 20 69 66 28 20 70 52 65  zer));.  if( pRe
3bb0: 74 20 29 7b 0a 20 20 20 20 6d 65 6d 73 65 74 28  t ){.    memset(
3bc0: 70 52 65 74 2c 20 30 2c 20 73 69 7a 65 6f 66 28  pRet, 0, sizeof(
3bd0: 50 6f 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 29  PorterTokenizer)
3be0: 29 3b 0a 20 20 20 20 72 63 20 3d 20 70 41 70 69  );.    rc = pApi
3bf0: 2d 3e 78 46 69 6e 64 54 6f 6b 65 6e 69 7a 65 72  ->xFindTokenizer
3c00: 28 70 41 70 69 2c 20 7a 42 61 73 65 2c 20 26 70  (pApi, zBase, &p
3c10: 55 73 65 72 64 61 74 61 2c 20 26 70 52 65 74 2d  Userdata, &pRet-
3c20: 3e 74 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 7d  >tokenizer);.  }
3c30: 65 6c 73 65 7b 0a 20 20 20 20 72 63 20 3d 20 53  else{.    rc = S
3c40: 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 7d  QLITE_NOMEM;.  }
3c50: 0a 20 20 69 66 28 20 72 63 3d 3d 53 51 4c 49 54  .  if( rc==SQLIT
3c60: 45 5f 4f 4b 20 29 7b 0a 20 20 20 20 69 6e 74 20  E_OK ){.    int 
3c70: 6e 41 72 67 32 20 3d 20 28 6e 41 72 67 3e 30 20  nArg2 = (nArg>0 
3c80: 3f 20 6e 41 72 67 2d 31 20 3a 20 30 29 3b 0a 20  ? nArg-1 : 0);. 
3c90: 20 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a     const char **
3ca0: 61 7a 41 72 67 32 20 3d 20 28 6e 41 72 67 32 20  azArg2 = (nArg2 
3cb0: 3f 20 26 61 7a 41 72 67 5b 31 5d 20 3a 20 30 29  ? &azArg[1] : 0)
3cc0: 3b 0a 20 20 20 20 72 63 20 3d 20 70 52 65 74 2d  ;.    rc = pRet-
3cd0: 3e 74 6f 6b 65 6e 69 7a 65 72 2e 78 43 72 65 61  >tokenizer.xCrea
3ce0: 74 65 28 70 55 73 65 72 64 61 74 61 2c 20 61 7a  te(pUserdata, az
3cf0: 41 72 67 32 2c 20 6e 41 72 67 32 2c 20 26 70 52  Arg2, nArg2, &pR
3d00: 65 74 2d 3e 70 54 6f 6b 65 6e 69 7a 65 72 29 3b  et->pTokenizer);
3d10: 0a 20 20 7d 0a 0a 20 20 69 66 28 20 72 63 21 3d  .  }..  if( rc!=
3d20: 53 51 4c 49 54 45 5f 4f 4b 20 29 7b 0a 20 20 20  SQLITE_OK ){.   
3d30: 20 66 74 73 35 50 6f 72 74 65 72 44 65 6c 65 74   fts5PorterDelet
3d40: 65 28 28 46 74 73 35 54 6f 6b 65 6e 69 7a 65 72  e((Fts5Tokenizer
3d50: 2a 29 70 52 65 74 29 3b 0a 20 20 20 20 70 52 65  *)pRet);.    pRe
3d60: 74 20 3d 20 30 3b 0a 20 20 7d 0a 20 20 2a 70 70  t = 0;.  }.  *pp
3d70: 4f 75 74 20 3d 20 28 46 74 73 35 54 6f 6b 65 6e  Out = (Fts5Token
3d80: 69 7a 65 72 2a 29 70 52 65 74 3b 0a 20 20 72 65  izer*)pRet;.  re
3d90: 74 75 72 6e 20 72 63 3b 0a 7d 0a 0a 74 79 70 65  turn rc;.}..type
3da0: 64 65 66 20 73 74 72 75 63 74 20 50 6f 72 74 65  def struct Porte
3db0: 72 43 6f 6e 74 65 78 74 20 50 6f 72 74 65 72 43  rContext PorterC
3dc0: 6f 6e 74 65 78 74 3b 0a 73 74 72 75 63 74 20 50  ontext;.struct P
3dd0: 6f 72 74 65 72 43 6f 6e 74 65 78 74 20 7b 0a 20  orterContext {. 
3de0: 20 76 6f 69 64 20 2a 70 43 74 78 3b 0a 20 20 69   void *pCtx;.  i
3df0: 6e 74 20 28 2a 78 54 6f 6b 65 6e 29 28 76 6f 69  nt (*xToken)(voi
3e00: 64 2a 2c 20 69 6e 74 2c 20 63 6f 6e 73 74 20 63  d*, int, const c
3e10: 68 61 72 2a 2c 20 69 6e 74 2c 20 69 6e 74 2c 20  har*, int, int, 
3e20: 69 6e 74 29 3b 0a 20 20 63 68 61 72 20 2a 61 42  int);.  char *aB
3e30: 75 66 3b 0a 7d 3b 0a 0a 74 79 70 65 64 65 66 20  uf;.};..typedef 
3e40: 73 74 72 75 63 74 20 50 6f 72 74 65 72 52 75 6c  struct PorterRul
3e50: 65 20 50 6f 72 74 65 72 52 75 6c 65 3b 0a 73 74  e PorterRule;.st
3e60: 72 75 63 74 20 50 6f 72 74 65 72 52 75 6c 65 20  ruct PorterRule 
3e70: 7b 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a  {.  const char *
3e80: 7a 53 75 66 66 69 78 3b 0a 20 20 69 6e 74 20 6e  zSuffix;.  int n
3e90: 53 75 66 66 69 78 3b 0a 20 20 69 6e 74 20 28 2a  Suffix;.  int (*
3ea0: 78 43 6f 6e 64 29 28 63 68 61 72 20 2a 7a 53 74  xCond)(char *zSt
3eb0: 65 6d 2c 20 69 6e 74 20 6e 53 74 65 6d 29 3b 0a  em, int nStem);.
3ec0: 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 4f    const char *zO
3ed0: 75 74 70 75 74 3b 0a 20 20 69 6e 74 20 6e 4f 75  utput;.  int nOu
3ee0: 74 70 75 74 3b 0a 7d 3b 0a 0a 23 69 66 20 30 0a  tput;.};..#if 0.
3ef0: 73 74 61 74 69 63 20 69 6e 74 20 66 74 73 35 50  static int fts5P
3f00: 6f 72 74 65 72 41 70 70 6c 79 28 63 68 61 72 20  orterApply(char 
3f10: 2a 61 42 75 66 2c 20 69 6e 74 20 2a 70 6e 42 75  *aBuf, int *pnBu
3f20: 66 2c 20 50 6f 72 74 65 72 52 75 6c 65 20 2a 61  f, PorterRule *a
3f30: 52 75 6c 65 29 7b 0a 20 20 69 6e 74 20 72 65 74  Rule){.  int ret
3f40: 20 3d 20 2d 31 3b 0a 20 20 69 6e 74 20 6e 42 75   = -1;.  int nBu
3f50: 66 20 3d 20 2a 70 6e 42 75 66 3b 0a 20 20 50 6f  f = *pnBuf;.  Po
3f60: 72 74 65 72 52 75 6c 65 20 2a 70 3b 0a 0a 20 20  rterRule *p;..  
3f70: 66 6f 72 28 70 3d 61 52 75 6c 65 3b 20 70 2d 3e  for(p=aRule; p->
3f80: 7a 53 75 66 66 69 78 3b 20 70 2b 2b 29 7b 0a 20  zSuffix; p++){. 
3f90: 20 20 20 61 73 73 65 72 74 28 20 73 74 72 6c 65     assert( strle
3fa0: 6e 28 70 2d 3e 7a 53 75 66 66 69 78 29 3d 3d 70  n(p->zSuffix)==p
3fb0: 2d 3e 6e 53 75 66 66 69 78 20 29 3b 0a 20 20 20  ->nSuffix );.   
3fc0: 20 61 73 73 65 72 74 28 20 73 74 72 6c 65 6e 28   assert( strlen(
3fd0: 70 2d 3e 7a 4f 75 74 70 75 74 29 3d 3d 70 2d 3e  p->zOutput)==p->
3fe0: 6e 4f 75 74 70 75 74 20 29 3b 0a 20 20 20 20 69  nOutput );.    i
3ff0: 66 28 20 6e 42 75 66 3c 70 2d 3e 6e 53 75 66 66  f( nBuf<p->nSuff
4000: 69 78 20 29 20 63 6f 6e 74 69 6e 75 65 3b 0a 20  ix ) continue;. 
4010: 20 20 20 69 66 28 20 30 3d 3d 6d 65 6d 63 6d 70     if( 0==memcmp
4020: 28 26 61 42 75 66 5b 6e 42 75 66 20 2d 20 70 2d  (&aBuf[nBuf - p-
4030: 3e 6e 53 75 66 66 69 78 5d 2c 20 70 2d 3e 7a 53  >nSuffix], p->zS
4040: 75 66 66 69 78 2c 20 70 2d 3e 6e 53 75 66 66 69  uffix, p->nSuffi
4050: 78 29 20 29 20 62 72 65 61 6b 3b 0a 20 20 7d 0a  x) ) break;.  }.
4060: 0a 20 20 69 66 28 20 70 2d 3e 7a 53 75 66 66 69  .  if( p->zSuffi
4070: 78 20 29 7b 0a 20 20 20 20 69 6e 74 20 6e 53 74  x ){.    int nSt
4080: 65 6d 20 3d 20 6e 42 75 66 20 2d 20 70 2d 3e 6e  em = nBuf - p->n
4090: 53 75 66 66 69 78 3b 0a 20 20 20 20 69 66 28 20  Suffix;.    if( 
40a0: 70 2d 3e 78 43 6f 6e 64 3d 3d 30 20 7c 7c 20 70  p->xCond==0 || p
40b0: 2d 3e 78 43 6f 6e 64 28 61 42 75 66 2c 20 6e 53  ->xCond(aBuf, nS
40c0: 74 65 6d 29 20 29 7b 0a 20 20 20 20 20 20 6d 65  tem) ){.      me
40d0: 6d 63 70 79 28 26 61 42 75 66 5b 6e 53 74 65 6d  mcpy(&aBuf[nStem
40e0: 5d 2c 20 70 2d 3e 7a 4f 75 74 70 75 74 2c 20 70  ], p->zOutput, p
40f0: 2d 3e 6e 4f 75 74 70 75 74 29 3b 0a 20 20 20 20  ->nOutput);.    
4100: 20 20 2a 70 6e 42 75 66 20 3d 20 6e 53 74 65 6d    *pnBuf = nStem
4110: 20 2b 20 70 2d 3e 6e 4f 75 74 70 75 74 3b 0a 20   + p->nOutput;. 
4120: 20 20 20 20 20 72 65 74 20 3d 20 70 20 2d 20 61       ret = p - a
4130: 52 75 6c 65 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a  Rule;.    }.  }.
4140: 0a 20 20 72 65 74 75 72 6e 20 72 65 74 3b 0a 7d  .  return ret;.}
4150: 0a 23 65 6e 64 69 66 0a 0a 73 74 61 74 69 63 20  .#endif..static 
4160: 69 6e 74 20 66 74 73 35 50 6f 72 74 65 72 49 73  int fts5PorterIs
4170: 56 6f 77 65 6c 28 63 68 61 72 20 63 2c 20 69 6e  Vowel(char c, in
4180: 74 20 62 59 49 73 56 6f 77 65 6c 29 7b 0a 20 20  t bYIsVowel){.  
4190: 72 65 74 75 72 6e 20 28 0a 20 20 20 20 20 20 63  return (.      c
41a0: 3d 3d 27 61 27 20 7c 7c 20 63 3d 3d 27 65 27 20  =='a' || c=='e' 
41b0: 7c 7c 20 63 3d 3d 27 69 27 20 7c 7c 20 63 3d 3d  || c=='i' || c==
41c0: 27 6f 27 20 7c 7c 20 63 3d 3d 27 75 27 20 7c 7c  'o' || c=='u' ||
41d0: 20 28 62 59 49 73 56 6f 77 65 6c 20 26 26 20 63   (bYIsVowel && c
41e0: 3d 3d 27 79 27 29 0a 20 20 29 3b 0a 7d 0a 0a 73  =='y').  );.}..s
41f0: 74 61 74 69 63 20 69 6e 74 20 66 74 73 35 50 6f  tatic int fts5Po
4200: 72 74 65 72 47 6f 62 62 6c 65 56 43 28 63 68 61  rterGobbleVC(cha
4210: 72 20 2a 7a 53 74 65 6d 2c 20 69 6e 74 20 6e 53  r *zStem, int nS
4220: 74 65 6d 2c 20 69 6e 74 20 62 50 72 65 76 43 6f  tem, int bPrevCo
4230: 6e 73 29 7b 0a 20 20 69 6e 74 20 69 3b 0a 20 20  ns){.  int i;.  
4240: 69 6e 74 20 62 43 6f 6e 73 20 3d 20 62 50 72 65  int bCons = bPre
4250: 76 43 6f 6e 73 3b 0a 0a 20 20 2f 2a 20 53 63 61  vCons;..  /* Sca
4260: 6e 20 66 6f 72 20 61 20 76 6f 77 65 6c 20 2a 2f  n for a vowel */
4270: 0a 20 20 66 6f 72 28 69 3d 30 3b 20 69 3c 6e 53  .  for(i=0; i<nS
4280: 74 65 6d 3b 20 69 2b 2b 29 7b 0a 20 20 20 20 69  tem; i++){.    i
4290: 66 28 20 30 3d 3d 28 62 43 6f 6e 73 20 3d 20 21  f( 0==(bCons = !
42a0: 66 74 73 35 50 6f 72 74 65 72 49 73 56 6f 77 65  fts5PorterIsVowe
42b0: 6c 28 7a 53 74 65 6d 5b 69 5d 2c 20 62 43 6f 6e  l(zStem[i], bCon
42c0: 73 29 29 20 29 20 62 72 65 61 6b 3b 0a 20 20 7d  s)) ) break;.  }
42d0: 0a 0a 20 20 2f 2a 20 53 63 61 6e 20 66 6f 72 20  ..  /* Scan for 
42e0: 61 20 63 6f 6e 73 6f 6e 65 6e 74 20 2a 2f 0a 20  a consonent */. 
42f0: 20 66 6f 72 28 69 2b 2b 3b 20 69 3c 6e 53 74 65   for(i++; i<nSte
4300: 6d 3b 20 69 2b 2b 29 7b 0a 20 20 20 20 69 66 28  m; i++){.    if(
4310: 20 28 62 43 6f 6e 73 20 3d 20 21 66 74 73 35 50   (bCons = !fts5P
4320: 6f 72 74 65 72 49 73 56 6f 77 65 6c 28 7a 53 74  orterIsVowel(zSt
4330: 65 6d 5b 69 5d 2c 20 62 43 6f 6e 73 29 29 20 29  em[i], bCons)) )
4340: 20 72 65 74 75 72 6e 20 69 2b 31 3b 0a 20 20 7d   return i+1;.  }
4350: 0a 20 20 72 65 74 75 72 6e 20 30 3b 0a 7d 0a 0a  .  return 0;.}..
4360: 2f 2a 20 70 6f 72 74 65 72 20 72 75 6c 65 20 63  /* porter rule c
4370: 6f 6e 64 69 74 69 6f 6e 3a 20 28 6d 20 3e 20 30  ondition: (m > 0
4380: 29 20 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20  ) */.static int 
4390: 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28  fts5Porter_MGt0(
43a0: 63 68 61 72 20 2a 7a 53 74 65 6d 2c 20 69 6e 74  char *zStem, int
43b0: 20 6e 53 74 65 6d 29 7b 0a 20 20 72 65 74 75 72   nStem){.  retur
43c0: 6e 20 21 21 66 74 73 35 50 6f 72 74 65 72 47 6f  n !!fts5PorterGo
43d0: 62 62 6c 65 56 43 28 7a 53 74 65 6d 2c 20 6e 53  bbleVC(zStem, nS
43e0: 74 65 6d 2c 20 30 29 3b 0a 7d 0a 0a 2f 2a 20 70  tem, 0);.}../* p
43f0: 6f 72 74 65 72 20 72 75 6c 65 20 63 6f 6e 64 69  orter rule condi
4400: 74 69 6f 6e 3a 20 28 6d 20 3e 20 31 29 20 2a 2f  tion: (m > 1) */
4410: 0a 73 74 61 74 69 63 20 69 6e 74 20 66 74 73 35  .static int fts5
4420: 50 6f 72 74 65 72 5f 4d 47 74 31 28 63 68 61 72  Porter_MGt1(char
4430: 20 2a 7a 53 74 65 6d 2c 20 69 6e 74 20 6e 53 74   *zStem, int nSt
4440: 65 6d 29 7b 0a 20 20 69 6e 74 20 6e 3b 0a 20 20  em){.  int n;.  
4450: 6e 20 3d 20 66 74 73 35 50 6f 72 74 65 72 47 6f  n = fts5PorterGo
4460: 62 62 6c 65 56 43 28 7a 53 74 65 6d 2c 20 6e 53  bbleVC(zStem, nS
4470: 74 65 6d 2c 20 30 29 3b 0a 20 20 69 66 28 20 6e  tem, 0);.  if( n
4480: 20 26 26 20 66 74 73 35 50 6f 72 74 65 72 47 6f   && fts5PorterGo
4490: 62 62 6c 65 56 43 28 26 7a 53 74 65 6d 5b 6e 5d  bbleVC(&zStem[n]
44a0: 2c 20 6e 53 74 65 6d 2d 6e 2c 20 31 29 20 29 7b  , nStem-n, 1) ){
44b0: 0a 20 20 20 20 72 65 74 75 72 6e 20 31 3b 0a 20  .    return 1;. 
44c0: 20 7d 0a 20 20 72 65 74 75 72 6e 20 30 3b 0a 7d   }.  return 0;.}
44d0: 0a 0a 2f 2a 20 70 6f 72 74 65 72 20 72 75 6c 65  ../* porter rule
44e0: 20 63 6f 6e 64 69 74 69 6f 6e 3a 20 28 6d 20 3d   condition: (m =
44f0: 20 31 29 20 2a 2f 0a 73 74 61 74 69 63 20 69 6e   1) */.static in
4500: 74 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 45 71  t fts5Porter_MEq
4510: 31 28 63 68 61 72 20 2a 7a 53 74 65 6d 2c 20 69  1(char *zStem, i
4520: 6e 74 20 6e 53 74 65 6d 29 7b 0a 20 20 69 6e 74  nt nStem){.  int
4530: 20 6e 3b 0a 20 20 6e 20 3d 20 66 74 73 35 50 6f   n;.  n = fts5Po
4540: 72 74 65 72 47 6f 62 62 6c 65 56 43 28 7a 53 74  rterGobbleVC(zSt
4550: 65 6d 2c 20 6e 53 74 65 6d 2c 20 30 29 3b 0a 20  em, nStem, 0);. 
4560: 20 69 66 28 20 6e 20 26 26 20 30 3d 3d 66 74 73   if( n && 0==fts
4570: 35 50 6f 72 74 65 72 47 6f 62 62 6c 65 56 43 28  5PorterGobbleVC(
4580: 26 7a 53 74 65 6d 5b 6e 5d 2c 20 6e 53 74 65 6d  &zStem[n], nStem
4590: 2d 6e 2c 20 31 29 20 29 7b 0a 20 20 20 20 72 65  -n, 1) ){.    re
45a0: 74 75 72 6e 20 31 3b 0a 20 20 7d 0a 20 20 72 65  turn 1;.  }.  re
45b0: 74 75 72 6e 20 30 3b 0a 7d 0a 0a 2f 2a 20 70 6f  turn 0;.}../* po
45c0: 72 74 65 72 20 72 75 6c 65 20 63 6f 6e 64 69 74  rter rule condit
45d0: 69 6f 6e 3a 20 28 2a 6f 29 20 2a 2f 0a 73 74 61  ion: (*o) */.sta
45e0: 74 69 63 20 69 6e 74 20 66 74 73 35 50 6f 72 74  tic int fts5Port
45f0: 65 72 5f 4f 73 74 61 72 28 63 68 61 72 20 2a 7a  er_Ostar(char *z
4600: 53 74 65 6d 2c 20 69 6e 74 20 6e 53 74 65 6d 29  Stem, int nStem)
4610: 7b 0a 20 20 69 66 28 20 7a 53 74 65 6d 5b 6e 53  {.  if( zStem[nS
4620: 74 65 6d 2d 31 5d 3d 3d 27 77 27 20 7c 7c 20 7a  tem-1]=='w' || z
4630: 53 74 65 6d 5b 6e 53 74 65 6d 2d 31 5d 3d 3d 27  Stem[nStem-1]=='
4640: 78 27 20 7c 7c 20 7a 53 74 65 6d 5b 6e 53 74 65  x' || zStem[nSte
4650: 6d 2d 31 5d 3d 3d 27 79 27 20 29 7b 0a 20 20 20  m-1]=='y' ){.   
4660: 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 7d 65 6c   return 0;.  }el
4670: 73 65 7b 0a 20 20 20 20 69 6e 74 20 69 3b 0a 20  se{.    int i;. 
4680: 20 20 20 69 6e 74 20 6d 61 73 6b 20 3d 20 30 3b     int mask = 0;
4690: 0a 20 20 20 20 69 6e 74 20 62 43 6f 6e 73 20 3d  .    int bCons =
46a0: 20 30 3b 0a 20 20 20 20 66 6f 72 28 69 3d 30 3b   0;.    for(i=0;
46b0: 20 69 3c 6e 53 74 65 6d 3b 20 69 2b 2b 29 7b 0a   i<nStem; i++){.
46c0: 20 20 20 20 20 20 62 43 6f 6e 73 20 3d 20 21 66        bCons = !f
46d0: 74 73 35 50 6f 72 74 65 72 49 73 56 6f 77 65 6c  ts5PorterIsVowel
46e0: 28 7a 53 74 65 6d 5b 69 5d 2c 20 62 43 6f 6e 73  (zStem[i], bCons
46f0: 29 3b 0a 20 20 20 20 20 20 61 73 73 65 72 74 28  );.      assert(
4700: 20 62 43 6f 6e 73 3d 3d 30 20 7c 7c 20 62 43 6f   bCons==0 || bCo
4710: 6e 73 3d 3d 31 20 29 3b 0a 20 20 20 20 20 20 6d  ns==1 );.      m
4720: 61 73 6b 20 3d 20 28 6d 61 73 6b 20 3c 3c 20 31  ask = (mask << 1
4730: 29 20 2b 20 62 43 6f 6e 73 3b 0a 20 20 20 20 7d  ) + bCons;.    }
4740: 0a 20 20 20 20 72 65 74 75 72 6e 20 28 28 6d 61  .    return ((ma
4750: 73 6b 20 26 20 30 78 30 30 30 37 29 3d 3d 30 78  sk & 0x0007)==0x
4760: 30 30 30 35 29 3b 0a 20 20 7d 0a 7d 0a 0a 2f 2a  0005);.  }.}../*
4770: 20 70 6f 72 74 65 72 20 72 75 6c 65 20 63 6f 6e   porter rule con
4780: 64 69 74 69 6f 6e 3a 20 28 6d 20 3e 20 31 20 61  dition: (m > 1 a
4790: 6e 64 20 28 2a 53 20 6f 72 20 2a 54 29 29 20 2a  nd (*S or *T)) *
47a0: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 66 74 73  /.static int fts
47b0: 35 50 6f 72 74 65 72 5f 4d 47 74 31 5f 61 6e 64  5Porter_MGt1_and
47c0: 5f 53 5f 6f 72 5f 54 28 63 68 61 72 20 2a 7a 53  _S_or_T(char *zS
47d0: 74 65 6d 2c 20 69 6e 74 20 6e 53 74 65 6d 29 7b  tem, int nStem){
47e0: 0a 20 20 61 73 73 65 72 74 28 20 6e 53 74 65 6d  .  assert( nStem
47f0: 3e 30 20 29 3b 0a 20 20 72 65 74 75 72 6e 20 28  >0 );.  return (
4800: 7a 53 74 65 6d 5b 6e 53 74 65 6d 2d 31 5d 3d 3d  zStem[nStem-1]==
4810: 27 73 27 20 7c 7c 20 7a 53 74 65 6d 5b 6e 53 74  's' || zStem[nSt
4820: 65 6d 2d 31 5d 3d 3d 27 74 27 29 20 0a 20 20 20  em-1]=='t') .   
4830: 20 20 20 26 26 20 66 74 73 35 50 6f 72 74 65 72     && fts5Porter
4840: 5f 4d 47 74 31 28 7a 53 74 65 6d 2c 20 6e 53 74  _MGt1(zStem, nSt
4850: 65 6d 29 3b 0a 7d 0a 0a 2f 2a 20 70 6f 72 74 65  em);.}../* porte
4860: 72 20 72 75 6c 65 20 63 6f 6e 64 69 74 69 6f 6e  r rule condition
4870: 3a 20 28 2a 76 2a 29 20 2a 2f 0a 73 74 61 74 69  : (*v*) */.stati
4880: 63 20 69 6e 74 20 66 74 73 35 50 6f 72 74 65 72  c int fts5Porter
4890: 5f 56 6f 77 65 6c 28 63 68 61 72 20 2a 7a 53 74  _Vowel(char *zSt
48a0: 65 6d 2c 20 69 6e 74 20 6e 53 74 65 6d 29 7b 0a  em, int nStem){.
48b0: 20 20 69 6e 74 20 69 3b 0a 20 20 66 6f 72 28 69    int i;.  for(i
48c0: 3d 30 3b 20 69 3c 6e 53 74 65 6d 3b 20 69 2b 2b  =0; i<nStem; i++
48d0: 29 7b 0a 20 20 20 20 69 66 28 20 66 74 73 35 50  ){.    if( fts5P
48e0: 6f 72 74 65 72 49 73 56 6f 77 65 6c 28 7a 53 74  orterIsVowel(zSt
48f0: 65 6d 5b 69 5d 2c 20 69 3e 30 29 20 29 7b 0a 20  em[i], i>0) ){. 
4900: 20 20 20 20 20 72 65 74 75 72 6e 20 31 3b 0a 20       return 1;. 
4910: 20 20 20 7d 0a 20 20 7d 0a 20 20 72 65 74 75 72     }.  }.  retur
4920: 6e 20 30 3b 0a 7d 0a 0a 0a 2f 2a 2a 2a 2a 2a 2a  n 0;.}.../******
4930: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
4940: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
4950: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
4960: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
4970: 2a 2a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****.***********
4980: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
4990: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
49a0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
49b0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
49c0: 0a 2a 2a 20 47 45 4e 45 52 41 54 45 44 20 43 4f  .** GENERATED CO
49d0: 44 45 20 53 54 41 52 54 53 20 48 45 52 45 20 28  DE STARTS HERE (
49e0: 6d 6b 70 6f 72 74 65 72 73 74 65 70 73 2e 74 63  mkportersteps.tc
49f0: 6c 29 0a 2a 2f 0a 0a 73 74 61 74 69 63 20 69 6e  l).*/..static in
4a00: 74 20 66 74 73 35 50 6f 72 74 65 72 53 74 65 70  t fts5PorterStep
4a10: 34 28 63 68 61 72 20 2a 61 42 75 66 2c 20 69 6e  4(char *aBuf, in
4a20: 74 20 2a 70 6e 42 75 66 29 7b 0a 20 20 69 6e 74  t *pnBuf){.  int
4a30: 20 72 65 74 20 3d 20 30 3b 0a 20 20 69 6e 74 20   ret = 0;.  int 
4a40: 6e 42 75 66 20 3d 20 2a 70 6e 42 75 66 3b 0a 20  nBuf = *pnBuf;. 
4a50: 20 73 77 69 74 63 68 28 20 61 42 75 66 5b 6e 42   switch( aBuf[nB
4a60: 75 66 2d 32 5d 20 29 7b 0a 20 20 20 20 0a 20 20  uf-2] ){.    .  
4a70: 20 20 63 61 73 65 20 27 61 27 3a 20 0a 20 20 20    case 'a': .   
4a80: 20 20 20 69 66 28 20 6e 42 75 66 3e 32 20 26 26     if( nBuf>2 &&
4a90: 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 61 6c 22 2c   0==memcmp("al",
4aa0: 20 26 61 42 75 66 5b 6e 42 75 66 2d 32 5d 2c 20   &aBuf[nBuf-2], 
4ab0: 32 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66  2) ){.        if
4ac0: 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74  ( fts5Porter_MGt
4ad0: 31 28 61 42 75 66 2c 20 6e 42 75 66 2d 32 29 20  1(aBuf, nBuf-2) 
4ae0: 29 7b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e  ){.          *pn
4af0: 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 32 3b 0a  Buf = nBuf - 2;.
4b00: 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20          }.      
4b10: 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  }.      break;. 
4b20: 20 0a 20 20 20 20 63 61 73 65 20 27 63 27 3a 20   .    case 'c': 
4b30: 0a 20 20 20 20 20 20 69 66 28 20 6e 42 75 66 3e  .      if( nBuf>
4b40: 34 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22  4 && 0==memcmp("
4b50: 61 6e 63 65 22 2c 20 26 61 42 75 66 5b 6e 42 75  ance", &aBuf[nBu
4b60: 66 2d 34 5d 2c 20 34 29 20 29 7b 0a 20 20 20 20  f-4], 4) ){.    
4b70: 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74      if( fts5Port
4b80: 65 72 5f 4d 47 74 31 28 61 42 75 66 2c 20 6e 42  er_MGt1(aBuf, nB
4b90: 75 66 2d 34 29 20 29 7b 0a 20 20 20 20 20 20 20  uf-4) ){.       
4ba0: 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66     *pnBuf = nBuf
4bb0: 20 2d 20 34 3b 0a 20 20 20 20 20 20 20 20 7d 0a   - 4;.        }.
4bc0: 20 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20        }else if( 
4bd0: 6e 42 75 66 3e 34 20 26 26 20 30 3d 3d 6d 65 6d  nBuf>4 && 0==mem
4be0: 63 6d 70 28 22 65 6e 63 65 22 2c 20 26 61 42 75  cmp("ence", &aBu
4bf0: 66 5b 6e 42 75 66 2d 34 5d 2c 20 34 29 20 29 7b  f[nBuf-4], 4) ){
4c00: 0a 20 20 20 20 20 20 20 20 69 66 28 20 66 74 73  .        if( fts
4c10: 35 50 6f 72 74 65 72 5f 4d 47 74 31 28 61 42 75  5Porter_MGt1(aBu
4c20: 66 2c 20 6e 42 75 66 2d 34 29 20 29 7b 0a 20 20  f, nBuf-4) ){.  
4c30: 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d          *pnBuf =
4c40: 20 6e 42 75 66 20 2d 20 34 3b 0a 20 20 20 20 20   nBuf - 4;.     
4c50: 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20 20 20     }.      }.   
4c60: 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20 20     break;.  .   
4c70: 20 63 61 73 65 20 27 65 27 3a 20 0a 20 20 20 20   case 'e': .    
4c80: 20 20 69 66 28 20 6e 42 75 66 3e 32 20 26 26 20    if( nBuf>2 && 
4c90: 30 3d 3d 6d 65 6d 63 6d 70 28 22 65 72 22 2c 20  0==memcmp("er", 
4ca0: 26 61 42 75 66 5b 6e 42 75 66 2d 32 5d 2c 20 32  &aBuf[nBuf-2], 2
4cb0: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28  ) ){.        if(
4cc0: 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 31   fts5Porter_MGt1
4cd0: 28 61 42 75 66 2c 20 6e 42 75 66 2d 32 29 20 29  (aBuf, nBuf-2) )
4ce0: 7b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42  {.          *pnB
4cf0: 75 66 20 3d 20 6e 42 75 66 20 2d 20 32 3b 0a 20  uf = nBuf - 2;. 
4d00: 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d         }.      }
4d10: 0a 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  .      break;.  
4d20: 0a 20 20 20 20 63 61 73 65 20 27 69 27 3a 20 0a  .    case 'i': .
4d30: 20 20 20 20 20 20 69 66 28 20 6e 42 75 66 3e 32        if( nBuf>2
4d40: 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 69   && 0==memcmp("i
4d50: 63 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 32  c", &aBuf[nBuf-2
4d60: 5d 2c 20 32 29 20 29 7b 0a 20 20 20 20 20 20 20  ], 2) ){.       
4d70: 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f   if( fts5Porter_
4d80: 4d 47 74 31 28 61 42 75 66 2c 20 6e 42 75 66 2d  MGt1(aBuf, nBuf-
4d90: 32 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20  2) ){.          
4da0: 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20  *pnBuf = nBuf - 
4db0: 32 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20  2;.        }.   
4dc0: 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b     }.      break
4dd0: 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20 27 6c  ;.  .    case 'l
4de0: 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42  ': .      if( nB
4df0: 75 66 3e 34 20 26 26 20 30 3d 3d 6d 65 6d 63 6d  uf>4 && 0==memcm
4e00: 70 28 22 61 62 6c 65 22 2c 20 26 61 42 75 66 5b  p("able", &aBuf[
4e10: 6e 42 75 66 2d 34 5d 2c 20 34 29 20 29 7b 0a 20  nBuf-4], 4) ){. 
4e20: 20 20 20 20 20 20 20 69 66 28 20 66 74 73 35 50         if( fts5P
4e30: 6f 72 74 65 72 5f 4d 47 74 31 28 61 42 75 66 2c  orter_MGt1(aBuf,
4e40: 20 6e 42 75 66 2d 34 29 20 29 7b 0a 20 20 20 20   nBuf-4) ){.    
4e50: 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e        *pnBuf = n
4e60: 42 75 66 20 2d 20 34 3b 0a 20 20 20 20 20 20 20  Buf - 4;.       
4e70: 20 7d 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69   }.      }else i
4e80: 66 28 20 6e 42 75 66 3e 34 20 26 26 20 30 3d 3d  f( nBuf>4 && 0==
4e90: 6d 65 6d 63 6d 70 28 22 69 62 6c 65 22 2c 20 26  memcmp("ible", &
4ea0: 61 42 75 66 5b 6e 42 75 66 2d 34 5d 2c 20 34 29  aBuf[nBuf-4], 4)
4eb0: 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20   ){.        if( 
4ec0: 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 31 28  fts5Porter_MGt1(
4ed0: 61 42 75 66 2c 20 6e 42 75 66 2d 34 29 20 29 7b  aBuf, nBuf-4) ){
4ee0: 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75  .          *pnBu
4ef0: 66 20 3d 20 6e 42 75 66 20 2d 20 34 3b 0a 20 20  f = nBuf - 4;.  
4f00: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a        }.      }.
4f10: 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a        break;.  .
4f20: 20 20 20 20 63 61 73 65 20 27 6e 27 3a 20 0a 20      case 'n': . 
4f30: 20 20 20 20 20 69 66 28 20 6e 42 75 66 3e 33 20       if( nBuf>3 
4f40: 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 61 6e  && 0==memcmp("an
4f50: 74 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 33  t", &aBuf[nBuf-3
4f60: 5d 2c 20 33 29 20 29 7b 0a 20 20 20 20 20 20 20  ], 3) ){.       
4f70: 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f   if( fts5Porter_
4f80: 4d 47 74 31 28 61 42 75 66 2c 20 6e 42 75 66 2d  MGt1(aBuf, nBuf-
4f90: 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20  3) ){.          
4fa0: 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20  *pnBuf = nBuf - 
4fb0: 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20  3;.        }.   
4fc0: 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6e 42 75     }else if( nBu
4fd0: 66 3e 35 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70  f>5 && 0==memcmp
4fe0: 28 22 65 6d 65 6e 74 22 2c 20 26 61 42 75 66 5b  ("ement", &aBuf[
4ff0: 6e 42 75 66 2d 35 5d 2c 20 35 29 20 29 7b 0a 20  nBuf-5], 5) ){. 
5000: 20 20 20 20 20 20 20 69 66 28 20 66 74 73 35 50         if( fts5P
5010: 6f 72 74 65 72 5f 4d 47 74 31 28 61 42 75 66 2c  orter_MGt1(aBuf,
5020: 20 6e 42 75 66 2d 35 29 20 29 7b 0a 20 20 20 20   nBuf-5) ){.    
5030: 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e        *pnBuf = n
5040: 42 75 66 20 2d 20 35 3b 0a 20 20 20 20 20 20 20  Buf - 5;.       
5050: 20 7d 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69   }.      }else i
5060: 66 28 20 6e 42 75 66 3e 34 20 26 26 20 30 3d 3d  f( nBuf>4 && 0==
5070: 6d 65 6d 63 6d 70 28 22 6d 65 6e 74 22 2c 20 26  memcmp("ment", &
5080: 61 42 75 66 5b 6e 42 75 66 2d 34 5d 2c 20 34 29  aBuf[nBuf-4], 4)
5090: 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20   ){.        if( 
50a0: 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 31 28  fts5Porter_MGt1(
50b0: 61 42 75 66 2c 20 6e 42 75 66 2d 34 29 20 29 7b  aBuf, nBuf-4) ){
50c0: 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75  .          *pnBu
50d0: 66 20 3d 20 6e 42 75 66 20 2d 20 34 3b 0a 20 20  f = nBuf - 4;.  
50e0: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 65        }.      }e
50f0: 6c 73 65 20 69 66 28 20 6e 42 75 66 3e 33 20 26  lse if( nBuf>3 &
5100: 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 65 6e 74  & 0==memcmp("ent
5110: 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 33 5d  ", &aBuf[nBuf-3]
5120: 2c 20 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20  , 3) ){.        
5130: 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d  if( fts5Porter_M
5140: 47 74 31 28 61 42 75 66 2c 20 6e 42 75 66 2d 33  Gt1(aBuf, nBuf-3
5150: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 2a  ) ){.          *
5160: 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 33  pnBuf = nBuf - 3
5170: 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20  ;.        }.    
5180: 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b    }.      break;
5190: 0a 20 20 0a 20 20 20 20 63 61 73 65 20 27 6f 27  .  .    case 'o'
51a0: 3a 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42 75  : .      if( nBu
51b0: 66 3e 33 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70  f>3 && 0==memcmp
51c0: 28 22 69 6f 6e 22 2c 20 26 61 42 75 66 5b 6e 42  ("ion", &aBuf[nB
51d0: 75 66 2d 33 5d 2c 20 33 29 20 29 7b 0a 20 20 20  uf-3], 3) ){.   
51e0: 20 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72       if( fts5Por
51f0: 74 65 72 5f 4d 47 74 31 5f 61 6e 64 5f 53 5f 6f  ter_MGt1_and_S_o
5200: 72 5f 54 28 61 42 75 66 2c 20 6e 42 75 66 2d 33  r_T(aBuf, nBuf-3
5210: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 2a  ) ){.          *
5220: 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 33  pnBuf = nBuf - 3
5230: 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20  ;.        }.    
5240: 20 20 7d 65 6c 73 65 20 69 66 28 20 6e 42 75 66    }else if( nBuf
5250: 3e 32 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28  >2 && 0==memcmp(
5260: 22 6f 75 22 2c 20 26 61 42 75 66 5b 6e 42 75 66  "ou", &aBuf[nBuf
5270: 2d 32 5d 2c 20 32 29 20 29 7b 0a 20 20 20 20 20  -2], 2) ){.     
5280: 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74 65     if( fts5Porte
5290: 72 5f 4d 47 74 31 28 61 42 75 66 2c 20 6e 42 75  r_MGt1(aBuf, nBu
52a0: 66 2d 32 29 20 29 7b 0a 20 20 20 20 20 20 20 20  f-2) ){.        
52b0: 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20    *pnBuf = nBuf 
52c0: 2d 20 32 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20  - 2;.        }. 
52d0: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65       }.      bre
52e0: 61 6b 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20  ak;.  .    case 
52f0: 27 73 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20  's': .      if( 
5300: 6e 42 75 66 3e 33 20 26 26 20 30 3d 3d 6d 65 6d  nBuf>3 && 0==mem
5310: 63 6d 70 28 22 69 73 6d 22 2c 20 26 61 42 75 66  cmp("ism", &aBuf
5320: 5b 6e 42 75 66 2d 33 5d 2c 20 33 29 20 29 7b 0a  [nBuf-3], 3) ){.
5330: 20 20 20 20 20 20 20 20 69 66 28 20 66 74 73 35          if( fts5
5340: 50 6f 72 74 65 72 5f 4d 47 74 31 28 61 42 75 66  Porter_MGt1(aBuf
5350: 2c 20 6e 42 75 66 2d 33 29 20 29 7b 0a 20 20 20  , nBuf-3) ){.   
5360: 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20         *pnBuf = 
5370: 6e 42 75 66 20 2d 20 33 3b 0a 20 20 20 20 20 20  nBuf - 3;.      
5380: 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20 20 20 20    }.      }.    
5390: 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20 20 20    break;.  .    
53a0: 63 61 73 65 20 27 74 27 3a 20 0a 20 20 20 20 20  case 't': .     
53b0: 20 69 66 28 20 6e 42 75 66 3e 33 20 26 26 20 30   if( nBuf>3 && 0
53c0: 3d 3d 6d 65 6d 63 6d 70 28 22 61 74 65 22 2c 20  ==memcmp("ate", 
53d0: 26 61 42 75 66 5b 6e 42 75 66 2d 33 5d 2c 20 33  &aBuf[nBuf-3], 3
53e0: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28  ) ){.        if(
53f0: 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 31   fts5Porter_MGt1
5400: 28 61 42 75 66 2c 20 6e 42 75 66 2d 33 29 20 29  (aBuf, nBuf-3) )
5410: 7b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42  {.          *pnB
5420: 75 66 20 3d 20 6e 42 75 66 20 2d 20 33 3b 0a 20  uf = nBuf - 3;. 
5430: 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d         }.      }
5440: 65 6c 73 65 20 69 66 28 20 6e 42 75 66 3e 33 20  else if( nBuf>3 
5450: 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 69 74  && 0==memcmp("it
5460: 69 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 33  i", &aBuf[nBuf-3
5470: 5d 2c 20 33 29 20 29 7b 0a 20 20 20 20 20 20 20  ], 3) ){.       
5480: 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f   if( fts5Porter_
5490: 4d 47 74 31 28 61 42 75 66 2c 20 6e 42 75 66 2d  MGt1(aBuf, nBuf-
54a0: 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20  3) ){.          
54b0: 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20  *pnBuf = nBuf - 
54c0: 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20  3;.        }.   
54d0: 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b     }.      break
54e0: 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20 27 75  ;.  .    case 'u
54f0: 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42  ': .      if( nB
5500: 75 66 3e 33 20 26 26 20 30 3d 3d 6d 65 6d 63 6d  uf>3 && 0==memcm
5510: 70 28 22 6f 75 73 22 2c 20 26 61 42 75 66 5b 6e  p("ous", &aBuf[n
5520: 42 75 66 2d 33 5d 2c 20 33 29 20 29 7b 0a 20 20  Buf-3], 3) ){.  
5530: 20 20 20 20 20 20 69 66 28 20 66 74 73 35 50 6f        if( fts5Po
5540: 72 74 65 72 5f 4d 47 74 31 28 61 42 75 66 2c 20  rter_MGt1(aBuf, 
5550: 6e 42 75 66 2d 33 29 20 29 7b 0a 20 20 20 20 20  nBuf-3) ){.     
5560: 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42       *pnBuf = nB
5570: 75 66 20 2d 20 33 3b 0a 20 20 20 20 20 20 20 20  uf - 3;.        
5580: 7d 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20  }.      }.      
5590: 62 72 65 61 6b 3b 0a 20 20 0a 20 20 20 20 63 61  break;.  .    ca
55a0: 73 65 20 27 76 27 3a 20 0a 20 20 20 20 20 20 69  se 'v': .      i
55b0: 66 28 20 6e 42 75 66 3e 33 20 26 26 20 30 3d 3d  f( nBuf>3 && 0==
55c0: 6d 65 6d 63 6d 70 28 22 69 76 65 22 2c 20 26 61  memcmp("ive", &a
55d0: 42 75 66 5b 6e 42 75 66 2d 33 5d 2c 20 33 29 20  Buf[nBuf-3], 3) 
55e0: 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20 66  ){.        if( f
55f0: 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 31 28 61  ts5Porter_MGt1(a
5600: 42 75 66 2c 20 6e 42 75 66 2d 33 29 20 29 7b 0a  Buf, nBuf-3) ){.
5610: 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66            *pnBuf
5620: 20 3d 20 6e 42 75 66 20 2d 20 33 3b 0a 20 20 20   = nBuf - 3;.   
5630: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20       }.      }. 
5640: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20       break;.  . 
5650: 20 20 20 63 61 73 65 20 27 7a 27 3a 20 0a 20 20     case 'z': .  
5660: 20 20 20 20 69 66 28 20 6e 42 75 66 3e 33 20 26      if( nBuf>3 &
5670: 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 69 7a 65  & 0==memcmp("ize
5680: 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 33 5d  ", &aBuf[nBuf-3]
5690: 2c 20 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20  , 3) ){.        
56a0: 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d  if( fts5Porter_M
56b0: 47 74 31 28 61 42 75 66 2c 20 6e 42 75 66 2d 33  Gt1(aBuf, nBuf-3
56c0: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 2a  ) ){.          *
56d0: 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 33  pnBuf = nBuf - 3
56e0: 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20  ;.        }.    
56f0: 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b    }.      break;
5700: 0a 20 20 0a 20 20 7d 0a 20 20 72 65 74 75 72 6e  .  .  }.  return
5710: 20 72 65 74 3b 0a 7d 0a 20 20 0a 0a 73 74 61 74   ret;.}.  ..stat
5720: 69 63 20 69 6e 74 20 66 74 73 35 50 6f 72 74 65  ic int fts5Porte
5730: 72 53 74 65 70 31 42 32 28 63 68 61 72 20 2a 61  rStep1B2(char *a
5740: 42 75 66 2c 20 69 6e 74 20 2a 70 6e 42 75 66 29  Buf, int *pnBuf)
5750: 7b 0a 20 20 69 6e 74 20 72 65 74 20 3d 20 30 3b  {.  int ret = 0;
5760: 0a 20 20 69 6e 74 20 6e 42 75 66 20 3d 20 2a 70  .  int nBuf = *p
5770: 6e 42 75 66 3b 0a 20 20 73 77 69 74 63 68 28 20  nBuf;.  switch( 
5780: 61 42 75 66 5b 6e 42 75 66 2d 32 5d 20 29 7b 0a  aBuf[nBuf-2] ){.
5790: 20 20 20 20 0a 20 20 20 20 63 61 73 65 20 27 61      .    case 'a
57a0: 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42  ': .      if( nB
57b0: 75 66 3e 32 20 26 26 20 30 3d 3d 6d 65 6d 63 6d  uf>2 && 0==memcm
57c0: 70 28 22 61 74 22 2c 20 26 61 42 75 66 5b 6e 42  p("at", &aBuf[nB
57d0: 75 66 2d 32 5d 2c 20 32 29 20 29 7b 0a 20 20 20  uf-2], 2) ){.   
57e0: 20 20 20 20 20 6d 65 6d 63 70 79 28 26 61 42 75       memcpy(&aBu
57f0: 66 5b 6e 42 75 66 2d 32 5d 2c 20 22 61 74 65 22  f[nBuf-2], "ate"
5800: 2c 20 33 29 3b 0a 20 20 20 20 20 20 20 20 2a 70  , 3);.        *p
5810: 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 32 20  nBuf = nBuf - 2 
5820: 2b 20 33 3b 0a 20 20 20 20 20 20 20 20 72 65 74  + 3;.        ret
5830: 20 3d 20 31 3b 0a 20 20 20 20 20 20 7d 0a 20 20   = 1;.      }.  
5840: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20      break;.  .  
5850: 20 20 63 61 73 65 20 27 62 27 3a 20 0a 20 20 20    case 'b': .   
5860: 20 20 20 69 66 28 20 6e 42 75 66 3e 32 20 26 26     if( nBuf>2 &&
5870: 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 62 6c 22 2c   0==memcmp("bl",
5880: 20 26 61 42 75 66 5b 6e 42 75 66 2d 32 5d 2c 20   &aBuf[nBuf-2], 
5890: 32 29 20 29 7b 0a 20 20 20 20 20 20 20 20 6d 65  2) ){.        me
58a0: 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66 2d  mcpy(&aBuf[nBuf-
58b0: 32 5d 2c 20 22 62 6c 65 22 2c 20 33 29 3b 0a 20  2], "ble", 3);. 
58c0: 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20         *pnBuf = 
58d0: 6e 42 75 66 20 2d 20 32 20 2b 20 33 3b 0a 20 20  nBuf - 2 + 3;.  
58e0: 20 20 20 20 20 20 72 65 74 20 3d 20 31 3b 0a 20        ret = 1;. 
58f0: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65       }.      bre
5900: 61 6b 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20  ak;.  .    case 
5910: 27 69 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20  'i': .      if( 
5920: 6e 42 75 66 3e 32 20 26 26 20 30 3d 3d 6d 65 6d  nBuf>2 && 0==mem
5930: 63 6d 70 28 22 69 7a 22 2c 20 26 61 42 75 66 5b  cmp("iz", &aBuf[
5940: 6e 42 75 66 2d 32 5d 2c 20 32 29 20 29 7b 0a 20  nBuf-2], 2) ){. 
5950: 20 20 20 20 20 20 20 6d 65 6d 63 70 79 28 26 61         memcpy(&a
5960: 42 75 66 5b 6e 42 75 66 2d 32 5d 2c 20 22 69 7a  Buf[nBuf-2], "iz
5970: 65 22 2c 20 33 29 3b 0a 20 20 20 20 20 20 20 20  e", 3);.        
5980: 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20  *pnBuf = nBuf - 
5990: 32 20 2b 20 33 3b 0a 20 20 20 20 20 20 20 20 72  2 + 3;.        r
59a0: 65 74 20 3d 20 31 3b 0a 20 20 20 20 20 20 7d 0a  et = 1;.      }.
59b0: 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a        break;.  .
59c0: 20 20 7d 0a 20 20 72 65 74 75 72 6e 20 72 65 74    }.  return ret
59d0: 3b 0a 7d 0a 20 20 0a 0a 73 74 61 74 69 63 20 69  ;.}.  ..static i
59e0: 6e 74 20 66 74 73 35 50 6f 72 74 65 72 53 74 65  nt fts5PorterSte
59f0: 70 32 28 63 68 61 72 20 2a 61 42 75 66 2c 20 69  p2(char *aBuf, i
5a00: 6e 74 20 2a 70 6e 42 75 66 29 7b 0a 20 20 69 6e  nt *pnBuf){.  in
5a10: 74 20 72 65 74 20 3d 20 30 3b 0a 20 20 69 6e 74  t ret = 0;.  int
5a20: 20 6e 42 75 66 20 3d 20 2a 70 6e 42 75 66 3b 0a   nBuf = *pnBuf;.
5a30: 20 20 73 77 69 74 63 68 28 20 61 42 75 66 5b 6e    switch( aBuf[n
5a40: 42 75 66 2d 32 5d 20 29 7b 0a 20 20 20 20 0a 20  Buf-2] ){.    . 
5a50: 20 20 20 63 61 73 65 20 27 61 27 3a 20 0a 20 20     case 'a': .  
5a60: 20 20 20 20 69 66 28 20 6e 42 75 66 3e 37 20 26      if( nBuf>7 &
5a70: 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 61 74 69  & 0==memcmp("ati
5a80: 6f 6e 61 6c 22 2c 20 26 61 42 75 66 5b 6e 42 75  onal", &aBuf[nBu
5a90: 66 2d 37 5d 2c 20 37 29 20 29 7b 0a 20 20 20 20  f-7], 7) ){.    
5aa0: 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74      if( fts5Port
5ab0: 65 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42  er_MGt0(aBuf, nB
5ac0: 75 66 2d 37 29 20 29 7b 0a 20 20 20 20 20 20 20  uf-7) ){.       
5ad0: 20 20 20 6d 65 6d 63 70 79 28 26 61 42 75 66 5b     memcpy(&aBuf[
5ae0: 6e 42 75 66 2d 37 5d 2c 20 22 61 74 65 22 2c 20  nBuf-7], "ate", 
5af0: 33 29 3b 0a 20 20 20 20 20 20 20 20 20 20 2a 70  3);.          *p
5b00: 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 37 20  nBuf = nBuf - 7 
5b10: 2b 20 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20  + 3;.        }. 
5b20: 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6e       }else if( n
5b30: 42 75 66 3e 36 20 26 26 20 30 3d 3d 6d 65 6d 63  Buf>6 && 0==memc
5b40: 6d 70 28 22 74 69 6f 6e 61 6c 22 2c 20 26 61 42  mp("tional", &aB
5b50: 75 66 5b 6e 42 75 66 2d 36 5d 2c 20 36 29 20 29  uf[nBuf-6], 6) )
5b60: 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20 66 74  {.        if( ft
5b70: 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28 61 42  s5Porter_MGt0(aB
5b80: 75 66 2c 20 6e 42 75 66 2d 36 29 20 29 7b 0a 20  uf, nBuf-6) ){. 
5b90: 20 20 20 20 20 20 20 20 20 6d 65 6d 63 70 79 28           memcpy(
5ba0: 26 61 42 75 66 5b 6e 42 75 66 2d 36 5d 2c 20 22  &aBuf[nBuf-6], "
5bb0: 74 69 6f 6e 22 2c 20 34 29 3b 0a 20 20 20 20 20  tion", 4);.     
5bc0: 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42       *pnBuf = nB
5bd0: 75 66 20 2d 20 36 20 2b 20 34 3b 0a 20 20 20 20  uf - 6 + 4;.    
5be0: 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20 20      }.      }.  
5bf0: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20      break;.  .  
5c00: 20 20 63 61 73 65 20 27 63 27 3a 20 0a 20 20 20    case 'c': .   
5c10: 20 20 20 69 66 28 20 6e 42 75 66 3e 34 20 26 26     if( nBuf>4 &&
5c20: 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 65 6e 63 69   0==memcmp("enci
5c30: 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 34 5d  ", &aBuf[nBuf-4]
5c40: 2c 20 34 29 20 29 7b 0a 20 20 20 20 20 20 20 20  , 4) ){.        
5c50: 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d  if( fts5Porter_M
5c60: 47 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d 34  Gt0(aBuf, nBuf-4
5c70: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 6d  ) ){.          m
5c80: 65 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66  emcpy(&aBuf[nBuf
5c90: 2d 34 5d 2c 20 22 65 6e 63 65 22 2c 20 34 29 3b  -4], "ence", 4);
5ca0: 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75  .          *pnBu
5cb0: 66 20 3d 20 6e 42 75 66 20 2d 20 34 20 2b 20 34  f = nBuf - 4 + 4
5cc0: 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20  ;.        }.    
5cd0: 20 20 7d 65 6c 73 65 20 69 66 28 20 6e 42 75 66    }else if( nBuf
5ce0: 3e 34 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28  >4 && 0==memcmp(
5cf0: 22 61 6e 63 69 22 2c 20 26 61 42 75 66 5b 6e 42  "anci", &aBuf[nB
5d00: 75 66 2d 34 5d 2c 20 34 29 20 29 7b 0a 20 20 20  uf-4], 4) ){.   
5d10: 20 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72       if( fts5Por
5d20: 74 65 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e  ter_MGt0(aBuf, n
5d30: 42 75 66 2d 34 29 20 29 7b 0a 20 20 20 20 20 20  Buf-4) ){.      
5d40: 20 20 20 20 6d 65 6d 63 70 79 28 26 61 42 75 66      memcpy(&aBuf
5d50: 5b 6e 42 75 66 2d 34 5d 2c 20 22 61 6e 63 65 22  [nBuf-4], "ance"
5d60: 2c 20 34 29 3b 0a 20 20 20 20 20 20 20 20 20 20  , 4);.          
5d70: 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20  *pnBuf = nBuf - 
5d80: 34 20 2b 20 34 3b 0a 20 20 20 20 20 20 20 20 7d  4 + 4;.        }
5d90: 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 62  .      }.      b
5da0: 72 65 61 6b 3b 0a 20 20 0a 20 20 20 20 63 61 73  reak;.  .    cas
5db0: 65 20 27 65 27 3a 20 0a 20 20 20 20 20 20 69 66  e 'e': .      if
5dc0: 28 20 6e 42 75 66 3e 34 20 26 26 20 30 3d 3d 6d  ( nBuf>4 && 0==m
5dd0: 65 6d 63 6d 70 28 22 69 7a 65 72 22 2c 20 26 61  emcmp("izer", &a
5de0: 42 75 66 5b 6e 42 75 66 2d 34 5d 2c 20 34 29 20  Buf[nBuf-4], 4) 
5df0: 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20 66  ){.        if( f
5e00: 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28 61  ts5Porter_MGt0(a
5e10: 42 75 66 2c 20 6e 42 75 66 2d 34 29 20 29 7b 0a  Buf, nBuf-4) ){.
5e20: 20 20 20 20 20 20 20 20 20 20 6d 65 6d 63 70 79            memcpy
5e30: 28 26 61 42 75 66 5b 6e 42 75 66 2d 34 5d 2c 20  (&aBuf[nBuf-4], 
5e40: 22 69 7a 65 22 2c 20 33 29 3b 0a 20 20 20 20 20  "ize", 3);.     
5e50: 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42       *pnBuf = nB
5e60: 75 66 20 2d 20 34 20 2b 20 33 3b 0a 20 20 20 20  uf - 4 + 3;.    
5e70: 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20 20      }.      }.  
5e80: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20      break;.  .  
5e90: 20 20 63 61 73 65 20 27 67 27 3a 20 0a 20 20 20    case 'g': .   
5ea0: 20 20 20 69 66 28 20 6e 42 75 66 3e 34 20 26 26     if( nBuf>4 &&
5eb0: 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 6c 6f 67 69   0==memcmp("logi
5ec0: 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 34 5d  ", &aBuf[nBuf-4]
5ed0: 2c 20 34 29 20 29 7b 0a 20 20 20 20 20 20 20 20  , 4) ){.        
5ee0: 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d  if( fts5Porter_M
5ef0: 47 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d 34  Gt0(aBuf, nBuf-4
5f00: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 6d  ) ){.          m
5f10: 65 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66  emcpy(&aBuf[nBuf
5f20: 2d 34 5d 2c 20 22 6c 6f 67 22 2c 20 33 29 3b 0a  -4], "log", 3);.
5f30: 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66            *pnBuf
5f40: 20 3d 20 6e 42 75 66 20 2d 20 34 20 2b 20 33 3b   = nBuf - 4 + 3;
5f50: 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20  .        }.     
5f60: 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b 0a   }.      break;.
5f70: 20 20 0a 20 20 20 20 63 61 73 65 20 27 6c 27 3a    .    case 'l':
5f80: 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42 75 66   .      if( nBuf
5f90: 3e 33 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28  >3 && 0==memcmp(
5fa0: 22 62 6c 69 22 2c 20 26 61 42 75 66 5b 6e 42 75  "bli", &aBuf[nBu
5fb0: 66 2d 33 5d 2c 20 33 29 20 29 7b 0a 20 20 20 20  f-3], 3) ){.    
5fc0: 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74      if( fts5Port
5fd0: 65 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42  er_MGt0(aBuf, nB
5fe0: 75 66 2d 33 29 20 29 7b 0a 20 20 20 20 20 20 20  uf-3) ){.       
5ff0: 20 20 20 6d 65 6d 63 70 79 28 26 61 42 75 66 5b     memcpy(&aBuf[
6000: 6e 42 75 66 2d 33 5d 2c 20 22 62 6c 65 22 2c 20  nBuf-3], "ble", 
6010: 33 29 3b 0a 20 20 20 20 20 20 20 20 20 20 2a 70  3);.          *p
6020: 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 33 20  nBuf = nBuf - 3 
6030: 2b 20 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20  + 3;.        }. 
6040: 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6e       }else if( n
6050: 42 75 66 3e 34 20 26 26 20 30 3d 3d 6d 65 6d 63  Buf>4 && 0==memc
6060: 6d 70 28 22 61 6c 6c 69 22 2c 20 26 61 42 75 66  mp("alli", &aBuf
6070: 5b 6e 42 75 66 2d 34 5d 2c 20 34 29 20 29 7b 0a  [nBuf-4], 4) ){.
6080: 20 20 20 20 20 20 20 20 69 66 28 20 66 74 73 35          if( fts5
6090: 50 6f 72 74 65 72 5f 4d 47 74 30 28 61 42 75 66  Porter_MGt0(aBuf
60a0: 2c 20 6e 42 75 66 2d 34 29 20 29 7b 0a 20 20 20  , nBuf-4) ){.   
60b0: 20 20 20 20 20 20 20 6d 65 6d 63 70 79 28 26 61         memcpy(&a
60c0: 42 75 66 5b 6e 42 75 66 2d 34 5d 2c 20 22 61 6c  Buf[nBuf-4], "al
60d0: 22 2c 20 32 29 3b 0a 20 20 20 20 20 20 20 20 20  ", 2);.         
60e0: 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d   *pnBuf = nBuf -
60f0: 20 34 20 2b 20 32 3b 0a 20 20 20 20 20 20 20 20   4 + 2;.        
6100: 7d 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69 66  }.      }else if
6110: 28 20 6e 42 75 66 3e 35 20 26 26 20 30 3d 3d 6d  ( nBuf>5 && 0==m
6120: 65 6d 63 6d 70 28 22 65 6e 74 6c 69 22 2c 20 26  emcmp("entli", &
6130: 61 42 75 66 5b 6e 42 75 66 2d 35 5d 2c 20 35 29  aBuf[nBuf-5], 5)
6140: 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20   ){.        if( 
6150: 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28  fts5Porter_MGt0(
6160: 61 42 75 66 2c 20 6e 42 75 66 2d 35 29 20 29 7b  aBuf, nBuf-5) ){
6170: 0a 20 20 20 20 20 20 20 20 20 20 6d 65 6d 63 70  .          memcp
6180: 79 28 26 61 42 75 66 5b 6e 42 75 66 2d 35 5d 2c  y(&aBuf[nBuf-5],
6190: 20 22 65 6e 74 22 2c 20 33 29 3b 0a 20 20 20 20   "ent", 3);.    
61a0: 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e        *pnBuf = n
61b0: 42 75 66 20 2d 20 35 20 2b 20 33 3b 0a 20 20 20  Buf - 5 + 3;.   
61c0: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 65 6c       }.      }el
61d0: 73 65 20 69 66 28 20 6e 42 75 66 3e 33 20 26 26  se if( nBuf>3 &&
61e0: 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 65 6c 69 22   0==memcmp("eli"
61f0: 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 33 5d 2c  , &aBuf[nBuf-3],
6200: 20 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69   3) ){.        i
6210: 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47  f( fts5Porter_MG
6220: 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d 33 29  t0(aBuf, nBuf-3)
6230: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 6d 65   ){.          me
6240: 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66 2d  mcpy(&aBuf[nBuf-
6250: 33 5d 2c 20 22 65 22 2c 20 31 29 3b 0a 20 20 20  3], "e", 1);.   
6260: 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20         *pnBuf = 
6270: 6e 42 75 66 20 2d 20 33 20 2b 20 31 3b 0a 20 20  nBuf - 3 + 1;.  
6280: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 65        }.      }e
6290: 6c 73 65 20 69 66 28 20 6e 42 75 66 3e 35 20 26  lse if( nBuf>5 &
62a0: 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 6f 75 73  & 0==memcmp("ous
62b0: 6c 69 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d  li", &aBuf[nBuf-
62c0: 35 5d 2c 20 35 29 20 29 7b 0a 20 20 20 20 20 20  5], 5) ){.      
62d0: 20 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72    if( fts5Porter
62e0: 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42 75 66  _MGt0(aBuf, nBuf
62f0: 2d 35 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20  -5) ){.         
6300: 20 6d 65 6d 63 70 79 28 26 61 42 75 66 5b 6e 42   memcpy(&aBuf[nB
6310: 75 66 2d 35 5d 2c 20 22 6f 75 73 22 2c 20 33 29  uf-5], "ous", 3)
6320: 3b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42  ;.          *pnB
6330: 75 66 20 3d 20 6e 42 75 66 20 2d 20 35 20 2b 20  uf = nBuf - 5 + 
6340: 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20  3;.        }.   
6350: 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b     }.      break
6360: 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20 27 6f  ;.  .    case 'o
6370: 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42  ': .      if( nB
6380: 75 66 3e 37 20 26 26 20 30 3d 3d 6d 65 6d 63 6d  uf>7 && 0==memcm
6390: 70 28 22 69 7a 61 74 69 6f 6e 22 2c 20 26 61 42  p("ization", &aB
63a0: 75 66 5b 6e 42 75 66 2d 37 5d 2c 20 37 29 20 29  uf[nBuf-7], 7) )
63b0: 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20 66 74  {.        if( ft
63c0: 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28 61 42  s5Porter_MGt0(aB
63d0: 75 66 2c 20 6e 42 75 66 2d 37 29 20 29 7b 0a 20  uf, nBuf-7) ){. 
63e0: 20 20 20 20 20 20 20 20 20 6d 65 6d 63 70 79 28           memcpy(
63f0: 26 61 42 75 66 5b 6e 42 75 66 2d 37 5d 2c 20 22  &aBuf[nBuf-7], "
6400: 69 7a 65 22 2c 20 33 29 3b 0a 20 20 20 20 20 20  ize", 3);.      
6410: 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75      *pnBuf = nBu
6420: 66 20 2d 20 37 20 2b 20 33 3b 0a 20 20 20 20 20  f - 7 + 3;.     
6430: 20 20 20 7d 0a 20 20 20 20 20 20 7d 65 6c 73 65     }.      }else
6440: 20 69 66 28 20 6e 42 75 66 3e 35 20 26 26 20 30   if( nBuf>5 && 0
6450: 3d 3d 6d 65 6d 63 6d 70 28 22 61 74 69 6f 6e 22  ==memcmp("ation"
6460: 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 35 5d 2c  , &aBuf[nBuf-5],
6470: 20 35 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69   5) ){.        i
6480: 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47  f( fts5Porter_MG
6490: 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d 35 29  t0(aBuf, nBuf-5)
64a0: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 6d 65   ){.          me
64b0: 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66 2d  mcpy(&aBuf[nBuf-
64c0: 35 5d 2c 20 22 61 74 65 22 2c 20 33 29 3b 0a 20  5], "ate", 3);. 
64d0: 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20           *pnBuf 
64e0: 3d 20 6e 42 75 66 20 2d 20 35 20 2b 20 33 3b 0a  = nBuf - 5 + 3;.
64f0: 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20          }.      
6500: 7d 65 6c 73 65 20 69 66 28 20 6e 42 75 66 3e 34  }else if( nBuf>4
6510: 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 61   && 0==memcmp("a
6520: 74 6f 72 22 2c 20 26 61 42 75 66 5b 6e 42 75 66  tor", &aBuf[nBuf
6530: 2d 34 5d 2c 20 34 29 20 29 7b 0a 20 20 20 20 20  -4], 4) ){.     
6540: 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74 65     if( fts5Porte
6550: 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42 75  r_MGt0(aBuf, nBu
6560: 66 2d 34 29 20 29 7b 0a 20 20 20 20 20 20 20 20  f-4) ){.        
6570: 20 20 6d 65 6d 63 70 79 28 26 61 42 75 66 5b 6e    memcpy(&aBuf[n
6580: 42 75 66 2d 34 5d 2c 20 22 61 74 65 22 2c 20 33  Buf-4], "ate", 3
6590: 29 3b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e  );.          *pn
65a0: 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 34 20 2b  Buf = nBuf - 4 +
65b0: 20 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20   3;.        }.  
65c0: 20 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61      }.      brea
65d0: 6b 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20 27  k;.  .    case '
65e0: 73 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20 6e  s': .      if( n
65f0: 42 75 66 3e 35 20 26 26 20 30 3d 3d 6d 65 6d 63  Buf>5 && 0==memc
6600: 6d 70 28 22 61 6c 69 73 6d 22 2c 20 26 61 42 75  mp("alism", &aBu
6610: 66 5b 6e 42 75 66 2d 35 5d 2c 20 35 29 20 29 7b  f[nBuf-5], 5) ){
6620: 0a 20 20 20 20 20 20 20 20 69 66 28 20 66 74 73  .        if( fts
6630: 35 50 6f 72 74 65 72 5f 4d 47 74 30 28 61 42 75  5Porter_MGt0(aBu
6640: 66 2c 20 6e 42 75 66 2d 35 29 20 29 7b 0a 20 20  f, nBuf-5) ){.  
6650: 20 20 20 20 20 20 20 20 6d 65 6d 63 70 79 28 26          memcpy(&
6660: 61 42 75 66 5b 6e 42 75 66 2d 35 5d 2c 20 22 61  aBuf[nBuf-5], "a
6670: 6c 22 2c 20 32 29 3b 0a 20 20 20 20 20 20 20 20  l", 2);.        
6680: 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20    *pnBuf = nBuf 
6690: 2d 20 35 20 2b 20 32 3b 0a 20 20 20 20 20 20 20  - 5 + 2;.       
66a0: 20 7d 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69   }.      }else i
66b0: 66 28 20 6e 42 75 66 3e 37 20 26 26 20 30 3d 3d  f( nBuf>7 && 0==
66c0: 6d 65 6d 63 6d 70 28 22 69 76 65 6e 65 73 73 22  memcmp("iveness"
66d0: 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 37 5d 2c  , &aBuf[nBuf-7],
66e0: 20 37 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69   7) ){.        i
66f0: 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47  f( fts5Porter_MG
6700: 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d 37 29  t0(aBuf, nBuf-7)
6710: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 6d 65   ){.          me
6720: 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66 2d  mcpy(&aBuf[nBuf-
6730: 37 5d 2c 20 22 69 76 65 22 2c 20 33 29 3b 0a 20  7], "ive", 3);. 
6740: 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20           *pnBuf 
6750: 3d 20 6e 42 75 66 20 2d 20 37 20 2b 20 33 3b 0a  = nBuf - 7 + 3;.
6760: 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20          }.      
6770: 7d 65 6c 73 65 20 69 66 28 20 6e 42 75 66 3e 37  }else if( nBuf>7
6780: 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 66   && 0==memcmp("f
6790: 75 6c 6e 65 73 73 22 2c 20 26 61 42 75 66 5b 6e  ulness", &aBuf[n
67a0: 42 75 66 2d 37 5d 2c 20 37 29 20 29 7b 0a 20 20  Buf-7], 7) ){.  
67b0: 20 20 20 20 20 20 69 66 28 20 66 74 73 35 50 6f        if( fts5Po
67c0: 72 74 65 72 5f 4d 47 74 30 28 61 42 75 66 2c 20  rter_MGt0(aBuf, 
67d0: 6e 42 75 66 2d 37 29 20 29 7b 0a 20 20 20 20 20  nBuf-7) ){.     
67e0: 20 20 20 20 20 6d 65 6d 63 70 79 28 26 61 42 75       memcpy(&aBu
67f0: 66 5b 6e 42 75 66 2d 37 5d 2c 20 22 66 75 6c 22  f[nBuf-7], "ful"
6800: 2c 20 33 29 3b 0a 20 20 20 20 20 20 20 20 20 20  , 3);.          
6810: 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20  *pnBuf = nBuf - 
6820: 37 20 2b 20 33 3b 0a 20 20 20 20 20 20 20 20 7d  7 + 3;.        }
6830: 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28  .      }else if(
6840: 20 6e 42 75 66 3e 37 20 26 26 20 30 3d 3d 6d 65   nBuf>7 && 0==me
6850: 6d 63 6d 70 28 22 6f 75 73 6e 65 73 73 22 2c 20  mcmp("ousness", 
6860: 26 61 42 75 66 5b 6e 42 75 66 2d 37 5d 2c 20 37  &aBuf[nBuf-7], 7
6870: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28  ) ){.        if(
6880: 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 30   fts5Porter_MGt0
6890: 28 61 42 75 66 2c 20 6e 42 75 66 2d 37 29 20 29  (aBuf, nBuf-7) )
68a0: 7b 0a 20 20 20 20 20 20 20 20 20 20 6d 65 6d 63  {.          memc
68b0: 70 79 28 26 61 42 75 66 5b 6e 42 75 66 2d 37 5d  py(&aBuf[nBuf-7]
68c0: 2c 20 22 6f 75 73 22 2c 20 33 29 3b 0a 20 20 20  , "ous", 3);.   
68d0: 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20         *pnBuf = 
68e0: 6e 42 75 66 20 2d 20 37 20 2b 20 33 3b 0a 20 20  nBuf - 7 + 3;.  
68f0: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a        }.      }.
6900: 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a        break;.  .
6910: 20 20 20 20 63 61 73 65 20 27 74 27 3a 20 0a 20      case 't': . 
6920: 20 20 20 20 20 69 66 28 20 6e 42 75 66 3e 35 20       if( nBuf>5 
6930: 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 61 6c  && 0==memcmp("al
6940: 69 74 69 22 2c 20 26 61 42 75 66 5b 6e 42 75 66  iti", &aBuf[nBuf
6950: 2d 35 5d 2c 20 35 29 20 29 7b 0a 20 20 20 20 20  -5], 5) ){.     
6960: 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74 65     if( fts5Porte
6970: 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42 75  r_MGt0(aBuf, nBu
6980: 66 2d 35 29 20 29 7b 0a 20 20 20 20 20 20 20 20  f-5) ){.        
6990: 20 20 6d 65 6d 63 70 79 28 26 61 42 75 66 5b 6e    memcpy(&aBuf[n
69a0: 42 75 66 2d 35 5d 2c 20 22 61 6c 22 2c 20 32 29  Buf-5], "al", 2)
69b0: 3b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42  ;.          *pnB
69c0: 75 66 20 3d 20 6e 42 75 66 20 2d 20 35 20 2b 20  uf = nBuf - 5 + 
69d0: 32 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20  2;.        }.   
69e0: 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6e 42 75     }else if( nBu
69f0: 66 3e 35 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70  f>5 && 0==memcmp
6a00: 28 22 69 76 69 74 69 22 2c 20 26 61 42 75 66 5b  ("iviti", &aBuf[
6a10: 6e 42 75 66 2d 35 5d 2c 20 35 29 20 29 7b 0a 20  nBuf-5], 5) ){. 
6a20: 20 20 20 20 20 20 20 69 66 28 20 66 74 73 35 50         if( fts5P
6a30: 6f 72 74 65 72 5f 4d 47 74 30 28 61 42 75 66 2c  orter_MGt0(aBuf,
6a40: 20 6e 42 75 66 2d 35 29 20 29 7b 0a 20 20 20 20   nBuf-5) ){.    
6a50: 20 20 20 20 20 20 6d 65 6d 63 70 79 28 26 61 42        memcpy(&aB
6a60: 75 66 5b 6e 42 75 66 2d 35 5d 2c 20 22 69 76 65  uf[nBuf-5], "ive
6a70: 22 2c 20 33 29 3b 0a 20 20 20 20 20 20 20 20 20  ", 3);.         
6a80: 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d   *pnBuf = nBuf -
6a90: 20 35 20 2b 20 33 3b 0a 20 20 20 20 20 20 20 20   5 + 3;.        
6aa0: 7d 0a 20 20 20 20 20 20 7d 65 6c 73 65 20 69 66  }.      }else if
6ab0: 28 20 6e 42 75 66 3e 36 20 26 26 20 30 3d 3d 6d  ( nBuf>6 && 0==m
6ac0: 65 6d 63 6d 70 28 22 62 69 6c 69 74 69 22 2c 20  emcmp("biliti", 
6ad0: 26 61 42 75 66 5b 6e 42 75 66 2d 36 5d 2c 20 36  &aBuf[nBuf-6], 6
6ae0: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28  ) ){.        if(
6af0: 20 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 30   fts5Porter_MGt0
6b00: 28 61 42 75 66 2c 20 6e 42 75 66 2d 36 29 20 29  (aBuf, nBuf-6) )
6b10: 7b 0a 20 20 20 20 20 20 20 20 20 20 6d 65 6d 63  {.          memc
6b20: 70 79 28 26 61 42 75 66 5b 6e 42 75 66 2d 36 5d  py(&aBuf[nBuf-6]
6b30: 2c 20 22 62 6c 65 22 2c 20 33 29 3b 0a 20 20 20  , "ble", 3);.   
6b40: 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20         *pnBuf = 
6b50: 6e 42 75 66 20 2d 20 36 20 2b 20 33 3b 0a 20 20  nBuf - 6 + 3;.  
6b60: 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a        }.      }.
6b70: 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a        break;.  .
6b80: 20 20 7d 0a 20 20 72 65 74 75 72 6e 20 72 65 74    }.  return ret
6b90: 3b 0a 7d 0a 20 20 0a 0a 73 74 61 74 69 63 20 69  ;.}.  ..static i
6ba0: 6e 74 20 66 74 73 35 50 6f 72 74 65 72 53 74 65  nt fts5PorterSte
6bb0: 70 33 28 63 68 61 72 20 2a 61 42 75 66 2c 20 69  p3(char *aBuf, i
6bc0: 6e 74 20 2a 70 6e 42 75 66 29 7b 0a 20 20 69 6e  nt *pnBuf){.  in
6bd0: 74 20 72 65 74 20 3d 20 30 3b 0a 20 20 69 6e 74  t ret = 0;.  int
6be0: 20 6e 42 75 66 20 3d 20 2a 70 6e 42 75 66 3b 0a   nBuf = *pnBuf;.
6bf0: 20 20 73 77 69 74 63 68 28 20 61 42 75 66 5b 6e    switch( aBuf[n
6c00: 42 75 66 2d 32 5d 20 29 7b 0a 20 20 20 20 0a 20  Buf-2] ){.    . 
6c10: 20 20 20 63 61 73 65 20 27 61 27 3a 20 0a 20 20     case 'a': .  
6c20: 20 20 20 20 69 66 28 20 6e 42 75 66 3e 34 20 26      if( nBuf>4 &
6c30: 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 69 63 61  & 0==memcmp("ica
6c40: 6c 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 34  l", &aBuf[nBuf-4
6c50: 5d 2c 20 34 29 20 29 7b 0a 20 20 20 20 20 20 20  ], 4) ){.       
6c60: 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f   if( fts5Porter_
6c70: 4d 47 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d  MGt0(aBuf, nBuf-
6c80: 34 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20  4) ){.          
6c90: 6d 65 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75  memcpy(&aBuf[nBu
6ca0: 66 2d 34 5d 2c 20 22 69 63 22 2c 20 32 29 3b 0a  f-4], "ic", 2);.
6cb0: 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66            *pnBuf
6cc0: 20 3d 20 6e 42 75 66 20 2d 20 34 20 2b 20 32 3b   = nBuf - 4 + 2;
6cd0: 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20  .        }.     
6ce0: 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b 0a   }.      break;.
6cf0: 20 20 0a 20 20 20 20 63 61 73 65 20 27 73 27 3a    .    case 's':
6d00: 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42 75 66   .      if( nBuf
6d10: 3e 34 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28  >4 && 0==memcmp(
6d20: 22 6e 65 73 73 22 2c 20 26 61 42 75 66 5b 6e 42  "ness", &aBuf[nB
6d30: 75 66 2d 34 5d 2c 20 34 29 20 29 7b 0a 20 20 20  uf-4], 4) ){.   
6d40: 20 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72       if( fts5Por
6d50: 74 65 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e  ter_MGt0(aBuf, n
6d60: 42 75 66 2d 34 29 20 29 7b 0a 20 20 20 20 20 20  Buf-4) ){.      
6d70: 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75      *pnBuf = nBu
6d80: 66 20 2d 20 34 3b 0a 20 20 20 20 20 20 20 20 7d  f - 4;.        }
6d90: 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20 62  .      }.      b
6da0: 72 65 61 6b 3b 0a 20 20 0a 20 20 20 20 63 61 73  reak;.  .    cas
6db0: 65 20 27 74 27 3a 20 0a 20 20 20 20 20 20 69 66  e 't': .      if
6dc0: 28 20 6e 42 75 66 3e 35 20 26 26 20 30 3d 3d 6d  ( nBuf>5 && 0==m
6dd0: 65 6d 63 6d 70 28 22 69 63 61 74 65 22 2c 20 26  emcmp("icate", &
6de0: 61 42 75 66 5b 6e 42 75 66 2d 35 5d 2c 20 35 29  aBuf[nBuf-5], 5)
6df0: 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20   ){.        if( 
6e00: 66 74 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28  fts5Porter_MGt0(
6e10: 61 42 75 66 2c 20 6e 42 75 66 2d 35 29 20 29 7b  aBuf, nBuf-5) ){
6e20: 0a 20 20 20 20 20 20 20 20 20 20 6d 65 6d 63 70  .          memcp
6e30: 79 28 26 61 42 75 66 5b 6e 42 75 66 2d 35 5d 2c  y(&aBuf[nBuf-5],
6e40: 20 22 69 63 22 2c 20 32 29 3b 0a 20 20 20 20 20   "ic", 2);.     
6e50: 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42       *pnBuf = nB
6e60: 75 66 20 2d 20 35 20 2b 20 32 3b 0a 20 20 20 20  uf - 5 + 2;.    
6e70: 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 65 6c 73      }.      }els
6e80: 65 20 69 66 28 20 6e 42 75 66 3e 35 20 26 26 20  e if( nBuf>5 && 
6e90: 30 3d 3d 6d 65 6d 63 6d 70 28 22 69 63 69 74 69  0==memcmp("iciti
6ea0: 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 35 5d  ", &aBuf[nBuf-5]
6eb0: 2c 20 35 29 20 29 7b 0a 20 20 20 20 20 20 20 20  , 5) ){.        
6ec0: 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f 4d  if( fts5Porter_M
6ed0: 47 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d 35  Gt0(aBuf, nBuf-5
6ee0: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 6d  ) ){.          m
6ef0: 65 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75 66  emcpy(&aBuf[nBuf
6f00: 2d 35 5d 2c 20 22 69 63 22 2c 20 32 29 3b 0a 20  -5], "ic", 2);. 
6f10: 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20           *pnBuf 
6f20: 3d 20 6e 42 75 66 20 2d 20 35 20 2b 20 32 3b 0a  = nBuf - 5 + 2;.
6f30: 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20          }.      
6f40: 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  }.      break;. 
6f50: 20 0a 20 20 20 20 63 61 73 65 20 27 75 27 3a 20   .    case 'u': 
6f60: 0a 20 20 20 20 20 20 69 66 28 20 6e 42 75 66 3e  .      if( nBuf>
6f70: 33 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28 22  3 && 0==memcmp("
6f80: 66 75 6c 22 2c 20 26 61 42 75 66 5b 6e 42 75 66  ful", &aBuf[nBuf
6f90: 2d 33 5d 2c 20 33 29 20 29 7b 0a 20 20 20 20 20  -3], 3) ){.     
6fa0: 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74 65     if( fts5Porte
6fb0: 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42 75  r_MGt0(aBuf, nBu
6fc0: 66 2d 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20  f-3) ){.        
6fd0: 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 20    *pnBuf = nBuf 
6fe0: 2d 20 33 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20  - 3;.        }. 
6ff0: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65       }.      bre
7000: 61 6b 3b 0a 20 20 0a 20 20 20 20 63 61 73 65 20  ak;.  .    case 
7010: 27 76 27 3a 20 0a 20 20 20 20 20 20 69 66 28 20  'v': .      if( 
7020: 6e 42 75 66 3e 35 20 26 26 20 30 3d 3d 6d 65 6d  nBuf>5 && 0==mem
7030: 63 6d 70 28 22 61 74 69 76 65 22 2c 20 26 61 42  cmp("ative", &aB
7040: 75 66 5b 6e 42 75 66 2d 35 5d 2c 20 35 29 20 29  uf[nBuf-5], 5) )
7050: 7b 0a 20 20 20 20 20 20 20 20 69 66 28 20 66 74  {.        if( ft
7060: 73 35 50 6f 72 74 65 72 5f 4d 47 74 30 28 61 42  s5Porter_MGt0(aB
7070: 75 66 2c 20 6e 42 75 66 2d 35 29 20 29 7b 0a 20  uf, nBuf-5) ){. 
7080: 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66 20           *pnBuf 
7090: 3d 20 6e 42 75 66 20 2d 20 35 3b 0a 20 20 20 20  = nBuf - 5;.    
70a0: 20 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20 20      }.      }.  
70b0: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20      break;.  .  
70c0: 20 20 63 61 73 65 20 27 7a 27 3a 20 0a 20 20 20    case 'z': .   
70d0: 20 20 20 69 66 28 20 6e 42 75 66 3e 35 20 26 26     if( nBuf>5 &&
70e0: 20 30 3d 3d 6d 65 6d 63 6d 70 28 22 61 6c 69 7a   0==memcmp("aliz
70f0: 65 22 2c 20 26 61 42 75 66 5b 6e 42 75 66 2d 35  e", &aBuf[nBuf-5
7100: 5d 2c 20 35 29 20 29 7b 0a 20 20 20 20 20 20 20  ], 5) ){.       
7110: 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72 5f   if( fts5Porter_
7120: 4d 47 74 30 28 61 42 75 66 2c 20 6e 42 75 66 2d  MGt0(aBuf, nBuf-
7130: 35 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20  5) ){.          
7140: 6d 65 6d 63 70 79 28 26 61 42 75 66 5b 6e 42 75  memcpy(&aBuf[nBu
7150: 66 2d 35 5d 2c 20 22 61 6c 22 2c 20 32 29 3b 0a  f-5], "al", 2);.
7160: 20 20 20 20 20 20 20 20 20 20 2a 70 6e 42 75 66            *pnBuf
7170: 20 3d 20 6e 42 75 66 20 2d 20 35 20 2b 20 32 3b   = nBuf - 5 + 2;
7180: 0a 20 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20  .        }.     
7190: 20 7d 0a 20 20 20 20 20 20 62 72 65 61 6b 3b 0a   }.      break;.
71a0: 20 20 0a 20 20 7d 0a 20 20 72 65 74 75 72 6e 20    .  }.  return 
71b0: 72 65 74 3b 0a 7d 0a 20 20 0a 0a 73 74 61 74 69  ret;.}.  ..stati
71c0: 63 20 69 6e 74 20 66 74 73 35 50 6f 72 74 65 72  c int fts5Porter
71d0: 53 74 65 70 31 42 28 63 68 61 72 20 2a 61 42 75  Step1B(char *aBu
71e0: 66 2c 20 69 6e 74 20 2a 70 6e 42 75 66 29 7b 0a  f, int *pnBuf){.
71f0: 20 20 69 6e 74 20 72 65 74 20 3d 20 30 3b 0a 20    int ret = 0;. 
7200: 20 69 6e 74 20 6e 42 75 66 20 3d 20 2a 70 6e 42   int nBuf = *pnB
7210: 75 66 3b 0a 20 20 73 77 69 74 63 68 28 20 61 42  uf;.  switch( aB
7220: 75 66 5b 6e 42 75 66 2d 32 5d 20 29 7b 0a 20 20  uf[nBuf-2] ){.  
7230: 20 20 0a 20 20 20 20 63 61 73 65 20 27 65 27 3a    .    case 'e':
7240: 20 0a 20 20 20 20 20 20 69 66 28 20 6e 42 75 66   .      if( nBuf
7250: 3e 33 20 26 26 20 30 3d 3d 6d 65 6d 63 6d 70 28  >3 && 0==memcmp(
7260: 22 65 65 64 22 2c 20 26 61 42 75 66 5b 6e 42 75  "eed", &aBuf[nBu
7270: 66 2d 33 5d 2c 20 33 29 20 29 7b 0a 20 20 20 20  f-3], 3) ){.    
7280: 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72 74      if( fts5Port
7290: 65 72 5f 4d 47 74 30 28 61 42 75 66 2c 20 6e 42  er_MGt0(aBuf, nB
72a0: 75 66 2d 33 29 20 29 7b 0a 20 20 20 20 20 20 20  uf-3) ){.       
72b0: 20 20 20 6d 65 6d 63 70 79 28 26 61 42 75 66 5b     memcpy(&aBuf[
72c0: 6e 42 75 66 2d 33 5d 2c 20 22 65 65 22 2c 20 32  nBuf-3], "ee", 2
72d0: 29 3b 0a 20 20 20 20 20 20 20 20 20 20 2a 70 6e  );.          *pn
72e0: 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 33 20 2b  Buf = nBuf - 3 +
72f0: 20 32 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20   2;.        }.  
7300: 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 6e 42      }else if( nB
7310: 75 66 3e 32 20 26 26 20 30 3d 3d 6d 65 6d 63 6d  uf>2 && 0==memcm
7320: 70 28 22 65 64 22 2c 20 26 61 42 75 66 5b 6e 42  p("ed", &aBuf[nB
7330: 75 66 2d 32 5d 2c 20 32 29 20 29 7b 0a 20 20 20  uf-2], 2) ){.   
7340: 20 20 20 20 20 69 66 28 20 66 74 73 35 50 6f 72       if( fts5Por
7350: 74 65 72 5f 56 6f 77 65 6c 28 61 42 75 66 2c 20  ter_Vowel(aBuf, 
7360: 6e 42 75 66 2d 32 29 20 29 7b 0a 20 20 20 20 20  nBuf-2) ){.     
7370: 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42       *pnBuf = nB
7380: 75 66 20 2d 20 32 3b 0a 20 20 20 20 20 20 20 20  uf - 2;.        
7390: 20 20 72 65 74 20 3d 20 31 3b 0a 20 20 20 20 20    ret = 1;.     
73a0: 20 20 20 7d 0a 20 20 20 20 20 20 7d 0a 20 20 20     }.      }.   
73b0: 20 20 20 62 72 65 61 6b 3b 0a 20 20 0a 20 20 20     break;.  .   
73c0: 20 63 61 73 65 20 27 6e 27 3a 20 0a 20 20 20 20   case 'n': .    
73d0: 20 20 69 66 28 20 6e 42 75 66 3e 33 20 26 26 20    if( nBuf>3 && 
73e0: 30 3d 3d 6d 65 6d 63 6d 70 28 22 69 6e 67 22 2c  0==memcmp("ing",
73f0: 20 26 61 42 75 66 5b 6e 42 75 66 2d 33 5d 2c 20   &aBuf[nBuf-3], 
7400: 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20 69 66  3) ){.        if
7410: 28 20 66 74 73 35 50 6f 72 74 65 72 5f 56 6f 77  ( fts5Porter_Vow
7420: 65 6c 28 61 42 75 66 2c 20 6e 42 75 66 2d 33 29  el(aBuf, nBuf-3)
7430: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 2a 70   ){.          *p
7440: 6e 42 75 66 20 3d 20 6e 42 75 66 20 2d 20 33 3b  nBuf = nBuf - 3;
7450: 0a 20 20 20 20 20 20 20 20 20 20 72 65 74 20 3d  .          ret =
7460: 20 31 3b 0a 20 20 20 20 20 20 20 20 7d 0a 20 20   1;.        }.  
7470: 20 20 20 20 7d 0a 20 20 20 20 20 20 62 72 65 61      }.      brea
7480: 6b 3b 0a 20 20 0a 20 20 7d 0a 20 20 72 65 74 75  k;.  .  }.  retu
7490: 72 6e 20 72 65 74 3b 0a 7d 0a 20 20 0a 2f 2a 20  rn ret;.}.  ./* 
74a0: 0a 2a 2a 20 47 45 4e 45 52 41 54 45 44 20 43 4f  .** GENERATED CO
74b0: 44 45 20 45 4e 44 53 20 48 45 52 45 20 28 6d 6b  DE ENDS HERE (mk
74c0: 70 6f 72 74 65 72 73 74 65 70 73 2e 74 63 6c 29  portersteps.tcl)
74d0: 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  .***************
74e0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
74f0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
7500: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
7510: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 0a 2a 2a 2a  ************.***
7520: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
7530: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
7540: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
7550: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
7560: 2a 2a 2a 2a 2a 2a 2a 2f 0a 0a 73 74 61 74 69 63  *******/..static
7570: 20 76 6f 69 64 20 66 74 73 35 50 6f 72 74 65 72   void fts5Porter
7580: 53 74 65 70 31 41 28 63 68 61 72 20 2a 61 42 75  Step1A(char *aBu
7590: 66 2c 20 69 6e 74 20 2a 70 6e 42 75 66 29 7b 0a  f, int *pnBuf){.
75a0: 20 20 69 6e 74 20 6e 42 75 66 20 3d 20 2a 70 6e    int nBuf = *pn
75b0: 42 75 66 3b 0a 20 20 69 66 28 20 61 42 75 66 5b  Buf;.  if( aBuf[
75c0: 6e 42 75 66 2d 31 5d 3d 3d 27 73 27 20 29 7b 0a  nBuf-1]=='s' ){.
75d0: 20 20 20 20 69 66 28 20 61 42 75 66 5b 6e 42 75      if( aBuf[nBu
75e0: 66 2d 32 5d 3d 3d 27 65 27 20 29 7b 0a 20 20 20  f-2]=='e' ){.   
75f0: 20 20 20 69 66 28 20 28 6e 42 75 66 3e 34 20 26     if( (nBuf>4 &
7600: 26 20 61 42 75 66 5b 6e 42 75 66 2d 34 5d 3d 3d  & aBuf[nBuf-4]==
7610: 27 73 27 20 26 26 20 61 42 75 66 5b 6e 42 75 66  's' && aBuf[nBuf
7620: 2d 33 5d 3d 3d 27 73 27 29 20 0a 20 20 20 20 20  -3]=='s') .     
7630: 20 20 7c 7c 20 28 6e 42 75 66 3e 33 20 26 26 20    || (nBuf>3 && 
7640: 61 42 75 66 5b 6e 42 75 66 2d 33 5d 3d 3d 27 69  aBuf[nBuf-3]=='i
7650: 27 20 29 0a 20 20 20 20 20 20 29 7b 0a 20 20 20  ' ).      ){.   
7660: 20 20 20 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42       *pnBuf = nB
7670: 75 66 2d 32 3b 0a 20 20 20 20 20 20 7d 65 6c 73  uf-2;.      }els
7680: 65 7b 0a 20 20 20 20 20 20 20 20 2a 70 6e 42 75  e{.        *pnBu
7690: 66 20 3d 20 6e 42 75 66 2d 31 3b 0a 20 20 20 20  f = nBuf-1;.    
76a0: 20 20 7d 0a 20 20 20 20 7d 0a 20 20 20 20 65 6c    }.    }.    el
76b0: 73 65 20 69 66 28 20 61 42 75 66 5b 6e 42 75 66  se if( aBuf[nBuf
76c0: 2d 32 5d 21 3d 27 73 27 20 29 7b 0a 20 20 20 20  -2]!='s' ){.    
76d0: 20 20 2a 70 6e 42 75 66 20 3d 20 6e 42 75 66 2d    *pnBuf = nBuf-
76e0: 31 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 7d 0a 0a  1;.    }.  }.}..
76f0: 73 74 61 74 69 63 20 69 6e 74 20 66 74 73 35 50  static int fts5P
7700: 6f 72 74 65 72 43 62 28 0a 20 20 76 6f 69 64 20  orterCb(.  void 
7710: 2a 70 43 74 78 2c 20 0a 20 20 69 6e 74 20 74 66  *pCtx, .  int tf
7720: 6c 61 67 73 2c 0a 20 20 63 6f 6e 73 74 20 63 68  lags,.  const ch
7730: 61 72 20 2a 70 54 6f 6b 65 6e 2c 20 0a 20 20 69  ar *pToken, .  i
7740: 6e 74 20 6e 54 6f 6b 65 6e 2c 20 0a 20 20 69 6e  nt nToken, .  in
7750: 74 20 69 53 74 61 72 74 2c 20 0a 20 20 69 6e 74  t iStart, .  int
7760: 20 69 45 6e 64 0a 29 7b 0a 20 20 50 6f 72 74 65   iEnd.){.  Porte
7770: 72 43 6f 6e 74 65 78 74 20 2a 70 20 3d 20 28 50  rContext *p = (P
7780: 6f 72 74 65 72 43 6f 6e 74 65 78 74 2a 29 70 43  orterContext*)pC
7790: 74 78 3b 0a 0a 20 20 63 68 61 72 20 2a 61 42 75  tx;..  char *aBu
77a0: 66 3b 0a 20 20 69 6e 74 20 6e 42 75 66 3b 0a 0a  f;.  int nBuf;..
77b0: 20 20 69 66 28 20 6e 54 6f 6b 65 6e 3e 46 54 53    if( nToken>FTS
77c0: 35 5f 50 4f 52 54 45 52 5f 4d 41 58 5f 54 4f 4b  5_PORTER_MAX_TOK
77d0: 45 4e 20 7c 7c 20 6e 54 6f 6b 65 6e 3c 33 20 29  EN || nToken<3 )
77e0: 20 67 6f 74 6f 20 70 61 73 73 5f 74 68 72 6f 75   goto pass_throu
77f0: 67 68 3b 0a 20 20 61 42 75 66 20 3d 20 70 2d 3e  gh;.  aBuf = p->
7800: 61 42 75 66 3b 0a 20 20 6e 42 75 66 20 3d 20 6e  aBuf;.  nBuf = n
7810: 54 6f 6b 65 6e 3b 0a 20 20 6d 65 6d 63 70 79 28  Token;.  memcpy(
7820: 61 42 75 66 2c 20 70 54 6f 6b 65 6e 2c 20 6e 42  aBuf, pToken, nB
7830: 75 66 29 3b 0a 0a 20 20 2f 2a 20 53 74 65 70 20  uf);..  /* Step 
7840: 31 2e 20 2a 2f 0a 20 20 66 74 73 35 50 6f 72 74  1. */.  fts5Port
7850: 65 72 53 74 65 70 31 41 28 61 42 75 66 2c 20 26  erStep1A(aBuf, &
7860: 6e 42 75 66 29 3b 0a 20 20 69 66 28 20 66 74 73  nBuf);.  if( fts
7870: 35 50 6f 72 74 65 72 53 74 65 70 31 42 28 61 42  5PorterStep1B(aB
7880: 75 66 2c 20 26 6e 42 75 66 29 20 29 7b 0a 20 20  uf, &nBuf) ){.  
7890: 20 20 69 66 28 20 66 74 73 35 50 6f 72 74 65 72    if( fts5Porter
78a0: 53 74 65 70 31 42 32 28 61 42 75 66 2c 20 26 6e  Step1B2(aBuf, &n
78b0: 42 75 66 29 3d 3d 30 20 29 7b 0a 20 20 20 20 20  Buf)==0 ){.     
78c0: 20 63 68 61 72 20 63 20 3d 20 61 42 75 66 5b 6e   char c = aBuf[n
78d0: 42 75 66 2d 31 5d 3b 0a 20 20 20 20 20 20 69 66  Buf-1];.      if
78e0: 28 20 66 74 73 35 50 6f 72 74 65 72 49 73 56 6f  ( fts5PorterIsVo
78f0: 77 65 6c 28 63 2c 20 30 29 3d 3d 30 20 0a 20 20  wel(c, 0)==0 .  
7900: 20 20 20 20 20 26 26 20 63 21 3d 27 6c 27 20 26       && c!='l' &
7910: 26 20 63 21 3d 27 73 27 20 26 26 20 63 21 3d 27  & c!='s' && c!='
7920: 7a 27 20 26 26 20 63 3d 3d 61 42 75 66 5b 6e 42  z' && c==aBuf[nB
7930: 75 66 2d 32 5d 20 0a 20 20 20 20 20 20 29 7b 0a  uf-2] .      ){.
7940: 20 20 20 20 20 20 20 20 6e 42 75 66 2d 2d 3b 0a          nBuf--;.
7950: 20 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20        }else if( 
7960: 66 74 73 35 50 6f 72 74 65 72 5f 4d 45 71 31 28  fts5Porter_MEq1(
7970: 61 42 75 66 2c 20 6e 42 75 66 29 20 26 26 20 66  aBuf, nBuf) && f
7980: 74 73 35 50 6f 72 74 65 72 5f 4f 73 74 61 72 28  ts5Porter_Ostar(
7990: 61 42 75 66 2c 20 6e 42 75 66 29 20 29 7b 0a 20  aBuf, nBuf) ){. 
79a0: 20 20 20 20 20 20 20 61 42 75 66 5b 6e 42 75 66         aBuf[nBuf
79b0: 2b 2b 5d 20 3d 20 27 65 27 3b 0a 20 20 20 20 20  ++] = 'e';.     
79c0: 20 7d 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20   }.    }.  }..  
79d0: 2f 2a 20 53 74 65 70 20 31 43 2e 20 2a 2f 0a 20  /* Step 1C. */. 
79e0: 20 69 66 28 20 61 42 75 66 5b 6e 42 75 66 2d 31   if( aBuf[nBuf-1
79f0: 5d 3d 3d 27 79 27 20 26 26 20 66 74 73 35 50 6f  ]=='y' && fts5Po
7a00: 72 74 65 72 5f 56 6f 77 65 6c 28 61 42 75 66 2c  rter_Vowel(aBuf,
7a10: 20 6e 42 75 66 2d 31 29 20 29 7b 0a 20 20 20 20   nBuf-1) ){.    
7a20: 61 42 75 66 5b 6e 42 75 66 2d 31 5d 20 3d 20 27  aBuf[nBuf-1] = '
7a30: 69 27 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74  i';.  }..  /* St
7a40: 65 70 73 20 32 20 74 68 72 6f 75 67 68 20 34 2e  eps 2 through 4.
7a50: 20 2a 2f 0a 20 20 66 74 73 35 50 6f 72 74 65 72   */.  fts5Porter
7a60: 53 74 65 70 32 28 61 42 75 66 2c 20 26 6e 42 75  Step2(aBuf, &nBu
7a70: 66 29 3b 0a 20 20 66 74 73 35 50 6f 72 74 65 72  f);.  fts5Porter
7a80: 53 74 65 70 33 28 61 42 75 66 2c 20 26 6e 42 75  Step3(aBuf, &nBu
7a90: 66 29 3b 0a 20 20 66 74 73 35 50 6f 72 74 65 72  f);.  fts5Porter
7aa0: 53 74 65 70 34 28 61 42 75 66 2c 20 26 6e 42 75  Step4(aBuf, &nBu
7ab0: 66 29 3b 0a 0a 20 20 2f 2a 20 53 74 65 70 20 35  f);..  /* Step 5
7ac0: 61 2e 20 2a 2f 0a 20 20 61 73 73 65 72 74 28 20  a. */.  assert( 
7ad0: 6e 42 75 66 3e 30 20 29 3b 0a 20 20 69 66 28 20  nBuf>0 );.  if( 
7ae0: 61 42 75 66 5b 6e 42 75 66 2d 31 5d 3d 3d 27 65  aBuf[nBuf-1]=='e
7af0: 27 20 29 7b 0a 20 20 20 20 69 66 28 20 66 74 73  ' ){.    if( fts
7b00: 35 50 6f 72 74 65 72 5f 4d 47 74 31 28 61 42 75  5Porter_MGt1(aBu
7b10: 66 2c 20 6e 42 75 66 2d 31 29 20 0a 20 20 20 20  f, nBuf-1) .    
7b20: 20 7c 7c 20 28 66 74 73 35 50 6f 72 74 65 72 5f   || (fts5Porter_
7b30: 4d 45 71 31 28 61 42 75 66 2c 20 6e 42 75 66 2d  MEq1(aBuf, nBuf-
7b40: 31 29 20 26 26 20 21 66 74 73 35 50 6f 72 74 65  1) && !fts5Porte
7b50: 72 5f 4f 73 74 61 72 28 61 42 75 66 2c 20 6e 42  r_Ostar(aBuf, nB
7b60: 75 66 2d 31 29 29 0a 20 20 20 20 29 7b 0a 20 20  uf-1)).    ){.  
7b70: 20 20 20 20 6e 42 75 66 2d 2d 3b 0a 20 20 20 20      nBuf--;.    
7b80: 7d 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70  }.  }..  /* Step
7b90: 20 35 62 2e 20 2a 2f 0a 20 20 69 66 28 20 6e 42   5b. */.  if( nB
7ba0: 75 66 3e 31 20 26 26 20 61 42 75 66 5b 6e 42 75  uf>1 && aBuf[nBu
7bb0: 66 2d 31 5d 3d 3d 27 6c 27 20 0a 20 20 20 26 26  f-1]=='l' .   &&
7bc0: 20 61 42 75 66 5b 6e 42 75 66 2d 32 5d 3d 3d 27   aBuf[nBuf-2]=='
7bd0: 6c 27 20 26 26 20 66 74 73 35 50 6f 72 74 65 72  l' && fts5Porter
7be0: 5f 4d 47 74 31 28 61 42 75 66 2c 20 6e 42 75 66  _MGt1(aBuf, nBuf
7bf0: 2d 31 29 20 0a 20 20 29 7b 0a 20 20 20 20 6e 42  -1) .  ){.    nB
7c00: 75 66 2d 2d 3b 0a 20 20 7d 0a 0a 20 20 72 65 74  uf--;.  }..  ret
7c10: 75 72 6e 20 70 2d 3e 78 54 6f 6b 65 6e 28 70 2d  urn p->xToken(p-
7c20: 3e 70 43 74 78 2c 20 74 66 6c 61 67 73 2c 20 61  >pCtx, tflags, a
7c30: 42 75 66 2c 20 6e 42 75 66 2c 20 69 53 74 61 72  Buf, nBuf, iStar
7c40: 74 2c 20 69 45 6e 64 29 3b 0a 0a 20 70 61 73 73  t, iEnd);.. pass
7c50: 5f 74 68 72 6f 75 67 68 3a 0a 20 20 72 65 74 75  _through:.  retu
7c60: 72 6e 20 70 2d 3e 78 54 6f 6b 65 6e 28 70 2d 3e  rn p->xToken(p->
7c70: 70 43 74 78 2c 20 74 66 6c 61 67 73 2c 20 70 54  pCtx, tflags, pT
7c80: 6f 6b 65 6e 2c 20 6e 54 6f 6b 65 6e 2c 20 69 53  oken, nToken, iS
7c90: 74 61 72 74 2c 20 69 45 6e 64 29 3b 0a 7d 0a 0a  tart, iEnd);.}..
7ca0: 2f 2a 0a 2a 2a 20 54 6f 6b 65 6e 69 7a 65 20 75  /*.** Tokenize u
7cb0: 73 69 6e 67 20 74 68 65 20 70 6f 72 74 65 72 20  sing the porter 
7cc0: 74 6f 6b 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 73 74  tokenizer..*/.st
7cd0: 61 74 69 63 20 69 6e 74 20 66 74 73 35 50 6f 72  atic int fts5Por
7ce0: 74 65 72 54 6f 6b 65 6e 69 7a 65 28 0a 20 20 46  terTokenize(.  F
7cf0: 74 73 35 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 54  ts5Tokenizer *pT
7d00: 6f 6b 65 6e 69 7a 65 72 2c 0a 20 20 76 6f 69 64  okenizer,.  void
7d10: 20 2a 70 43 74 78 2c 0a 20 20 69 6e 74 20 66 6c   *pCtx,.  int fl
7d20: 61 67 73 2c 0a 20 20 63 6f 6e 73 74 20 63 68 61  ags,.  const cha
7d30: 72 20 2a 70 54 65 78 74 2c 20 69 6e 74 20 6e 54  r *pText, int nT
7d40: 65 78 74 2c 0a 20 20 69 6e 74 20 28 2a 78 54 6f  ext,.  int (*xTo
7d50: 6b 65 6e 29 28 76 6f 69 64 2a 2c 20 69 6e 74 2c  ken)(void*, int,
7d60: 20 63 6f 6e 73 74 20 63 68 61 72 2a 2c 20 69 6e   const char*, in
7d70: 74 20 6e 54 6f 6b 65 6e 2c 20 69 6e 74 20 69 53  t nToken, int iS
7d80: 74 61 72 74 2c 20 69 6e 74 20 69 45 6e 64 29 0a  tart, int iEnd).
7d90: 29 7b 0a 20 20 50 6f 72 74 65 72 54 6f 6b 65 6e  ){.  PorterToken
7da0: 69 7a 65 72 20 2a 70 20 3d 20 28 50 6f 72 74 65  izer *p = (Porte
7db0: 72 54 6f 6b 65 6e 69 7a 65 72 2a 29 70 54 6f 6b  rTokenizer*)pTok
7dc0: 65 6e 69 7a 65 72 3b 0a 20 20 50 6f 72 74 65 72  enizer;.  Porter
7dd0: 43 6f 6e 74 65 78 74 20 73 43 74 78 3b 0a 20 20  Context sCtx;.  
7de0: 73 43 74 78 2e 78 54 6f 6b 65 6e 20 3d 20 78 54  sCtx.xToken = xT
7df0: 6f 6b 65 6e 3b 0a 20 20 73 43 74 78 2e 70 43 74  oken;.  sCtx.pCt
7e00: 78 20 3d 20 70 43 74 78 3b 0a 20 20 73 43 74 78  x = pCtx;.  sCtx
7e10: 2e 61 42 75 66 20 3d 20 70 2d 3e 61 42 75 66 3b  .aBuf = p->aBuf;
7e20: 0a 20 20 72 65 74 75 72 6e 20 70 2d 3e 74 6f 6b  .  return p->tok
7e30: 65 6e 69 7a 65 72 2e 78 54 6f 6b 65 6e 69 7a 65  enizer.xTokenize
7e40: 28 0a 20 20 20 20 20 20 70 2d 3e 70 54 6f 6b 65  (.      p->pToke
7e50: 6e 69 7a 65 72 2c 20 28 76 6f 69 64 2a 29 26 73  nizer, (void*)&s
7e60: 43 74 78 2c 20 66 6c 61 67 73 2c 20 70 54 65 78  Ctx, flags, pTex
7e70: 74 2c 20 6e 54 65 78 74 2c 20 66 74 73 35 50 6f  t, nText, fts5Po
7e80: 72 74 65 72 43 62 0a 20 20 29 3b 0a 7d 0a 0a 2f  rterCb.  );.}../
7e90: 2a 0a 2a 2a 20 52 65 67 69 73 74 65 72 20 61 6c  *.** Register al
7ea0: 6c 20 62 75 69 6c 74 2d 69 6e 20 74 6f 6b 65 6e  l built-in token
7eb0: 69 7a 65 72 73 20 77 69 74 68 20 46 54 53 35 2e  izers with FTS5.
7ec0: 0a 2a 2f 0a 69 6e 74 20 73 71 6c 69 74 65 33 46  .*/.int sqlite3F
7ed0: 74 73 35 54 6f 6b 65 6e 69 7a 65 72 49 6e 69 74  ts5TokenizerInit
7ee0: 28 66 74 73 35 5f 61 70 69 20 2a 70 41 70 69 29  (fts5_api *pApi)
7ef0: 7b 0a 20 20 73 74 72 75 63 74 20 42 75 69 6c 74  {.  struct Built
7f00: 69 6e 54 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20 20  inTokenizer {.  
7f10: 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 4e    const char *zN
7f20: 61 6d 65 3b 0a 20 20 20 20 66 74 73 35 5f 74 6f  ame;.    fts5_to
7f30: 6b 65 6e 69 7a 65 72 20 78 3b 0a 20 20 7d 20 61  kenizer x;.  } a
7f40: 42 75 69 6c 74 69 6e 5b 5d 20 3d 20 7b 0a 20 20  Builtin[] = {.  
7f50: 20 20 7b 20 22 75 6e 69 63 6f 64 65 36 31 22 2c    { "unicode61",
7f60: 20 7b 66 74 73 35 55 6e 69 63 6f 64 65 43 72 65   {fts5UnicodeCre
7f70: 61 74 65 2c 20 66 74 73 35 55 6e 69 63 6f 64 65  ate, fts5Unicode
7f80: 44 65 6c 65 74 65 2c 20 66 74 73 35 55 6e 69 63  Delete, fts5Unic
7f90: 6f 64 65 54 6f 6b 65 6e 69 7a 65 7d 7d 2c 0a 20  odeTokenize}},. 
7fa0: 20 20 20 7b 20 22 61 73 63 69 69 22 2c 20 20 20     { "ascii",   
7fb0: 20 20 7b 66 74 73 35 41 73 63 69 69 43 72 65 61    {fts5AsciiCrea
7fc0: 74 65 2c 20 66 74 73 35 41 73 63 69 69 44 65 6c  te, fts5AsciiDel
7fd0: 65 74 65 2c 20 66 74 73 35 41 73 63 69 69 54 6f  ete, fts5AsciiTo
7fe0: 6b 65 6e 69 7a 65 20 7d 7d 2c 0a 20 20 20 20 7b  kenize }},.    {
7ff0: 20 22 70 6f 72 74 65 72 22 2c 20 20 20 20 7b 66   "porter",    {f
8000: 74 73 35 50 6f 72 74 65 72 43 72 65 61 74 65 2c  ts5PorterCreate,
8010: 20 66 74 73 35 50 6f 72 74 65 72 44 65 6c 65 74   fts5PorterDelet
8020: 65 2c 20 66 74 73 35 50 6f 72 74 65 72 54 6f 6b  e, fts5PorterTok
8030: 65 6e 69 7a 65 20 7d 7d 2c 0a 20 20 7d 3b 0a 20  enize }},.  };. 
8040: 20 0a 20 20 69 6e 74 20 72 63 20 3d 20 53 51 4c   .  int rc = SQL
8050: 49 54 45 5f 4f 4b 3b 20 20 20 20 20 20 20 20 20  ITE_OK;         
8060: 20 20 20 20 2f 2a 20 52 65 74 75 72 6e 20 63 6f      /* Return co
8070: 64 65 20 2a 2f 0a 20 20 69 6e 74 20 69 3b 20 20  de */.  int i;  
8080: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8090: 20 20 20 20 20 20 20 20 2f 2a 20 54 6f 20 69 74          /* To it
80a0: 65 72 61 74 65 20 74 68 72 6f 75 67 68 20 62 75  erate through bu
80b0: 69 6c 74 69 6e 20 66 75 6e 63 74 69 6f 6e 73 20  iltin functions 
80c0: 2a 2f 0a 0a 20 20 66 6f 72 28 69 3d 30 3b 20 72  */..  for(i=0; r
80d0: 63 3d 3d 53 51 4c 49 54 45 5f 4f 4b 20 26 26 20  c==SQLITE_OK && 
80e0: 69 3c 28 69 6e 74 29 41 72 72 61 79 53 69 7a 65  i<(int)ArraySize
80f0: 28 61 42 75 69 6c 74 69 6e 29 3b 20 69 2b 2b 29  (aBuiltin); i++)
8100: 7b 0a 20 20 20 20 72 63 20 3d 20 70 41 70 69 2d  {.    rc = pApi-
8110: 3e 78 43 72 65 61 74 65 54 6f 6b 65 6e 69 7a 65  >xCreateTokenize
8120: 72 28 70 41 70 69 2c 0a 20 20 20 20 20 20 20 20  r(pApi,.        
8130: 61 42 75 69 6c 74 69 6e 5b 69 5d 2e 7a 4e 61 6d  aBuiltin[i].zNam
8140: 65 2c 0a 20 20 20 20 20 20 20 20 28 76 6f 69 64  e,.        (void
8150: 2a 29 70 41 70 69 2c 0a 20 20 20 20 20 20 20 20  *)pApi,.        
8160: 26 61 42 75 69 6c 74 69 6e 5b 69 5d 2e 78 2c 0a  &aBuiltin[i].x,.
8170: 20 20 20 20 20 20 20 20 30 0a 20 20 20 20 29 3b          0.    );
8180: 0a 20 20 7d 0a 0a 20 20 72 65 74 75 72 6e 20 72  .  }..  return r
8190: 63 3b 0a 7d 0a 0a 0a                             c;.}...