/ Hex Artifact Content
Login

Artifact 3565faf04b626cddf85f03825e86056a4562c009:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 53 65 70 74 65  /*.** 2006 Septe
0010: 6d 62 65 72 20 33 30 0a 2a 2a 0a 2a 2a 20 54 68  mber 30.**.** Th
0020: 65 20 61 75 74 68 6f 72 20 64 69 73 63 6c 61 69  e author disclai
0030: 6d 73 20 63 6f 70 79 72 69 67 68 74 20 74 6f 20  ms copyright to 
0040: 74 68 69 73 20 73 6f 75 72 63 65 20 63 6f 64 65  this source code
0050: 2e 20 20 49 6e 20 70 6c 61 63 65 20 6f 66 0a 2a  .  In place of.*
0060: 2a 20 61 20 6c 65 67 61 6c 20 6e 6f 74 69 63 65  * a legal notice
0070: 2c 20 68 65 72 65 20 69 73 20 61 20 62 6c 65 73  , here is a bles
0080: 73 69 6e 67 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 4d  sing:.**.**    M
0090: 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20 61  ay you do good a
00a0: 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 2a 2a 20  nd not evil..** 
00b0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00c0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00d0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00e0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 2a 2a 20  give others..** 
00f0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
0100: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0110: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0120: 79 6f 75 20 67 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a  you give..**.***
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 49 6d 70 6c 65 6d  ******.** Implem
0180: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20  entation of the 
0190: 66 75 6c 6c 2d 74 65 78 74 2d 73 65 61 72 63 68  full-text-search
01a0: 20 74 6f 6b 65 6e 69 7a 65 72 20 74 68 61 74 20   tokenizer that 
01b0: 69 6d 70 6c 65 6d 65 6e 74 73 0a 2a 2a 20 61 20  implements.** a 
01c0: 50 6f 72 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a  Porter stemmer..
01d0: 2a 2f 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 63 6f  */../*.** The co
01e0: 64 65 20 69 6e 20 74 68 69 73 20 66 69 6c 65 20  de in this file 
01f0: 69 73 20 6f 6e 6c 79 20 63 6f 6d 70 69 6c 65 64  is only compiled
0200: 20 69 66 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 2a   if:.**.**     *
0210: 20 54 68 65 20 46 54 53 33 20 6d 6f 64 75 6c 65   The FTS3 module
0220: 20 69 73 20 62 65 69 6e 67 20 62 75 69 6c 74 20   is being built 
0230: 61 73 20 61 6e 20 65 78 74 65 6e 73 69 6f 6e 0a  as an extension.
0240: 2a 2a 20 20 20 20 20 20 20 28 69 6e 20 77 68 69  **       (in whi
0250: 63 68 20 63 61 73 65 20 53 51 4c 49 54 45 5f 43  ch case SQLITE_C
0260: 4f 52 45 20 69 73 20 6e 6f 74 20 64 65 66 69 6e  ORE is not defin
0270: 65 64 29 2c 20 6f 72 0a 2a 2a 0a 2a 2a 20 20 20  ed), or.**.**   
0280: 20 20 2a 20 54 68 65 20 46 54 53 33 20 6d 6f 64    * The FTS3 mod
0290: 75 6c 65 20 69 73 20 62 65 69 6e 67 20 62 75 69  ule is being bui
02a0: 6c 74 20 69 6e 74 6f 20 74 68 65 20 63 6f 72 65  lt into the core
02b0: 20 6f 66 0a 2a 2a 20 20 20 20 20 20 20 53 51 4c   of.**       SQL
02c0: 69 74 65 20 28 69 6e 20 77 68 69 63 68 20 63 61  ite (in which ca
02d0: 73 65 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  se SQLITE_ENABLE
02e0: 5f 46 54 53 33 20 69 73 20 64 65 66 69 6e 65 64  _FTS3 is defined
02f0: 29 2e 0a 2a 2f 0a 23 69 6e 63 6c 75 64 65 20 22  )..*/.#include "
0300: 66 74 73 33 49 6e 74 2e 68 22 0a 23 69 66 20 21  fts3Int.h".#if !
0310: 64 65 66 69 6e 65 64 28 53 51 4c 49 54 45 5f 43  defined(SQLITE_C
0320: 4f 52 45 29 20 7c 7c 20 64 65 66 69 6e 65 64 28  ORE) || defined(
0330: 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 46 54  SQLITE_ENABLE_FT
0340: 53 33 29 0a 0a 23 69 6e 63 6c 75 64 65 20 3c 61  S3)..#include <a
0350: 73 73 65 72 74 2e 68 3e 0a 23 69 6e 63 6c 75 64  ssert.h>.#includ
0360: 65 20 3c 73 74 64 6c 69 62 2e 68 3e 0a 23 69 6e  e <stdlib.h>.#in
0370: 63 6c 75 64 65 20 3c 73 74 64 69 6f 2e 68 3e 0a  clude <stdio.h>.
0380: 23 69 6e 63 6c 75 64 65 20 3c 73 74 72 69 6e 67  #include <string
0390: 2e 68 3e 0a 0a 23 69 6e 63 6c 75 64 65 20 22 66  .h>..#include "f
03a0: 74 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 2e 68 22  ts3_tokenizer.h"
03b0: 0a 0a 2f 2a 0a 2a 2a 20 43 6c 61 73 73 20 64 65  ../*.** Class de
03c0: 72 69 76 65 64 20 66 72 6f 6d 20 73 71 6c 69 74  rived from sqlit
03d0: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a  e3_tokenizer.*/.
03e0: 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20 70  typedef struct p
03f0: 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 20  orter_tokenizer 
0400: 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65  {.  sqlite3_toke
0410: 6e 69 7a 65 72 20 62 61 73 65 3b 20 20 20 20 20  nizer base;     
0420: 20 2f 2a 20 42 61 73 65 20 63 6c 61 73 73 20 2a   /* Base class *
0430: 2f 0a 7d 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e  /.} porter_token
0440: 69 7a 65 72 3b 0a 0a 2f 2a 0a 2a 2a 20 43 6c 61  izer;../*.** Cla
0450: 73 73 20 64 65 72 69 76 65 64 20 66 72 6f 6d 20  ss derived from 
0460: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
0470: 72 5f 63 75 72 73 6f 72 0a 2a 2f 0a 74 79 70 65  r_cursor.*/.type
0480: 64 65 66 20 73 74 72 75 63 74 20 70 6f 72 74 65  def struct porte
0490: 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  r_tokenizer_curs
04a0: 6f 72 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74  or {.  sqlite3_t
04b0: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
04c0: 62 61 73 65 3b 0a 20 20 63 6f 6e 73 74 20 63 68  base;.  const ch
04d0: 61 72 20 2a 7a 49 6e 70 75 74 3b 20 20 20 20 20  ar *zInput;     
04e0: 20 20 20 20 20 2f 2a 20 69 6e 70 75 74 20 77 65       /* input we
04f0: 20 61 72 65 20 74 6f 6b 65 6e 69 7a 69 6e 67 20   are tokenizing 
0500: 2a 2f 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 3b  */.  int nInput;
0510: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0520: 20 20 2f 2a 20 73 69 7a 65 20 6f 66 20 74 68 65    /* size of the
0530: 20 69 6e 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20   input */.  int 
0540: 69 4f 66 66 73 65 74 3b 20 20 20 20 20 20 20 20  iOffset;        
0550: 20 20 20 20 20 20 20 20 20 2f 2a 20 63 75 72 72           /* curr
0560: 65 6e 74 20 70 6f 73 69 74 69 6f 6e 20 69 6e 20  ent position in 
0570: 7a 49 6e 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20  zInput */.  int 
0580: 69 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20 20 20  iToken;         
0590: 20 20 20 20 20 20 20 20 20 2f 2a 20 69 6e 64 65           /* inde
05a0: 78 20 6f 66 20 6e 65 78 74 20 74 6f 6b 65 6e 20  x of next token 
05b0: 74 6f 20 62 65 20 72 65 74 75 72 6e 65 64 20 2a  to be returned *
05c0: 2f 0a 20 20 63 68 61 72 20 2a 7a 54 6f 6b 65 6e  /.  char *zToken
05d0: 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ;               
05e0: 20 2f 2a 20 73 74 6f 72 61 67 65 20 66 6f 72 20   /* storage for 
05f0: 63 75 72 72 65 6e 74 20 74 6f 6b 65 6e 20 2a 2f  current token */
0600: 0a 20 20 69 6e 74 20 6e 41 6c 6c 6f 63 61 74 65  .  int nAllocate
0610: 64 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20  d;              
0620: 2f 2a 20 73 70 61 63 65 20 61 6c 6c 6f 63 61 74  /* space allocat
0630: 65 64 20 74 6f 20 7a 54 6f 6b 65 6e 20 62 75 66  ed to zToken buf
0640: 66 65 72 20 2a 2f 0a 7d 20 70 6f 72 74 65 72 5f  fer */.} porter_
0650: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
0660: 3b 0a 0a 0a 2f 2a 0a 2a 2a 20 43 72 65 61 74 65  ;.../*.** Create
0670: 20 61 20 6e 65 77 20 74 6f 6b 65 6e 69 7a 65 72   a new tokenizer
0680: 20 69 6e 73 74 61 6e 63 65 2e 0a 2a 2f 0a 73 74   instance..*/.st
0690: 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72 43  atic int porterC
06a0: 72 65 61 74 65 28 0a 20 20 69 6e 74 20 61 72 67  reate(.  int arg
06b0: 63 2c 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 20  c, const char * 
06c0: 63 6f 6e 73 74 20 2a 61 72 67 76 2c 0a 20 20 73  const *argv,.  s
06d0: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
06e0: 20 2a 2a 70 70 54 6f 6b 65 6e 69 7a 65 72 0a 29   **ppTokenizer.)
06f0: 7b 0a 20 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e  {.  porter_token
0700: 69 7a 65 72 20 2a 74 3b 0a 0a 20 20 55 4e 55 53  izer *t;..  UNUS
0710: 45 44 5f 50 41 52 41 4d 45 54 45 52 28 61 72 67  ED_PARAMETER(arg
0720: 63 29 3b 0a 20 20 55 4e 55 53 45 44 5f 50 41 52  c);.  UNUSED_PAR
0730: 41 4d 45 54 45 52 28 61 72 67 76 29 3b 0a 0a 20  AMETER(argv);.. 
0740: 20 74 20 3d 20 28 70 6f 72 74 65 72 5f 74 6f 6b   t = (porter_tok
0750: 65 6e 69 7a 65 72 20 2a 29 20 73 71 6c 69 74 65  enizer *) sqlite
0760: 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f 66 28  3_malloc(sizeof(
0770: 2a 74 29 29 3b 0a 20 20 69 66 28 20 74 3d 3d 4e  *t));.  if( t==N
0780: 55 4c 4c 20 29 20 72 65 74 75 72 6e 20 53 51 4c  ULL ) return SQL
0790: 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 6d 65 6d  ITE_NOMEM;.  mem
07a0: 73 65 74 28 74 2c 20 30 2c 20 73 69 7a 65 6f 66  set(t, 0, sizeof
07b0: 28 2a 74 29 29 3b 0a 20 20 2a 70 70 54 6f 6b 65  (*t));.  *ppToke
07c0: 6e 69 7a 65 72 20 3d 20 26 74 2d 3e 62 61 73 65  nizer = &t->base
07d0: 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54  ;.  return SQLIT
07e0: 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 44  E_OK;.}../*.** D
07f0: 65 73 74 72 6f 79 20 61 20 74 6f 6b 65 6e 69 7a  estroy a tokeniz
0800: 65 72 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  er.*/.static int
0810: 20 70 6f 72 74 65 72 44 65 73 74 72 6f 79 28 73   porterDestroy(s
0820: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
0830: 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 29 7b 0a 20   *pTokenizer){. 
0840: 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28 70 54   sqlite3_free(pT
0850: 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 72 65 74  okenizer);.  ret
0860: 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d  urn SQLITE_OK;.}
0870: 0a 0a 2f 2a 0a 2a 2a 20 50 72 65 70 61 72 65 20  ../*.** Prepare 
0880: 74 6f 20 62 65 67 69 6e 20 74 6f 6b 65 6e 69 7a  to begin tokeniz
0890: 69 6e 67 20 61 20 70 61 72 74 69 63 75 6c 61 72  ing a particular
08a0: 20 73 74 72 69 6e 67 2e 20 20 54 68 65 20 69 6e   string.  The in
08b0: 70 75 74 0a 2a 2a 20 73 74 72 69 6e 67 20 74 6f  put.** string to
08c0: 20 62 65 20 74 6f 6b 65 6e 69 7a 65 64 20 69 73   be tokenized is
08d0: 20 7a 49 6e 70 75 74 5b 30 2e 2e 6e 49 6e 70 75   zInput[0..nInpu
08e0: 74 2d 31 5d 2e 20 20 41 20 63 75 72 73 6f 72 0a  t-1].  A cursor.
08f0: 2a 2a 20 75 73 65 64 20 74 6f 20 69 6e 63 72 65  ** used to incre
0900: 6d 65 6e 74 61 6c 6c 79 20 74 6f 6b 65 6e 69 7a  mentally tokeniz
0910: 65 20 74 68 69 73 20 73 74 72 69 6e 67 20 69 73  e this string is
0920: 20 72 65 74 75 72 6e 65 64 20 69 6e 20 0a 2a 2a   returned in .**
0930: 20 2a 70 70 43 75 72 73 6f 72 2e 0a 2a 2f 0a 73   *ppCursor..*/.s
0940: 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72  tatic int porter
0950: 4f 70 65 6e 28 0a 20 20 73 71 6c 69 74 65 33 5f  Open(.  sqlite3_
0960: 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 65  tokenizer *pToke
0970: 6e 69 7a 65 72 2c 20 20 20 20 20 20 20 20 20 2f  nizer,         /
0980: 2a 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20  * The tokenizer 
0990: 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20  */.  const char 
09a0: 2a 7a 49 6e 70 75 74 2c 20 69 6e 74 20 6e 49 6e  *zInput, int nIn
09b0: 70 75 74 2c 20 20 20 20 20 20 20 20 2f 2a 20 53  put,        /* S
09c0: 74 72 69 6e 67 20 74 6f 20 62 65 20 74 6f 6b 65  tring to be toke
09d0: 6e 69 7a 65 64 20 2a 2f 0a 20 20 73 71 6c 69 74  nized */.  sqlit
09e0: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  e3_tokenizer_cur
09f0: 73 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72 20 20  sor **ppCursor  
0a00: 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e 69    /* OUT: Tokeni
0a10: 7a 61 74 69 6f 6e 20 63 75 72 73 6f 72 20 2a 2f  zation cursor */
0a20: 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74 6f 6b  .){.  porter_tok
0a30: 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 63  enizer_cursor *c
0a40: 3b 0a 0a 20 20 55 4e 55 53 45 44 5f 50 41 52 41  ;..  UNUSED_PARA
0a50: 4d 45 54 45 52 28 70 54 6f 6b 65 6e 69 7a 65 72  METER(pTokenizer
0a60: 29 3b 0a 0a 20 20 63 20 3d 20 28 70 6f 72 74 65  );..  c = (porte
0a70: 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  r_tokenizer_curs
0a80: 6f 72 20 2a 29 20 73 71 6c 69 74 65 33 5f 6d 61  or *) sqlite3_ma
0a90: 6c 6c 6f 63 28 73 69 7a 65 6f 66 28 2a 63 29 29  lloc(sizeof(*c))
0aa0: 3b 0a 20 20 69 66 28 20 63 3d 3d 4e 55 4c 4c 20  ;.  if( c==NULL 
0ab0: 29 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f  ) return SQLITE_
0ac0: 4e 4f 4d 45 4d 3b 0a 0a 20 20 63 2d 3e 7a 49 6e  NOMEM;..  c->zIn
0ad0: 70 75 74 20 3d 20 7a 49 6e 70 75 74 3b 0a 20 20  put = zInput;.  
0ae0: 69 66 28 20 7a 49 6e 70 75 74 3d 3d 30 20 29 7b  if( zInput==0 ){
0af0: 0a 20 20 20 20 63 2d 3e 6e 49 6e 70 75 74 20 3d  .    c->nInput =
0b00: 20 30 3b 0a 20 20 7d 65 6c 73 65 20 69 66 28 20   0;.  }else if( 
0b10: 6e 49 6e 70 75 74 3c 30 20 29 7b 0a 20 20 20 20  nInput<0 ){.    
0b20: 63 2d 3e 6e 49 6e 70 75 74 20 3d 20 28 69 6e 74  c->nInput = (int
0b30: 29 73 74 72 6c 65 6e 28 7a 49 6e 70 75 74 29 3b  )strlen(zInput);
0b40: 0a 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 63 2d  .  }else{.    c-
0b50: 3e 6e 49 6e 70 75 74 20 3d 20 6e 49 6e 70 75 74  >nInput = nInput
0b60: 3b 0a 20 20 7d 0a 20 20 63 2d 3e 69 4f 66 66 73  ;.  }.  c->iOffs
0b70: 65 74 20 3d 20 30 3b 20 20 20 20 20 20 20 20 20  et = 0;         
0b80: 20 20 20 20 20 20 20 20 2f 2a 20 73 74 61 72 74          /* start
0b90: 20 74 6f 6b 65 6e 69 7a 69 6e 67 20 61 74 20 74   tokenizing at t
0ba0: 68 65 20 62 65 67 69 6e 6e 69 6e 67 20 2a 2f 0a  he beginning */.
0bb0: 20 20 63 2d 3e 69 54 6f 6b 65 6e 20 3d 20 30 3b    c->iToken = 0;
0bc0: 0a 20 20 63 2d 3e 7a 54 6f 6b 65 6e 20 3d 20 4e  .  c->zToken = N
0bd0: 55 4c 4c 3b 20 20 20 20 20 20 20 20 20 20 20 20  ULL;            
0be0: 20 20 20 2f 2a 20 6e 6f 20 73 70 61 63 65 20 61     /* no space a
0bf0: 6c 6c 6f 63 61 74 65 64 2c 20 79 65 74 2e 20 2a  llocated, yet. *
0c00: 2f 0a 20 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65  /.  c->nAllocate
0c10: 64 20 3d 20 30 3b 0a 0a 20 20 2a 70 70 43 75 72  d = 0;..  *ppCur
0c20: 73 6f 72 20 3d 20 26 63 2d 3e 62 61 73 65 3b 0a  sor = &c->base;.
0c30: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
0c40: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6c 6f  OK;.}../*.** Clo
0c50: 73 65 20 61 20 74 6f 6b 65 6e 69 7a 61 74 69 6f  se a tokenizatio
0c60: 6e 20 63 75 72 73 6f 72 20 70 72 65 76 69 6f 75  n cursor previou
0c70: 73 6c 79 20 6f 70 65 6e 65 64 20 62 79 20 61 20  sly opened by a 
0c80: 63 61 6c 6c 20 74 6f 0a 2a 2a 20 70 6f 72 74 65  call to.** porte
0c90: 72 4f 70 65 6e 28 29 20 61 62 6f 76 65 2e 0a 2a  rOpen() above..*
0ca0: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72  /.static int por
0cb0: 74 65 72 43 6c 6f 73 65 28 73 71 6c 69 74 65 33  terClose(sqlite3
0cc0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
0cd0: 72 20 2a 70 43 75 72 73 6f 72 29 7b 0a 20 20 70  r *pCursor){.  p
0ce0: 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f  orter_tokenizer_
0cf0: 63 75 72 73 6f 72 20 2a 63 20 3d 20 28 70 6f 72  cursor *c = (por
0d00: 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  ter_tokenizer_cu
0d10: 72 73 6f 72 20 2a 29 20 70 43 75 72 73 6f 72 3b  rsor *) pCursor;
0d20: 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28  .  sqlite3_free(
0d30: 63 2d 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 73 71  c->zToken);.  sq
0d40: 6c 69 74 65 33 5f 66 72 65 65 28 63 29 3b 0a 20  lite3_free(c);. 
0d50: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f   return SQLITE_O
0d60: 4b 3b 0a 7d 0a 2f 2a 0a 2a 2a 20 56 6f 77 65 6c  K;.}./*.** Vowel
0d70: 20 6f 72 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a 2f   or consonant.*/
0d80: 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20 63 68  .static const ch
0d90: 61 72 20 63 54 79 70 65 5b 5d 20 3d 20 7b 0a 20  ar cType[] = {. 
0da0: 20 20 30 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c    0, 1, 1, 1, 0,
0db0: 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31 2c 20   1, 1, 1, 0, 1, 
0dc0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31  1, 1, 1, 1, 0, 1
0dd0: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c  , 1, 1, 1, 1, 0,
0de0: 0a 20 20 20 31 2c 20 31 2c 20 31 2c 20 32 2c 20  .   1, 1, 1, 2, 
0df0: 31 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 69 73 43 6f  1.};../*.** isCo
0e00: 6e 73 6f 6e 61 6e 74 28 29 20 61 6e 64 20 69 73  nsonant() and is
0e10: 56 6f 77 65 6c 28 29 20 64 65 74 65 72 6d 69 6e  Vowel() determin
0e20: 65 20 69 66 20 74 68 65 69 72 20 66 69 72 73 74  e if their first
0e30: 20 63 68 61 72 61 63 74 65 72 20 69 6e 0a 2a 2a   character in.**
0e40: 20 74 68 65 20 73 74 72 69 6e 67 20 74 68 65 79   the string they
0e50: 20 70 6f 69 6e 74 20 74 6f 20 69 73 20 61 20 63   point to is a c
0e60: 6f 6e 73 6f 6e 61 6e 74 20 6f 72 20 61 20 76 6f  onsonant or a vo
0e70: 77 65 6c 2c 20 61 63 63 6f 72 64 69 6e 67 0a 2a  wel, according.*
0e80: 2a 20 74 6f 20 50 6f 72 74 65 72 20 72 75 6c 73  * to Porter ruls
0e90: 2e 20 20 0a 2a 2a 0a 2a 2a 20 41 20 63 6f 6e 73  .  .**.** A cons
0ea0: 6f 6e 61 74 65 20 69 73 20 61 6e 79 20 6c 65 74  onate is any let
0eb0: 74 65 72 20 6f 74 68 65 72 20 74 68 61 6e 20 27  ter other than '
0ec0: 61 27 2c 20 27 65 27 2c 20 27 69 27 2c 20 27 6f  a', 'e', 'i', 'o
0ed0: 27 2c 20 6f 72 20 27 75 27 2e 0a 2a 2a 20 27 59  ', or 'u'..** 'Y
0ee0: 27 20 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e 74  ' is a consonant
0ef0: 20 75 6e 6c 65 73 73 20 69 74 20 66 6f 6c 6c 6f   unless it follo
0f00: 77 73 20 61 6e 6f 74 68 65 72 20 63 6f 6e 73 6f  ws another conso
0f10: 6e 61 6e 74 2c 0a 2a 2a 20 69 6e 20 77 68 69 63  nant,.** in whic
0f20: 68 20 63 61 73 65 20 69 74 20 69 73 20 61 20 76  h case it is a v
0f30: 6f 77 65 6c 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20 74  owel..**.** In t
0f40: 68 65 73 65 20 72 6f 75 74 69 6e 65 2c 20 74 68  hese routine, th
0f50: 65 20 6c 65 74 74 65 72 73 20 61 72 65 20 69 6e  e letters are in
0f60: 20 72 65 76 65 72 73 65 20 6f 72 64 65 72 2e 20   reverse order. 
0f70: 20 53 6f 20 74 68 65 20 27 79 27 20 72 75 6c 65   So the 'y' rule
0f80: 0a 2a 2a 20 69 73 20 74 68 61 74 20 27 79 27 20  .** is that 'y' 
0f90: 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 20 75  is a consonant u
0fa0: 6e 6c 65 73 73 20 69 74 20 69 73 20 66 6f 6c 6c  nless it is foll
0fb0: 6f 77 65 64 20 62 79 20 61 6e 6f 74 68 65 72 0a  owed by another.
0fc0: 2a 2a 20 63 6f 6e 73 6f 6e 65 6e 74 2e 0a 2a 2f  ** consonent..*/
0fd0: 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73 56 6f  .static int isVo
0fe0: 77 65 6c 28 63 6f 6e 73 74 20 63 68 61 72 2a 29  wel(const char*)
0ff0: 3b 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73 43  ;.static int isC
1000: 6f 6e 73 6f 6e 61 6e 74 28 63 6f 6e 73 74 20 63  onsonant(const c
1010: 68 61 72 20 2a 7a 29 7b 0a 20 20 69 6e 74 20 6a  har *z){.  int j
1020: 3b 0a 20 20 63 68 61 72 20 78 20 3d 20 2a 7a 3b  ;.  char x = *z;
1030: 0a 20 20 69 66 28 20 78 3d 3d 30 20 29 20 72 65  .  if( x==0 ) re
1040: 74 75 72 6e 20 30 3b 0a 20 20 61 73 73 65 72 74  turn 0;.  assert
1050: 28 20 78 3e 3d 27 61 27 20 26 26 20 78 3c 3d 27  ( x>='a' && x<='
1060: 7a 27 20 29 3b 0a 20 20 6a 20 3d 20 63 54 79 70  z' );.  j = cTyp
1070: 65 5b 78 2d 27 61 27 5d 3b 0a 20 20 69 66 28 20  e[x-'a'];.  if( 
1080: 6a 3c 32 20 29 20 72 65 74 75 72 6e 20 6a 3b 0a  j<2 ) return j;.
1090: 20 20 72 65 74 75 72 6e 20 7a 5b 31 5d 3d 3d 30    return z[1]==0
10a0: 20 7c 7c 20 69 73 56 6f 77 65 6c 28 7a 20 2b 20   || isVowel(z + 
10b0: 31 29 3b 0a 7d 0a 73 74 61 74 69 63 20 69 6e 74  1);.}.static int
10c0: 20 69 73 56 6f 77 65 6c 28 63 6f 6e 73 74 20 63   isVowel(const c
10d0: 68 61 72 20 2a 7a 29 7b 0a 20 20 69 6e 74 20 6a  har *z){.  int j
10e0: 3b 0a 20 20 63 68 61 72 20 78 20 3d 20 2a 7a 3b  ;.  char x = *z;
10f0: 0a 20 20 69 66 28 20 78 3d 3d 30 20 29 20 72 65  .  if( x==0 ) re
1100: 74 75 72 6e 20 30 3b 0a 20 20 61 73 73 65 72 74  turn 0;.  assert
1110: 28 20 78 3e 3d 27 61 27 20 26 26 20 78 3c 3d 27  ( x>='a' && x<='
1120: 7a 27 20 29 3b 0a 20 20 6a 20 3d 20 63 54 79 70  z' );.  j = cTyp
1130: 65 5b 78 2d 27 61 27 5d 3b 0a 20 20 69 66 28 20  e[x-'a'];.  if( 
1140: 6a 3c 32 20 29 20 72 65 74 75 72 6e 20 31 2d 6a  j<2 ) return 1-j
1150: 3b 0a 20 20 72 65 74 75 72 6e 20 69 73 43 6f 6e  ;.  return isCon
1160: 73 6f 6e 61 6e 74 28 7a 20 2b 20 31 29 3b 0a 7d  sonant(z + 1);.}
1170: 0a 0a 2f 2a 0a 2a 2a 20 4c 65 74 20 61 6e 79 20  ../*.** Let any 
1180: 73 65 71 75 65 6e 63 65 20 6f 66 20 6f 6e 65 20  sequence of one 
1190: 6f 72 20 6d 6f 72 65 20 76 6f 77 65 6c 73 20 62  or more vowels b
11a0: 65 20 72 65 70 72 65 73 65 6e 74 65 64 20 62 79  e represented by
11b0: 20 56 20 61 6e 64 20 6c 65 74 0a 2a 2a 20 43 20   V and let.** C 
11c0: 62 65 20 73 65 71 75 65 6e 63 65 20 6f 66 20 6f  be sequence of o
11d0: 6e 65 20 6f 72 20 6d 6f 72 65 20 63 6f 6e 73 6f  ne or more conso
11e0: 6e 61 6e 74 73 2e 20 20 54 68 65 6e 20 65 76 65  nants.  Then eve
11f0: 72 79 20 77 6f 72 64 20 63 61 6e 20 62 65 0a 2a  ry word can be.*
1200: 2a 20 72 65 70 72 65 73 65 6e 74 65 64 20 61 73  * represented as
1210: 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 20 20 20 20  :.**.**         
1220: 20 20 5b 43 5d 20 28 56 43 29 7b 6d 7d 20 5b 56    [C] (VC){m} [V
1230: 5d 0a 2a 2a 0a 2a 2a 20 49 6e 20 70 72 6f 73 65  ].**.** In prose
1240: 3a 20 20 41 20 77 6f 72 64 20 69 73 20 61 6e 20  :  A word is an 
1250: 6f 70 74 69 6f 6e 61 6c 20 63 6f 6e 73 6f 6e 61  optional consona
1260: 6e 74 20 66 6f 6c 6c 6f 77 65 64 20 62 79 20 7a  nt followed by z
1270: 65 72 6f 20 6f 72 0a 2a 2a 20 76 6f 77 65 6c 2d  ero or.** vowel-
1280: 63 6f 6e 73 6f 6e 61 6e 74 20 70 61 69 72 73 20  consonant pairs 
1290: 66 6f 6c 6c 6f 77 65 64 20 62 79 20 61 6e 20 6f  followed by an o
12a0: 70 74 69 6f 6e 61 6c 20 76 6f 77 65 6c 2e 20 20  ptional vowel.  
12b0: 22 6d 22 20 69 73 20 74 68 65 0a 2a 2a 20 6e 75  "m" is the.** nu
12c0: 6d 62 65 72 20 6f 66 20 76 6f 77 65 6c 20 63 6f  mber of vowel co
12d0: 6e 73 6f 6e 61 6e 74 20 70 61 69 72 73 2e 20 20  nsonant pairs.  
12e0: 54 68 69 73 20 72 6f 75 74 69 6e 65 20 63 6f 6d  This routine com
12f0: 70 75 74 65 73 20 74 68 65 20 76 61 6c 75 65 0a  putes the value.
1300: 2a 2a 20 6f 66 20 6d 20 66 6f 72 20 74 68 65 20  ** of m for the 
1310: 66 69 72 73 74 20 69 20 62 79 74 65 73 20 6f 66  first i bytes of
1320: 20 61 20 77 6f 72 64 2e 0a 2a 2a 0a 2a 2a 20 52   a word..**.** R
1330: 65 74 75 72 6e 20 74 72 75 65 20 69 66 20 74 68  eturn true if th
1340: 65 20 6d 2d 76 61 6c 75 65 20 66 6f 72 20 7a 20  e m-value for z 
1350: 69 73 20 31 20 6f 72 20 6d 6f 72 65 2e 20 20 49  is 1 or more.  I
1360: 6e 20 6f 74 68 65 72 20 77 6f 72 64 73 2c 0a 2a  n other words,.*
1370: 2a 20 72 65 74 75 72 6e 20 74 72 75 65 20 69 66  * return true if
1380: 20 7a 20 63 6f 6e 74 61 69 6e 73 20 61 74 20 6c   z contains at l
1390: 65 61 73 74 20 6f 6e 65 20 76 6f 77 65 6c 20 74  east one vowel t
13a0: 68 61 74 20 69 73 20 66 6f 6c 6c 6f 77 65 64 0a  hat is followed.
13b0: 2a 2a 20 62 79 20 61 20 63 6f 6e 73 6f 6e 61 6e  ** by a consonan
13c0: 74 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20 74 68 69 73  t..**.** In this
13d0: 20 72 6f 75 74 69 6e 65 20 7a 5b 5d 20 69 73 20   routine z[] is 
13e0: 69 6e 20 72 65 76 65 72 73 65 20 6f 72 64 65 72  in reverse order
13f0: 2e 20 20 53 6f 20 77 65 20 61 72 65 20 72 65 61  .  So we are rea
1400: 6c 6c 79 20 6c 6f 6f 6b 69 6e 67 0a 2a 2a 20 66  lly looking.** f
1410: 6f 72 20 61 6e 20 69 6e 73 74 61 6e 63 65 20 6f  or an instance o
1420: 66 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 20 66 6f  f a consonant fo
1430: 6c 6c 6f 77 65 64 20 62 79 20 61 20 76 6f 77 65  llowed by a vowe
1440: 6c 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  l..*/.static int
1450: 20 6d 5f 67 74 5f 30 28 63 6f 6e 73 74 20 63 68   m_gt_0(const ch
1460: 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28  ar *z){.  while(
1470: 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a   isVowel(z) ){ z
1480: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d  ++; }.  if( *z==
1490: 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20  0 ) return 0;.  
14a0: 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61  while( isConsona
14b0: 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  nt(z) ){ z++; }.
14c0: 20 20 72 65 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a    return *z!=0;.
14d0: 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d 67 74 30 20  }../* Like mgt0 
14e0: 61 62 6f 76 65 20 65 78 63 65 70 74 20 77 65 20  above except we 
14f0: 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66 6f 72 20  are looking for 
1500: 61 20 76 61 6c 75 65 20 6f 66 20 6d 20 77 68 69  a value of m whi
1510: 63 68 20 69 73 0a 2a 2a 20 65 78 61 63 74 6c 79  ch is.** exactly
1520: 20 31 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74   1.*/.static int
1530: 20 6d 5f 65 71 5f 31 28 63 6f 6e 73 74 20 63 68   m_eq_1(const ch
1540: 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28  ar *z){.  while(
1550: 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a   isVowel(z) ){ z
1560: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d  ++; }.  if( *z==
1570: 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20  0 ) return 0;.  
1580: 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61  while( isConsona
1590: 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  nt(z) ){ z++; }.
15a0: 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72 65    if( *z==0 ) re
15b0: 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65 28  turn 0;.  while(
15c0: 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a   isVowel(z) ){ z
15d0: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d  ++; }.  if( *z==
15e0: 30 20 29 20 72 65 74 75 72 6e 20 31 3b 0a 20 20  0 ) return 1;.  
15f0: 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61  while( isConsona
1600: 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  nt(z) ){ z++; }.
1610: 20 20 72 65 74 75 72 6e 20 2a 7a 3d 3d 30 3b 0a    return *z==0;.
1620: 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d 67 74 30 20  }../* Like mgt0 
1630: 61 62 6f 76 65 20 65 78 63 65 70 74 20 77 65 20  above except we 
1640: 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66 6f 72 20  are looking for 
1650: 61 20 76 61 6c 75 65 20 6f 66 20 6d 3e 31 20 69  a value of m>1 i
1660: 6e 73 74 65 61 64 0a 2a 2a 20 6f 72 20 6d 3e 30  nstead.** or m>0
1670: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 6d  .*/.static int m
1680: 5f 67 74 5f 31 28 63 6f 6e 73 74 20 63 68 61 72  _gt_1(const char
1690: 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28 20 69   *z){.  while( i
16a0: 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b  sVowel(z) ){ z++
16b0: 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20  ; }.  if( *z==0 
16c0: 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68  ) return 0;.  wh
16d0: 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  ile( isConsonant
16e0: 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20  (z) ){ z++; }.  
16f0: 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72 65 74 75  if( *z==0 ) retu
1700: 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65 28 20 69  rn 0;.  while( i
1710: 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b  sVowel(z) ){ z++
1720: 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20  ; }.  if( *z==0 
1730: 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68  ) return 0;.  wh
1740: 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  ile( isConsonant
1750: 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20  (z) ){ z++; }.  
1760: 72 65 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a  return *z!=0;.}.
1770: 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52  ./*.** Return TR
1780: 55 45 20 69 66 20 74 68 65 72 65 20 69 73 20 61  UE if there is a
1790: 20 76 6f 77 65 6c 20 61 6e 79 77 68 65 72 65 20   vowel anywhere 
17a0: 77 69 74 68 69 6e 20 7a 5b 30 2e 2e 6e 2d 31 5d  within z[0..n-1]
17b0: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 68  .*/.static int h
17c0: 61 73 56 6f 77 65 6c 28 63 6f 6e 73 74 20 63 68  asVowel(const ch
17d0: 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28  ar *z){.  while(
17e0: 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20   isConsonant(z) 
17f0: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 72 65 74 75  ){ z++; }.  retu
1800: 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a 0a 2f 2a 0a  rn *z!=0;.}../*.
1810: 2a 2a 20 52 65 74 75 72 6e 20 54 52 55 45 20 69  ** Return TRUE i
1820: 66 20 74 68 65 20 77 6f 72 64 20 65 6e 64 73 20  f the word ends 
1830: 69 6e 20 61 20 64 6f 75 62 6c 65 20 63 6f 6e 73  in a double cons
1840: 6f 6e 61 6e 74 2e 0a 2a 2a 0a 2a 2a 20 54 68 65  onant..**.** The
1850: 20 74 65 78 74 20 69 73 20 72 65 76 65 72 73 65   text is reverse
1860: 64 20 68 65 72 65 2e 20 53 6f 20 77 65 20 61 72  d here. So we ar
1870: 65 20 72 65 61 6c 6c 79 20 6c 6f 6f 6b 69 6e 67  e really looking
1880: 20 61 74 0a 2a 2a 20 74 68 65 20 66 69 72 73 74   at.** the first
1890: 20 74 77 6f 20 63 68 61 72 61 63 74 65 72 73 20   two characters 
18a0: 6f 66 20 7a 5b 5d 2e 0a 2a 2f 0a 73 74 61 74 69  of z[]..*/.stati
18b0: 63 20 69 6e 74 20 64 6f 75 62 6c 65 43 6f 6e 73  c int doubleCons
18c0: 6f 6e 61 6e 74 28 63 6f 6e 73 74 20 63 68 61 72  onant(const char
18d0: 20 2a 7a 29 7b 0a 20 20 72 65 74 75 72 6e 20 69   *z){.  return i
18e0: 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20 26 26  sConsonant(z) &&
18f0: 20 7a 5b 30 5d 3d 3d 7a 5b 31 5d 3b 0a 7d 0a 0a   z[0]==z[1];.}..
1900: 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52 55  /*.** Return TRU
1910: 45 20 69 66 20 74 68 65 20 77 6f 72 64 20 65 6e  E if the word en
1920: 64 73 20 77 69 74 68 20 74 68 72 65 65 20 6c 65  ds with three le
1930: 74 74 65 72 73 20 77 68 69 63 68 0a 2a 2a 20 61  tters which.** a
1940: 72 65 20 63 6f 6e 73 6f 6e 61 6e 74 2d 76 6f 77  re consonant-vow
1950: 65 6c 2d 63 6f 6e 73 6f 6e 65 6e 74 20 61 6e 64  el-consonent and
1960: 20 77 68 65 72 65 20 74 68 65 20 66 69 6e 61 6c   where the final
1970: 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a 2a 20 69 73   consonant.** is
1980: 20 6e 6f 74 20 27 77 27 2c 20 27 78 27 2c 20 6f   not 'w', 'x', o
1990: 72 20 27 79 27 2e 0a 2a 2a 0a 2a 2a 20 54 68 65  r 'y'..**.** The
19a0: 20 77 6f 72 64 20 69 73 20 72 65 76 65 72 73 65   word is reverse
19b0: 64 20 68 65 72 65 2e 20 20 53 6f 20 77 65 20 61  d here.  So we a
19c0: 72 65 20 72 65 61 6c 6c 79 20 63 68 65 63 6b 69  re really checki
19d0: 6e 67 20 74 68 65 0a 2a 2a 20 66 69 72 73 74 20  ng the.** first 
19e0: 74 68 72 65 65 20 6c 65 74 74 65 72 73 20 61 6e  three letters an
19f0: 64 20 74 68 65 20 66 69 72 73 74 20 6f 6e 65 20  d the first one 
1a00: 63 61 6e 6e 6f 74 20 62 65 20 69 6e 20 5b 77 78  cannot be in [wx
1a10: 79 5d 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  y]..*/.static in
1a20: 74 20 73 74 61 72 5f 6f 68 28 63 6f 6e 73 74 20  t star_oh(const 
1a30: 63 68 61 72 20 2a 7a 29 7b 0a 20 20 72 65 74 75  char *z){.  retu
1a40: 72 6e 0a 20 20 20 20 69 73 43 6f 6e 73 6f 6e 61  rn.    isConsona
1a50: 6e 74 28 7a 29 20 26 26 0a 20 20 20 20 7a 5b 30  nt(z) &&.    z[0
1a60: 5d 21 3d 27 77 27 20 26 26 20 7a 5b 30 5d 21 3d  ]!='w' && z[0]!=
1a70: 27 78 27 20 26 26 20 7a 5b 30 5d 21 3d 27 79 27  'x' && z[0]!='y'
1a80: 20 26 26 0a 20 20 20 20 69 73 56 6f 77 65 6c 28   &&.    isVowel(
1a90: 7a 2b 31 29 20 26 26 0a 20 20 20 20 69 73 43 6f  z+1) &&.    isCo
1aa0: 6e 73 6f 6e 61 6e 74 28 7a 2b 32 29 3b 0a 7d 0a  nsonant(z+2);.}.
1ab0: 0a 2f 2a 0a 2a 2a 20 49 66 20 74 68 65 20 77 6f  ./*.** If the wo
1ac0: 72 64 20 65 6e 64 73 20 77 69 74 68 20 7a 46 72  rd ends with zFr
1ad0: 6f 6d 20 61 6e 64 20 78 43 6f 6e 64 28 29 20 69  om and xCond() i
1ae0: 73 20 74 72 75 65 20 66 6f 72 20 74 68 65 20 73  s true for the s
1af0: 74 65 6d 0a 2a 2a 20 6f 66 20 74 68 65 20 77 6f  tem.** of the wo
1b00: 72 64 20 74 68 61 74 20 70 72 65 63 65 65 64 73  rd that preceeds
1b10: 20 74 68 65 20 7a 46 72 6f 6d 20 65 6e 64 69 6e   the zFrom endin
1b20: 67 2c 20 74 68 65 6e 20 63 68 61 6e 67 65 20 74  g, then change t
1b30: 68 65 20 0a 2a 2a 20 65 6e 64 69 6e 67 20 74 6f  he .** ending to
1b40: 20 7a 54 6f 2e 0a 2a 2a 0a 2a 2a 20 54 68 65 20   zTo..**.** The 
1b50: 69 6e 70 75 74 20 77 6f 72 64 20 2a 70 7a 20 61  input word *pz a
1b60: 6e 64 20 7a 46 72 6f 6d 20 61 72 65 20 62 6f 74  nd zFrom are bot
1b70: 68 20 69 6e 20 72 65 76 65 72 73 65 20 6f 72 64  h in reverse ord
1b80: 65 72 2e 20 20 7a 54 6f 0a 2a 2a 20 69 73 20 69  er.  zTo.** is i
1b90: 6e 20 6e 6f 72 6d 61 6c 20 6f 72 64 65 72 2e 20  n normal order. 
1ba0: 0a 2a 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52  .**.** Return TR
1bb0: 55 45 20 69 66 20 7a 46 72 6f 6d 20 6d 61 74 63  UE if zFrom matc
1bc0: 68 65 73 2e 20 20 52 65 74 75 72 6e 20 46 41 4c  hes.  Return FAL
1bd0: 53 45 20 69 66 20 7a 46 72 6f 6d 20 64 6f 65 73  SE if zFrom does
1be0: 20 6e 6f 74 0a 2a 2a 20 6d 61 74 63 68 2e 20 20   not.** match.  
1bf0: 4e 6f 74 20 74 68 61 74 20 54 52 55 45 20 69 73  Not that TRUE is
1c00: 20 72 65 74 75 72 6e 65 64 20 65 76 65 6e 20 69   returned even i
1c10: 66 20 78 43 6f 6e 64 28 29 20 66 61 69 6c 73 20  f xCond() fails 
1c20: 61 6e 64 0a 2a 2a 20 6e 6f 20 73 75 62 73 74 69  and.** no substi
1c30: 74 75 74 69 6f 6e 20 6f 63 63 75 72 73 2e 0a 2a  tution occurs..*
1c40: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 73 74 65  /.static int ste
1c50: 6d 28 0a 20 20 63 68 61 72 20 2a 2a 70 7a 2c 20  m(.  char **pz, 
1c60: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 54              /* T
1c70: 68 65 20 77 6f 72 64 20 62 65 69 6e 67 20 73 74  he word being st
1c80: 65 6d 6d 65 64 20 28 52 65 76 65 72 73 65 64 29  emmed (Reversed)
1c90: 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   */.  const char
1ca0: 20 2a 7a 46 72 6f 6d 2c 20 20 20 20 20 2f 2a 20   *zFrom,     /* 
1cb0: 49 66 20 74 68 65 20 65 6e 64 69 6e 67 20 6d 61  If the ending ma
1cc0: 74 63 68 65 73 20 74 68 69 73 2e 2e 2e 20 28 52  tches this... (R
1cd0: 65 76 65 72 73 65 64 29 20 2a 2f 0a 20 20 63 6f  eversed) */.  co
1ce0: 6e 73 74 20 63 68 61 72 20 2a 7a 54 6f 2c 20 20  nst char *zTo,  
1cf0: 20 20 20 20 20 2f 2a 20 2e 2e 2e 20 63 68 61 6e       /* ... chan
1d00: 67 65 20 74 68 65 20 65 6e 64 69 6e 67 20 74 6f  ge the ending to
1d10: 20 74 68 69 73 20 28 6e 6f 74 20 72 65 76 65 72   this (not rever
1d20: 73 65 64 29 20 2a 2f 0a 20 20 69 6e 74 20 28 2a  sed) */.  int (*
1d30: 78 43 6f 6e 64 29 28 63 6f 6e 73 74 20 63 68 61  xCond)(const cha
1d40: 72 2a 29 20 20 20 2f 2a 20 43 6f 6e 64 69 74 69  r*)   /* Conditi
1d50: 6f 6e 20 74 68 61 74 20 6d 75 73 74 20 62 65 20  on that must be 
1d60: 74 72 75 65 20 2a 2f 0a 29 7b 0a 20 20 63 68 61  true */.){.  cha
1d70: 72 20 2a 7a 20 3d 20 2a 70 7a 3b 0a 20 20 77 68  r *z = *pz;.  wh
1d80: 69 6c 65 28 20 2a 7a 46 72 6f 6d 20 26 26 20 2a  ile( *zFrom && *
1d90: 7a 46 72 6f 6d 3d 3d 2a 7a 20 29 7b 20 7a 2b 2b  zFrom==*z ){ z++
1da0: 3b 20 7a 46 72 6f 6d 2b 2b 3b 20 7d 0a 20 20 69  ; zFrom++; }.  i
1db0: 66 28 20 2a 7a 46 72 6f 6d 21 3d 30 20 29 20 72  f( *zFrom!=0 ) r
1dc0: 65 74 75 72 6e 20 30 3b 0a 20 20 69 66 28 20 78  eturn 0;.  if( x
1dd0: 43 6f 6e 64 20 26 26 20 21 78 43 6f 6e 64 28 7a  Cond && !xCond(z
1de0: 29 20 29 20 72 65 74 75 72 6e 20 31 3b 0a 20 20  ) ) return 1;.  
1df0: 77 68 69 6c 65 28 20 2a 7a 54 6f 20 29 7b 0a 20  while( *zTo ){. 
1e00: 20 20 20 2a 28 2d 2d 7a 29 20 3d 20 2a 28 7a 54     *(--z) = *(zT
1e10: 6f 2b 2b 29 3b 0a 20 20 7d 0a 20 20 2a 70 7a 20  o++);.  }.  *pz 
1e20: 3d 20 7a 3b 0a 20 20 72 65 74 75 72 6e 20 31 3b  = z;.  return 1;
1e30: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 54 68 69 73 20 69  .}../*.** This i
1e40: 73 20 74 68 65 20 66 61 6c 6c 62 61 63 6b 20 73  s the fallback s
1e50: 74 65 6d 6d 65 72 20 75 73 65 64 20 77 68 65 6e  temmer used when
1e60: 20 74 68 65 20 70 6f 72 74 65 72 20 73 74 65 6d   the porter stem
1e70: 6d 65 72 20 69 73 0a 2a 2a 20 69 6e 61 70 70 72  mer is.** inappr
1e80: 6f 70 72 69 61 74 65 2e 20 20 54 68 65 20 69 6e  opriate.  The in
1e90: 70 75 74 20 77 6f 72 64 20 69 73 20 63 6f 70 69  put word is copi
1ea0: 65 64 20 69 6e 74 6f 20 74 68 65 20 6f 75 74 70  ed into the outp
1eb0: 75 74 20 77 69 74 68 0a 2a 2a 20 55 53 2d 41 53  ut with.** US-AS
1ec0: 43 49 49 20 63 61 73 65 20 66 6f 6c 64 69 6e 67  CII case folding
1ed0: 2e 20 20 49 66 20 74 68 65 20 69 6e 70 75 74 20  .  If the input 
1ee0: 77 6f 72 64 20 69 73 20 74 6f 6f 20 6c 6f 6e 67  word is too long
1ef0: 20 28 6d 6f 72 65 0a 2a 2a 20 74 68 61 6e 20 32   (more.** than 2
1f00: 30 20 62 79 74 65 73 20 69 66 20 69 74 20 63 6f  0 bytes if it co
1f10: 6e 74 61 69 6e 73 20 6e 6f 20 64 69 67 69 74 73  ntains no digits
1f20: 20 6f 72 20 6d 6f 72 65 20 74 68 61 6e 20 36 20   or more than 6 
1f30: 62 79 74 65 73 20 69 66 0a 2a 2a 20 69 74 20 63  bytes if.** it c
1f40: 6f 6e 74 61 69 6e 73 20 64 69 67 69 74 73 29 20  ontains digits) 
1f50: 74 68 65 6e 20 77 6f 72 64 20 69 73 20 74 72 75  then word is tru
1f60: 6e 63 61 74 65 64 20 74 6f 20 32 30 20 6f 72 20  ncated to 20 or 
1f70: 36 20 62 79 74 65 73 0a 2a 2a 20 62 79 20 74 61  6 bytes.** by ta
1f80: 6b 69 6e 67 20 31 30 20 6f 72 20 33 20 62 79 74  king 10 or 3 byt
1f90: 65 73 20 66 72 6f 6d 20 74 68 65 20 62 65 67 69  es from the begi
1fa0: 6e 6e 69 6e 67 20 61 6e 64 20 65 6e 64 2e 0a 2a  nning and end..*
1fb0: 2f 0a 73 74 61 74 69 63 20 76 6f 69 64 20 63 6f  /.static void co
1fc0: 70 79 5f 73 74 65 6d 6d 65 72 28 63 6f 6e 73 74  py_stemmer(const
1fd0: 20 63 68 61 72 20 2a 7a 49 6e 2c 20 69 6e 74 20   char *zIn, int 
1fe0: 6e 49 6e 2c 20 63 68 61 72 20 2a 7a 4f 75 74 2c  nIn, char *zOut,
1ff0: 20 69 6e 74 20 2a 70 6e 4f 75 74 29 7b 0a 20 20   int *pnOut){.  
2000: 69 6e 74 20 69 2c 20 6d 78 2c 20 6a 3b 0a 20 20  int i, mx, j;.  
2010: 69 6e 74 20 68 61 73 44 69 67 69 74 20 3d 20 30  int hasDigit = 0
2020: 3b 0a 20 20 66 6f 72 28 69 3d 30 3b 20 69 3c 6e  ;.  for(i=0; i<n
2030: 49 6e 3b 20 69 2b 2b 29 7b 0a 20 20 20 20 63 68  In; i++){.    ch
2040: 61 72 20 63 20 3d 20 7a 49 6e 5b 69 5d 3b 0a 20  ar c = zIn[i];. 
2050: 20 20 20 69 66 28 20 63 3e 3d 27 41 27 20 26 26     if( c>='A' &&
2060: 20 63 3c 3d 27 5a 27 20 29 7b 0a 20 20 20 20 20   c<='Z' ){.     
2070: 20 7a 4f 75 74 5b 69 5d 20 3d 20 63 20 2d 20 27   zOut[i] = c - '
2080: 41 27 20 2b 20 27 61 27 3b 0a 20 20 20 20 7d 65  A' + 'a';.    }e
2090: 6c 73 65 7b 0a 20 20 20 20 20 20 69 66 28 20 63  lse{.      if( c
20a0: 3e 3d 27 30 27 20 26 26 20 63 3c 3d 27 39 27 20  >='0' && c<='9' 
20b0: 29 20 68 61 73 44 69 67 69 74 20 3d 20 31 3b 0a  ) hasDigit = 1;.
20c0: 20 20 20 20 20 20 7a 4f 75 74 5b 69 5d 20 3d 20        zOut[i] = 
20d0: 63 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 20 20 6d  c;.    }.  }.  m
20e0: 78 20 3d 20 68 61 73 44 69 67 69 74 20 3f 20 33  x = hasDigit ? 3
20f0: 20 3a 20 31 30 3b 0a 20 20 69 66 28 20 6e 49 6e   : 10;.  if( nIn
2100: 3e 6d 78 2a 32 20 29 7b 0a 20 20 20 20 66 6f 72  >mx*2 ){.    for
2110: 28 6a 3d 6d 78 2c 20 69 3d 6e 49 6e 2d 6d 78 3b  (j=mx, i=nIn-mx;
2120: 20 69 3c 6e 49 6e 3b 20 69 2b 2b 2c 20 6a 2b 2b   i<nIn; i++, j++
2130: 29 7b 0a 20 20 20 20 20 20 7a 4f 75 74 5b 6a 5d  ){.      zOut[j]
2140: 20 3d 20 7a 4f 75 74 5b 69 5d 3b 0a 20 20 20 20   = zOut[i];.    
2150: 7d 0a 20 20 20 20 69 20 3d 20 6a 3b 0a 20 20 7d  }.    i = j;.  }
2160: 0a 20 20 7a 4f 75 74 5b 69 5d 20 3d 20 30 3b 0a  .  zOut[i] = 0;.
2170: 20 20 2a 70 6e 4f 75 74 20 3d 20 69 3b 0a 7d 0a    *pnOut = i;.}.
2180: 0a 0a 2f 2a 0a 2a 2a 20 53 74 65 6d 20 74 68 65  ../*.** Stem the
2190: 20 69 6e 70 75 74 20 77 6f 72 64 20 7a 49 6e 5b   input word zIn[
21a0: 30 2e 2e 6e 49 6e 2d 31 5d 2e 20 20 53 74 6f 72  0..nIn-1].  Stor
21b0: 65 20 74 68 65 20 6f 75 74 70 75 74 20 69 6e 20  e the output in 
21c0: 7a 4f 75 74 2e 0a 2a 2a 20 7a 4f 75 74 20 69 73  zOut..** zOut is
21d0: 20 61 74 20 6c 65 61 73 74 20 62 69 67 20 65 6e   at least big en
21e0: 6f 75 67 68 20 74 6f 20 68 6f 6c 64 20 6e 49 6e  ough to hold nIn
21f0: 20 62 79 74 65 73 2e 20 20 57 72 69 74 65 20 74   bytes.  Write t
2200: 68 65 20 61 63 74 75 61 6c 0a 2a 2a 20 73 69 7a  he actual.** siz
2210: 65 20 6f 66 20 74 68 65 20 6f 75 74 70 75 74 20  e of the output 
2220: 77 6f 72 64 20 28 65 78 63 6c 75 73 69 76 65 20  word (exclusive 
2230: 6f 66 20 74 68 65 20 27 5c 30 27 20 74 65 72 6d  of the '\0' term
2240: 69 6e 61 74 6f 72 29 20 69 6e 74 6f 20 2a 70 6e  inator) into *pn
2250: 4f 75 74 2e 0a 2a 2a 0a 2a 2a 20 41 6e 79 20 75  Out..**.** Any u
2260: 70 70 65 72 2d 63 61 73 65 20 63 68 61 72 61 63  pper-case charac
2270: 74 65 72 73 20 69 6e 20 74 68 65 20 55 53 2d 41  ters in the US-A
2280: 53 43 49 49 20 63 68 61 72 61 63 74 65 72 20 73  SCII character s
2290: 65 74 20 28 5b 41 2d 5a 5d 29 0a 2a 2a 20 61 72  et ([A-Z]).** ar
22a0: 65 20 63 6f 6e 76 65 72 74 65 64 20 74 6f 20 6c  e converted to l
22b0: 6f 77 65 72 20 63 61 73 65 2e 20 20 55 70 70 65  ower case.  Uppe
22c0: 72 2d 63 61 73 65 20 55 54 46 20 63 68 61 72 61  r-case UTF chara
22d0: 63 74 65 72 73 20 61 72 65 0a 2a 2a 20 75 6e 63  cters are.** unc
22e0: 68 61 6e 67 65 64 2e 0a 2a 2a 0a 2a 2a 20 57 6f  hanged..**.** Wo
22f0: 72 64 73 20 74 68 61 74 20 61 72 65 20 6c 6f 6e  rds that are lon
2300: 67 65 72 20 74 68 61 6e 20 61 62 6f 75 74 20 32  ger than about 2
2310: 30 20 62 79 74 65 73 20 61 72 65 20 73 74 65 6d  0 bytes are stem
2320: 6d 65 64 20 62 79 20 72 65 74 61 69 6e 69 6e 67  med by retaining
2330: 0a 2a 2a 20 61 20 66 65 77 20 62 79 74 65 73 20  .** a few bytes 
2340: 66 72 6f 6d 20 74 68 65 20 62 65 67 69 6e 6e 69  from the beginni
2350: 6e 67 20 61 6e 64 20 74 68 65 20 65 6e 64 20 6f  ng and the end o
2360: 66 20 74 68 65 20 77 6f 72 64 2e 20 20 49 66 20  f the word.  If 
2370: 74 68 65 0a 2a 2a 20 77 6f 72 64 20 63 6f 6e 74  the.** word cont
2380: 61 69 6e 73 20 64 69 67 69 74 73 2c 20 33 20 62  ains digits, 3 b
2390: 79 74 65 73 20 61 72 65 20 74 61 6b 65 6e 20 66  ytes are taken f
23a0: 72 6f 6d 20 74 68 65 20 62 65 67 69 6e 6e 69 6e  rom the beginnin
23b0: 67 20 61 6e 64 0a 2a 2a 20 33 20 62 79 74 65 73  g and.** 3 bytes
23c0: 20 66 72 6f 6d 20 74 68 65 20 65 6e 64 2e 20 20   from the end.  
23d0: 46 6f 72 20 6c 6f 6e 67 20 77 6f 72 64 73 20 77  For long words w
23e0: 69 74 68 6f 75 74 20 64 69 67 69 74 73 2c 20 31  ithout digits, 1
23f0: 30 20 62 79 74 65 73 0a 2a 2a 20 61 72 65 20 74  0 bytes.** are t
2400: 61 6b 65 6e 20 66 72 6f 6d 20 65 61 63 68 20 65  aken from each e
2410: 6e 64 2e 20 20 55 53 2d 41 53 43 49 49 20 63 61  nd.  US-ASCII ca
2420: 73 65 20 66 6f 6c 64 69 6e 67 20 73 74 69 6c 6c  se folding still
2430: 20 61 70 70 6c 69 65 73 2e 0a 2a 2a 20 0a 2a 2a   applies..** .**
2440: 20 49 66 20 74 68 65 20 69 6e 70 75 74 20 77 6f   If the input wo
2450: 72 64 20 63 6f 6e 74 61 69 6e 73 20 6e 6f 74 20  rd contains not 
2460: 64 69 67 69 74 73 20 62 75 74 20 64 6f 65 73 20  digits but does 
2470: 63 68 61 72 61 63 74 65 72 73 20 6e 6f 74 20 0a  characters not .
2480: 2a 2a 20 69 6e 20 5b 61 2d 7a 41 2d 5a 5d 20 74  ** in [a-zA-Z] t
2490: 68 65 6e 20 6e 6f 20 73 74 65 6d 6d 69 6e 67 20  hen no stemming 
24a0: 69 73 20 61 74 74 65 6d 70 74 65 64 20 61 6e 64  is attempted and
24b0: 20 74 68 69 73 20 72 6f 75 74 69 6e 65 20 6a 75   this routine ju
24c0: 73 74 20 0a 2a 2a 20 63 6f 70 69 65 73 20 74 68  st .** copies th
24d0: 65 20 69 6e 70 75 74 20 69 6e 74 6f 20 74 68 65  e input into the
24e0: 20 69 6e 70 75 74 20 69 6e 74 6f 20 74 68 65 20   input into the 
24f0: 6f 75 74 70 75 74 20 77 69 74 68 20 55 53 2d 41  output with US-A
2500: 53 43 49 49 0a 2a 2a 20 63 61 73 65 20 66 6f 6c  SCII.** case fol
2510: 64 69 6e 67 2e 0a 2a 2a 0a 2a 2a 20 53 74 65 6d  ding..**.** Stem
2520: 6d 69 6e 67 20 6e 65 76 65 72 20 69 6e 63 72 65  ming never incre
2530: 61 73 65 73 20 74 68 65 20 6c 65 6e 67 74 68 20  ases the length 
2540: 6f 66 20 74 68 65 20 77 6f 72 64 2e 20 20 53 6f  of the word.  So
2550: 20 74 68 65 72 65 20 69 73 0a 2a 2a 20 6e 6f 20   there is.** no 
2560: 63 68 61 6e 63 65 20 6f 66 20 6f 76 65 72 66 6c  chance of overfl
2570: 6f 77 69 6e 67 20 74 68 65 20 7a 4f 75 74 20 62  owing the zOut b
2580: 75 66 66 65 72 2e 0a 2a 2f 0a 73 74 61 74 69 63  uffer..*/.static
2590: 20 76 6f 69 64 20 70 6f 72 74 65 72 5f 73 74 65   void porter_ste
25a0: 6d 6d 65 72 28 63 6f 6e 73 74 20 63 68 61 72 20  mmer(const char 
25b0: 2a 7a 49 6e 2c 20 69 6e 74 20 6e 49 6e 2c 20 63  *zIn, int nIn, c
25c0: 68 61 72 20 2a 7a 4f 75 74 2c 20 69 6e 74 20 2a  har *zOut, int *
25d0: 70 6e 4f 75 74 29 7b 0a 20 20 69 6e 74 20 69 2c  pnOut){.  int i,
25e0: 20 6a 3b 0a 20 20 63 68 61 72 20 7a 52 65 76 65   j;.  char zReve
25f0: 72 73 65 5b 32 38 5d 3b 0a 20 20 63 68 61 72 20  rse[28];.  char 
2600: 2a 7a 2c 20 2a 7a 32 3b 0a 20 20 69 66 28 20 6e  *z, *z2;.  if( n
2610: 49 6e 3c 33 20 7c 7c 20 6e 49 6e 3e 3d 28 69 6e  In<3 || nIn>=(in
2620: 74 29 73 69 7a 65 6f 66 28 7a 52 65 76 65 72 73  t)sizeof(zRevers
2630: 65 29 2d 37 20 29 7b 0a 20 20 20 20 2f 2a 20 54  e)-7 ){.    /* T
2640: 68 65 20 77 6f 72 64 20 69 73 20 74 6f 6f 20 62  he word is too b
2650: 69 67 20 6f 72 20 74 6f 6f 20 73 6d 61 6c 6c 20  ig or too small 
2660: 66 6f 72 20 74 68 65 20 70 6f 72 74 65 72 20 73  for the porter s
2670: 74 65 6d 6d 65 72 2e 0a 20 20 20 20 2a 2a 20 46  temmer..    ** F
2680: 61 6c 6c 62 61 63 6b 20 74 6f 20 74 68 65 20 63  allback to the c
2690: 6f 70 79 20 73 74 65 6d 6d 65 72 20 2a 2f 0a 20  opy stemmer */. 
26a0: 20 20 20 63 6f 70 79 5f 73 74 65 6d 6d 65 72 28     copy_stemmer(
26b0: 7a 49 6e 2c 20 6e 49 6e 2c 20 7a 4f 75 74 2c 20  zIn, nIn, zOut, 
26c0: 70 6e 4f 75 74 29 3b 0a 20 20 20 20 72 65 74 75  pnOut);.    retu
26d0: 72 6e 3b 0a 20 20 7d 0a 20 20 66 6f 72 28 69 3d  rn;.  }.  for(i=
26e0: 30 2c 20 6a 3d 73 69 7a 65 6f 66 28 7a 52 65 76  0, j=sizeof(zRev
26f0: 65 72 73 65 29 2d 36 3b 20 69 3c 6e 49 6e 3b 20  erse)-6; i<nIn; 
2700: 69 2b 2b 2c 20 6a 2d 2d 29 7b 0a 20 20 20 20 63  i++, j--){.    c
2710: 68 61 72 20 63 20 3d 20 7a 49 6e 5b 69 5d 3b 0a  har c = zIn[i];.
2720: 20 20 20 20 69 66 28 20 63 3e 3d 27 41 27 20 26      if( c>='A' &
2730: 26 20 63 3c 3d 27 5a 27 20 29 7b 0a 20 20 20 20  & c<='Z' ){.    
2740: 20 20 7a 52 65 76 65 72 73 65 5b 6a 5d 20 3d 20    zReverse[j] = 
2750: 63 20 2b 20 27 61 27 20 2d 20 27 41 27 3b 0a 20  c + 'a' - 'A';. 
2760: 20 20 20 7d 65 6c 73 65 20 69 66 28 20 63 3e 3d     }else if( c>=
2770: 27 61 27 20 26 26 20 63 3c 3d 27 7a 27 20 29 7b  'a' && c<='z' ){
2780: 0a 20 20 20 20 20 20 7a 52 65 76 65 72 73 65 5b  .      zReverse[
2790: 6a 5d 20 3d 20 63 3b 0a 20 20 20 20 7d 65 6c 73  j] = c;.    }els
27a0: 65 7b 0a 20 20 20 20 20 20 2f 2a 20 54 68 65 20  e{.      /* The 
27b0: 75 73 65 20 6f 66 20 61 20 63 68 61 72 61 63 74  use of a charact
27c0: 65 72 20 6e 6f 74 20 69 6e 20 5b 61 2d 7a 41 2d  er not in [a-zA-
27d0: 5a 5d 20 6d 65 61 6e 73 20 74 68 61 74 20 77 65  Z] means that we
27e0: 20 66 61 6c 6c 62 61 63 6b 0a 20 20 20 20 20 20   fallback.      
27f0: 2a 2a 20 74 6f 20 74 68 65 20 63 6f 70 79 20 73  ** to the copy s
2800: 74 65 6d 6d 65 72 20 2a 2f 0a 20 20 20 20 20 20  temmer */.      
2810: 63 6f 70 79 5f 73 74 65 6d 6d 65 72 28 7a 49 6e  copy_stemmer(zIn
2820: 2c 20 6e 49 6e 2c 20 7a 4f 75 74 2c 20 70 6e 4f  , nIn, zOut, pnO
2830: 75 74 29 3b 0a 20 20 20 20 20 20 72 65 74 75 72  ut);.      retur
2840: 6e 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 20 20 6d  n;.    }.  }.  m
2850: 65 6d 73 65 74 28 26 7a 52 65 76 65 72 73 65 5b  emset(&zReverse[
2860: 73 69 7a 65 6f 66 28 7a 52 65 76 65 72 73 65 29  sizeof(zReverse)
2870: 2d 35 5d 2c 20 30 2c 20 35 29 3b 0a 20 20 7a 20  -5], 0, 5);.  z 
2880: 3d 20 26 7a 52 65 76 65 72 73 65 5b 6a 2b 31 5d  = &zReverse[j+1]
2890: 3b 0a 0a 0a 20 20 2f 2a 20 53 74 65 70 20 31 61  ;...  /* Step 1a
28a0: 20 2a 2f 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d   */.  if( z[0]==
28b0: 27 73 27 20 29 7b 0a 20 20 20 20 69 66 28 0a 20  's' ){.    if(. 
28c0: 20 20 20 20 21 73 74 65 6d 28 26 7a 2c 20 22 73      !stem(&z, "s
28d0: 65 73 73 22 2c 20 22 73 73 22 2c 20 30 29 20 26  ess", "ss", 0) &
28e0: 26 0a 20 20 20 20 20 21 73 74 65 6d 28 26 7a 2c  &.     !stem(&z,
28f0: 20 22 73 65 69 22 2c 20 22 69 22 2c 20 30 29 20   "sei", "i", 0) 
2900: 20 26 26 0a 20 20 20 20 20 21 73 74 65 6d 28 26   &&.     !stem(&
2910: 7a 2c 20 22 73 73 22 2c 20 22 73 73 22 2c 20 30  z, "ss", "ss", 0
2920: 29 0a 20 20 20 20 29 7b 0a 20 20 20 20 20 20 7a  ).    ){.      z
2930: 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20  ++;.    }.  }.. 
2940: 20 2f 2a 20 53 74 65 70 20 31 62 20 2a 2f 20 20   /* Step 1b */  
2950: 0a 20 20 7a 32 20 3d 20 7a 3b 0a 20 20 69 66 28  .  z2 = z;.  if(
2960: 20 73 74 65 6d 28 26 7a 2c 20 22 64 65 65 22 2c   stem(&z, "dee",
2970: 20 22 65 65 22 2c 20 6d 5f 67 74 5f 30 29 20 29   "ee", m_gt_0) )
2980: 7b 0a 20 20 20 20 2f 2a 20 44 6f 20 6e 6f 74 68  {.    /* Do noth
2990: 69 6e 67 2e 20 20 54 68 65 20 77 6f 72 6b 20 77  ing.  The work w
29a0: 61 73 20 61 6c 6c 20 69 6e 20 74 68 65 20 74 65  as all in the te
29b0: 73 74 20 2a 2f 0a 20 20 7d 65 6c 73 65 20 69 66  st */.  }else if
29c0: 28 20 0a 20 20 20 20 20 28 73 74 65 6d 28 26 7a  ( .     (stem(&z
29d0: 2c 20 22 67 6e 69 22 2c 20 22 22 2c 20 68 61 73  , "gni", "", has
29e0: 56 6f 77 65 6c 29 20 7c 7c 20 73 74 65 6d 28 26  Vowel) || stem(&
29f0: 7a 2c 20 22 64 65 22 2c 20 22 22 2c 20 68 61 73  z, "de", "", has
2a00: 56 6f 77 65 6c 29 29 0a 20 20 20 20 20 20 26 26  Vowel)).      &&
2a10: 20 7a 21 3d 7a 32 0a 20 20 29 7b 0a 20 20 20 20   z!=z2.  ){.    
2a20: 20 69 66 28 20 73 74 65 6d 28 26 7a 2c 20 22 74   if( stem(&z, "t
2a30: 61 22 2c 20 22 61 74 65 22 2c 20 30 29 20 7c 7c  a", "ate", 0) ||
2a40: 0a 20 20 20 20 20 20 20 20 20 73 74 65 6d 28 26  .         stem(&
2a50: 7a 2c 20 22 6c 62 22 2c 20 22 62 6c 65 22 2c 20  z, "lb", "ble", 
2a60: 30 29 20 7c 7c 0a 20 20 20 20 20 20 20 20 20 73  0) ||.         s
2a70: 74 65 6d 28 26 7a 2c 20 22 7a 69 22 2c 20 22 69  tem(&z, "zi", "i
2a80: 7a 65 22 2c 20 30 29 20 29 7b 0a 20 20 20 20 20  ze", 0) ){.     
2a90: 20 20 2f 2a 20 44 6f 20 6e 6f 74 68 69 6e 67 2e    /* Do nothing.
2aa0: 20 20 54 68 65 20 77 6f 72 6b 20 77 61 73 20 61    The work was a
2ab0: 6c 6c 20 69 6e 20 74 68 65 20 74 65 73 74 20 2a  ll in the test *
2ac0: 2f 0a 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28  /.     }else if(
2ad0: 20 64 6f 75 62 6c 65 43 6f 6e 73 6f 6e 61 6e 74   doubleConsonant
2ae0: 28 7a 29 20 26 26 20 28 2a 7a 21 3d 27 6c 27 20  (z) && (*z!='l' 
2af0: 26 26 20 2a 7a 21 3d 27 73 27 20 26 26 20 2a 7a  && *z!='s' && *z
2b00: 21 3d 27 7a 27 29 20 29 7b 0a 20 20 20 20 20 20  !='z') ){.      
2b10: 20 7a 2b 2b 3b 0a 20 20 20 20 20 7d 65 6c 73 65   z++;.     }else
2b20: 20 69 66 28 20 6d 5f 65 71 5f 31 28 7a 29 20 26   if( m_eq_1(z) &
2b30: 26 20 73 74 61 72 5f 6f 68 28 7a 29 20 29 7b 0a  & star_oh(z) ){.
2b40: 20 20 20 20 20 20 20 2a 28 2d 2d 7a 29 20 3d 20         *(--z) = 
2b50: 27 65 27 3b 0a 20 20 20 20 20 7d 0a 20 20 7d 0a  'e';.     }.  }.
2b60: 0a 20 20 2f 2a 20 53 74 65 70 20 31 63 20 2a 2f  .  /* Step 1c */
2b70: 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 79 27  .  if( z[0]=='y'
2b80: 20 26 26 20 68 61 73 56 6f 77 65 6c 28 7a 2b 31   && hasVowel(z+1
2b90: 29 20 29 7b 0a 20 20 20 20 7a 5b 30 5d 20 3d 20  ) ){.    z[0] = 
2ba0: 27 69 27 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53  'i';.  }..  /* S
2bb0: 74 65 70 20 32 20 2a 2f 0a 20 20 73 77 69 74 63  tep 2 */.  switc
2bc0: 68 28 20 7a 5b 31 5d 20 29 7b 0a 20 20 20 63 61  h( z[1] ){.   ca
2bd0: 73 65 20 27 61 27 3a 0a 20 20 20 20 20 69 66 28  se 'a':.     if(
2be0: 20 21 73 74 65 6d 28 26 7a 2c 20 22 6c 61 6e 6f   !stem(&z, "lano
2bf0: 69 74 61 22 2c 20 22 61 74 65 22 2c 20 6d 5f 67  ita", "ate", m_g
2c00: 74 5f 30 29 20 29 7b 0a 20 20 20 20 20 20 20 73  t_0) ){.       s
2c10: 74 65 6d 28 26 7a 2c 20 22 6c 61 6e 6f 69 74 22  tem(&z, "lanoit"
2c20: 2c 20 22 74 69 6f 6e 22 2c 20 6d 5f 67 74 5f 30  , "tion", m_gt_0
2c30: 29 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62  );.     }.     b
2c40: 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 63  reak;.   case 'c
2c50: 27 3a 0a 20 20 20 20 20 69 66 28 20 21 73 74 65  ':.     if( !ste
2c60: 6d 28 26 7a 2c 20 22 69 63 6e 65 22 2c 20 22 65  m(&z, "icne", "e
2c70: 6e 63 65 22 2c 20 6d 5f 67 74 5f 30 29 20 29 7b  nce", m_gt_0) ){
2c80: 0a 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  .       stem(&z,
2c90: 20 22 69 63 6e 61 22 2c 20 22 61 6e 63 65 22 2c   "icna", "ance",
2ca0: 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 7d   m_gt_0);.     }
2cb0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
2cc0: 63 61 73 65 20 27 65 27 3a 0a 20 20 20 20 20 73  case 'e':.     s
2cd0: 74 65 6d 28 26 7a 2c 20 22 72 65 7a 69 22 2c 20  tem(&z, "rezi", 
2ce0: 22 69 7a 65 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a  "ize", m_gt_0);.
2cf0: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
2d00: 61 73 65 20 27 67 27 3a 0a 20 20 20 20 20 73 74  ase 'g':.     st
2d10: 65 6d 28 26 7a 2c 20 22 69 67 6f 6c 22 2c 20 22  em(&z, "igol", "
2d20: 6c 6f 67 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20  log", m_gt_0);. 
2d30: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61      break;.   ca
2d40: 73 65 20 27 6c 27 3a 0a 20 20 20 20 20 69 66 28  se 'l':.     if(
2d50: 20 21 73 74 65 6d 28 26 7a 2c 20 22 69 6c 62 22   !stem(&z, "ilb"
2d60: 2c 20 22 62 6c 65 22 2c 20 6d 5f 67 74 5f 30 29  , "ble", m_gt_0)
2d70: 20 0a 20 20 20 20 20 20 26 26 20 21 73 74 65 6d   .      && !stem
2d80: 28 26 7a 2c 20 22 69 6c 6c 61 22 2c 20 22 61 6c  (&z, "illa", "al
2d90: 22 2c 20 6d 5f 67 74 5f 30 29 0a 20 20 20 20 20  ", m_gt_0).     
2da0: 20 26 26 20 21 73 74 65 6d 28 26 7a 2c 20 22 69   && !stem(&z, "i
2db0: 6c 74 6e 65 22 2c 20 22 65 6e 74 22 2c 20 6d 5f  ltne", "ent", m_
2dc0: 67 74 5f 30 29 0a 20 20 20 20 20 20 26 26 20 21  gt_0).      && !
2dd0: 73 74 65 6d 28 26 7a 2c 20 22 69 6c 65 22 2c 20  stem(&z, "ile", 
2de0: 22 65 22 2c 20 6d 5f 67 74 5f 30 29 0a 20 20 20  "e", m_gt_0).   
2df0: 20 20 29 7b 0a 20 20 20 20 20 20 20 73 74 65 6d    ){.       stem
2e00: 28 26 7a 2c 20 22 69 6c 73 75 6f 22 2c 20 22 6f  (&z, "ilsuo", "o
2e10: 75 73 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20  us", m_gt_0);.  
2e20: 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b     }.     break;
2e30: 0a 20 20 20 63 61 73 65 20 27 6f 27 3a 0a 20 20  .   case 'o':.  
2e40: 20 20 20 69 66 28 20 21 73 74 65 6d 28 26 7a 2c     if( !stem(&z,
2e50: 20 22 6e 6f 69 74 61 7a 69 22 2c 20 22 69 7a 65   "noitazi", "ize
2e60: 22 2c 20 6d 5f 67 74 5f 30 29 0a 20 20 20 20 20  ", m_gt_0).     
2e70: 20 26 26 20 21 73 74 65 6d 28 26 7a 2c 20 22 6e   && !stem(&z, "n
2e80: 6f 69 74 61 22 2c 20 22 61 74 65 22 2c 20 6d 5f  oita", "ate", m_
2e90: 67 74 5f 30 29 0a 20 20 20 20 20 29 7b 0a 20 20  gt_0).     ){.  
2ea0: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 72       stem(&z, "r
2eb0: 6f 74 61 22 2c 20 22 61 74 65 22 2c 20 6d 5f 67  ota", "ate", m_g
2ec0: 74 5f 30 29 3b 0a 20 20 20 20 20 7d 0a 20 20 20  t_0);.     }.   
2ed0: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
2ee0: 20 27 73 27 3a 0a 20 20 20 20 20 69 66 28 20 21   's':.     if( !
2ef0: 73 74 65 6d 28 26 7a 2c 20 22 6d 73 69 6c 61 22  stem(&z, "msila"
2f00: 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29 0a  , "al", m_gt_0).
2f10: 20 20 20 20 20 20 26 26 20 21 73 74 65 6d 28 26        && !stem(&
2f20: 7a 2c 20 22 73 73 65 6e 65 76 69 22 2c 20 22 69  z, "ssenevi", "i
2f30: 76 65 22 2c 20 6d 5f 67 74 5f 30 29 0a 20 20 20  ve", m_gt_0).   
2f40: 20 20 20 26 26 20 21 73 74 65 6d 28 26 7a 2c 20     && !stem(&z, 
2f50: 22 73 73 65 6e 6c 75 66 22 2c 20 22 66 75 6c 22  "ssenluf", "ful"
2f60: 2c 20 6d 5f 67 74 5f 30 29 0a 20 20 20 20 20 29  , m_gt_0).     )
2f70: 7b 0a 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a  {.       stem(&z
2f80: 2c 20 22 73 73 65 6e 73 75 6f 22 2c 20 22 6f 75  , "ssensuo", "ou
2f90: 73 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20  s", m_gt_0);.   
2fa0: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
2fb0: 20 20 20 63 61 73 65 20 27 74 27 3a 0a 20 20 20     case 't':.   
2fc0: 20 20 69 66 28 20 21 73 74 65 6d 28 26 7a 2c 20    if( !stem(&z, 
2fd0: 22 69 74 69 6c 61 22 2c 20 22 61 6c 22 2c 20 6d  "itila", "al", m
2fe0: 5f 67 74 5f 30 29 0a 20 20 20 20 20 20 26 26 20  _gt_0).      && 
2ff0: 21 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 76 69  !stem(&z, "itivi
3000: 22 2c 20 22 69 76 65 22 2c 20 6d 5f 67 74 5f 30  ", "ive", m_gt_0
3010: 29 0a 20 20 20 20 20 29 7b 0a 20 20 20 20 20 20  ).     ){.      
3020: 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 6c 69   stem(&z, "itili
3030: 62 22 2c 20 22 62 6c 65 22 2c 20 6d 5f 67 74 5f  b", "ble", m_gt_
3040: 30 29 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20 20  0);.     }.     
3050: 62 72 65 61 6b 3b 0a 20 20 7d 0a 0a 20 20 2f 2a  break;.  }..  /*
3060: 20 53 74 65 70 20 33 20 2a 2f 0a 20 20 73 77 69   Step 3 */.  swi
3070: 74 63 68 28 20 7a 5b 30 5d 20 29 7b 0a 20 20 20  tch( z[0] ){.   
3080: 63 61 73 65 20 27 65 27 3a 0a 20 20 20 20 20 69  case 'e':.     i
3090: 66 28 20 21 73 74 65 6d 28 26 7a 2c 20 22 65 74  f( !stem(&z, "et
30a0: 61 63 69 22 2c 20 22 69 63 22 2c 20 6d 5f 67 74  aci", "ic", m_gt
30b0: 5f 30 29 0a 20 20 20 20 20 20 26 26 20 21 73 74  _0).      && !st
30c0: 65 6d 28 26 7a 2c 20 22 65 76 69 74 61 22 2c 20  em(&z, "evita", 
30d0: 22 22 2c 20 6d 5f 67 74 5f 30 29 0a 20 20 20 20  "", m_gt_0).    
30e0: 20 29 7b 0a 20 20 20 20 20 20 20 73 74 65 6d 28   ){.       stem(
30f0: 26 7a 2c 20 22 65 7a 69 6c 61 22 2c 20 22 61 6c  &z, "ezila", "al
3100: 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20  ", m_gt_0);.    
3110: 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20   }.     break;. 
3120: 20 20 63 61 73 65 20 27 69 27 3a 0a 20 20 20 20    case 'i':.    
3130: 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 63 69   stem(&z, "itici
3140: 22 2c 20 22 69 63 22 2c 20 6d 5f 67 74 5f 30 29  ", "ic", m_gt_0)
3150: 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  ;.     break;.  
3160: 20 63 61 73 65 20 27 6c 27 3a 0a 20 20 20 20 20   case 'l':.     
3170: 69 66 28 20 21 73 74 65 6d 28 26 7a 2c 20 22 6c  if( !stem(&z, "l
3180: 61 63 69 22 2c 20 22 69 63 22 2c 20 6d 5f 67 74  aci", "ic", m_gt
3190: 5f 30 29 20 29 7b 0a 20 20 20 20 20 20 20 73 74  _0) ){.       st
31a0: 65 6d 28 26 7a 2c 20 22 6c 75 66 22 2c 20 22 22  em(&z, "luf", ""
31b0: 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20  , m_gt_0);.     
31c0: 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  }.     break;.  
31d0: 20 63 61 73 65 20 27 73 27 3a 0a 20 20 20 20 20   case 's':.     
31e0: 73 74 65 6d 28 26 7a 2c 20 22 73 73 65 6e 22 2c  stem(&z, "ssen",
31f0: 20 22 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20   "", m_gt_0);.  
3200: 20 20 20 62 72 65 61 6b 3b 0a 20 20 7d 0a 0a 20     break;.  }.. 
3210: 20 2f 2a 20 53 74 65 70 20 34 20 2a 2f 0a 20 20   /* Step 4 */.  
3220: 73 77 69 74 63 68 28 20 7a 5b 31 5d 20 29 7b 0a  switch( z[1] ){.
3230: 20 20 20 63 61 73 65 20 27 61 27 3a 0a 20 20 20     case 'a':.   
3240: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 6c 27 20    if( z[0]=='l' 
3250: 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 32 29 20 29  && m_gt_1(z+2) )
3260: 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 32 3b  {.       z += 2;
3270: 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65  .     }.     bre
3280: 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 63 27 3a  ak;.   case 'c':
3290: 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d  .     if( z[0]==
32a0: 27 65 27 20 26 26 20 7a 5b 32 5d 3d 3d 27 6e 27  'e' && z[2]=='n'
32b0: 20 26 26 20 28 7a 5b 33 5d 3d 3d 27 61 27 20 7c   && (z[3]=='a' |
32c0: 7c 20 7a 5b 33 5d 3d 3d 27 65 27 29 20 20 26 26  | z[3]=='e')  &&
32d0: 20 6d 5f 67 74 5f 31 28 7a 2b 34 29 20 20 29 7b   m_gt_1(z+4)  ){
32e0: 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 34 3b 0a  .       z += 4;.
32f0: 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61       }.     brea
3300: 6b 3b 0a 20 20 20 63 61 73 65 20 27 65 27 3a 0a  k;.   case 'e':.
3310: 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27       if( z[0]=='
3320: 72 27 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 32  r' && m_gt_1(z+2
3330: 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d  ) ){.       z +=
3340: 20 32 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20 20   2;.     }.     
3350: 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27  break;.   case '
3360: 69 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b 30  i':.     if( z[0
3370: 5d 3d 3d 27 63 27 20 26 26 20 6d 5f 67 74 5f 31  ]=='c' && m_gt_1
3380: 28 7a 2b 32 29 20 29 7b 0a 20 20 20 20 20 20 20  (z+2) ){.       
3390: 7a 20 2b 3d 20 32 3b 0a 20 20 20 20 20 7d 0a 20  z += 2;.     }. 
33a0: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61      break;.   ca
33b0: 73 65 20 27 6c 27 3a 0a 20 20 20 20 20 69 66 28  se 'l':.     if(
33c0: 20 7a 5b 30 5d 3d 3d 27 65 27 20 26 26 20 7a 5b   z[0]=='e' && z[
33d0: 32 5d 3d 3d 27 62 27 20 26 26 20 28 7a 5b 33 5d  2]=='b' && (z[3]
33e0: 3d 3d 27 61 27 20 7c 7c 20 7a 5b 33 5d 3d 3d 27  =='a' || z[3]=='
33f0: 69 27 29 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b  i') && m_gt_1(z+
3400: 34 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b  4) ){.       z +
3410: 3d 20 34 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20  = 4;.     }.    
3420: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
3430: 27 6e 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  'n':.     if( z[
3440: 30 5d 3d 3d 27 74 27 20 29 7b 0a 20 20 20 20 20  0]=='t' ){.     
3450: 20 20 69 66 28 20 7a 5b 32 5d 3d 3d 27 61 27 20    if( z[2]=='a' 
3460: 29 7b 0a 20 20 20 20 20 20 20 20 20 69 66 28 20  ){.         if( 
3470: 6d 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20  m_gt_1(z+3) ){. 
3480: 20 20 20 20 20 20 20 20 20 20 7a 20 2b 3d 20 33            z += 3
3490: 3b 0a 20 20 20 20 20 20 20 20 20 7d 0a 20 20 20  ;.         }.   
34a0: 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 7a 5b      }else if( z[
34b0: 32 5d 3d 3d 27 65 27 20 29 7b 0a 20 20 20 20 20  2]=='e' ){.     
34c0: 20 20 20 20 69 66 28 20 21 73 74 65 6d 28 26 7a      if( !stem(&z
34d0: 2c 20 22 74 6e 65 6d 65 22 2c 20 22 22 2c 20 6d  , "tneme", "", m
34e0: 5f 67 74 5f 31 29 0a 20 20 20 20 20 20 20 20 20  _gt_1).         
34f0: 20 26 26 20 21 73 74 65 6d 28 26 7a 2c 20 22 74   && !stem(&z, "t
3500: 6e 65 6d 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 31  nem", "", m_gt_1
3510: 29 0a 20 20 20 20 20 20 20 20 20 29 7b 0a 20 20  ).         ){.  
3520: 20 20 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a           stem(&z
3530: 2c 20 22 74 6e 65 22 2c 20 22 22 2c 20 6d 5f 67  , "tne", "", m_g
3540: 74 5f 31 29 3b 0a 20 20 20 20 20 20 20 20 20 7d  t_1);.         }
3550: 0a 20 20 20 20 20 20 20 7d 0a 20 20 20 20 20 7d  .       }.     }
3560: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
3570: 63 61 73 65 20 27 6f 27 3a 0a 20 20 20 20 20 69  case 'o':.     i
3580: 66 28 20 7a 5b 30 5d 3d 3d 27 75 27 20 29 7b 0a  f( z[0]=='u' ){.
3590: 20 20 20 20 20 20 20 69 66 28 20 6d 5f 67 74 5f         if( m_gt_
35a0: 31 28 7a 2b 32 29 20 29 7b 0a 20 20 20 20 20 20  1(z+2) ){.      
35b0: 20 20 20 7a 20 2b 3d 20 32 3b 0a 20 20 20 20 20     z += 2;.     
35c0: 20 20 7d 0a 20 20 20 20 20 7d 65 6c 73 65 20 69    }.     }else i
35d0: 66 28 20 7a 5b 33 5d 3d 3d 27 73 27 20 7c 7c 20  f( z[3]=='s' || 
35e0: 7a 5b 33 5d 3d 3d 27 74 27 20 29 7b 0a 20 20 20  z[3]=='t' ){.   
35f0: 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 6e 6f      stem(&z, "no
3600: 69 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 31 29 3b  i", "", m_gt_1);
3610: 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65  .     }.     bre
3620: 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 73 27 3a  ak;.   case 's':
3630: 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d  .     if( z[0]==
3640: 27 6d 27 20 26 26 20 7a 5b 32 5d 3d 3d 27 69 27  'm' && z[2]=='i'
3650: 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 33 29 20   && m_gt_1(z+3) 
3660: 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 33  ){.       z += 3
3670: 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72  ;.     }.     br
3680: 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 74 27  eak;.   case 't'
3690: 3a 0a 20 20 20 20 20 69 66 28 20 21 73 74 65 6d  :.     if( !stem
36a0: 28 26 7a 2c 20 22 65 74 61 22 2c 20 22 22 2c 20  (&z, "eta", "", 
36b0: 6d 5f 67 74 5f 31 29 20 29 7b 0a 20 20 20 20 20  m_gt_1) ){.     
36c0: 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 22    stem(&z, "iti"
36d0: 2c 20 22 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a 20  , "", m_gt_1);. 
36e0: 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b      }.     break
36f0: 3b 0a 20 20 20 63 61 73 65 20 27 75 27 3a 0a 20  ;.   case 'u':. 
3700: 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 73      if( z[0]=='s
3710: 27 20 26 26 20 7a 5b 32 5d 3d 3d 27 6f 27 20 26  ' && z[2]=='o' &
3720: 26 20 6d 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b  & m_gt_1(z+3) ){
3730: 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 33 3b 0a  .       z += 3;.
3740: 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61       }.     brea
3750: 6b 3b 0a 20 20 20 63 61 73 65 20 27 76 27 3a 0a  k;.   case 'v':.
3760: 20 20 20 63 61 73 65 20 27 7a 27 3a 0a 20 20 20     case 'z':.   
3770: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 65 27 20    if( z[0]=='e' 
3780: 26 26 20 7a 5b 32 5d 3d 3d 27 69 27 20 26 26 20  && z[2]=='i' && 
3790: 6d 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20  m_gt_1(z+3) ){. 
37a0: 20 20 20 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20        z += 3;.  
37b0: 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b     }.     break;
37c0: 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20  .  }..  /* Step 
37d0: 35 61 20 2a 2f 0a 20 20 69 66 28 20 7a 5b 30 5d  5a */.  if( z[0]
37e0: 3d 3d 27 65 27 20 29 7b 0a 20 20 20 20 69 66 28  =='e' ){.    if(
37f0: 20 6d 5f 67 74 5f 31 28 7a 2b 31 29 20 29 7b 0a   m_gt_1(z+1) ){.
3800: 20 20 20 20 20 20 7a 2b 2b 3b 0a 20 20 20 20 7d        z++;.    }
3810: 65 6c 73 65 20 69 66 28 20 6d 5f 65 71 5f 31 28  else if( m_eq_1(
3820: 7a 2b 31 29 20 26 26 20 21 73 74 61 72 5f 6f 68  z+1) && !star_oh
3830: 28 7a 2b 31 29 20 29 7b 0a 20 20 20 20 20 20 7a  (z+1) ){.      z
3840: 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20  ++;.    }.  }.. 
3850: 20 2f 2a 20 53 74 65 70 20 35 62 20 2a 2f 0a 20   /* Step 5b */. 
3860: 20 69 66 28 20 6d 5f 67 74 5f 31 28 7a 29 20 26   if( m_gt_1(z) &
3870: 26 20 7a 5b 30 5d 3d 3d 27 6c 27 20 26 26 20 7a  & z[0]=='l' && z
3880: 5b 31 5d 3d 3d 27 6c 27 20 29 7b 0a 20 20 20 20  [1]=='l' ){.    
3890: 7a 2b 2b 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 7a  z++;.  }..  /* z
38a0: 5b 5d 20 69 73 20 6e 6f 77 20 74 68 65 20 73 74  [] is now the st
38b0: 65 6d 6d 65 64 20 77 6f 72 64 20 69 6e 20 72 65  emmed word in re
38c0: 76 65 72 73 65 20 6f 72 64 65 72 2e 20 20 46 6c  verse order.  Fl
38d0: 69 70 20 69 74 20 62 61 63 6b 0a 20 20 2a 2a 20  ip it back.  ** 
38e0: 61 72 6f 75 6e 64 20 69 6e 74 6f 20 66 6f 72 77  around into forw
38f0: 61 72 64 20 6f 72 64 65 72 20 61 6e 64 20 72 65  ard order and re
3900: 74 75 72 6e 2e 0a 20 20 2a 2f 0a 20 20 2a 70 6e  turn..  */.  *pn
3910: 4f 75 74 20 3d 20 69 20 3d 20 28 69 6e 74 29 73  Out = i = (int)s
3920: 74 72 6c 65 6e 28 7a 29 3b 0a 20 20 7a 4f 75 74  trlen(z);.  zOut
3930: 5b 69 5d 20 3d 20 30 3b 0a 20 20 77 68 69 6c 65  [i] = 0;.  while
3940: 28 20 2a 7a 20 29 7b 0a 20 20 20 20 7a 4f 75 74  ( *z ){.    zOut
3950: 5b 2d 2d 69 5d 20 3d 20 2a 28 7a 2b 2b 29 3b 0a  [--i] = *(z++);.
3960: 20 20 7d 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 68 61    }.}../*.** Cha
3970: 72 61 63 74 65 72 73 20 74 68 61 74 20 63 61 6e  racters that can
3980: 20 62 65 20 70 61 72 74 20 6f 66 20 61 20 74 6f   be part of a to
3990: 6b 65 6e 2e 20 20 57 65 20 61 73 73 75 6d 65 20  ken.  We assume 
39a0: 61 6e 79 20 63 68 61 72 61 63 74 65 72 0a 2a 2a  any character.**
39b0: 20 77 68 6f 73 65 20 76 61 6c 75 65 20 69 73 20   whose value is 
39c0: 67 72 65 61 74 65 72 20 74 68 61 6e 20 30 78 38  greater than 0x8
39d0: 30 20 28 61 6e 79 20 55 54 46 20 63 68 61 72 61  0 (any UTF chara
39e0: 63 74 65 72 29 20 63 61 6e 20 62 65 0a 2a 2a 20  cter) can be.** 
39f0: 70 61 72 74 20 6f 66 20 61 20 74 6f 6b 65 6e 2e  part of a token.
3a00: 20 20 49 6e 20 6f 74 68 65 72 20 77 6f 72 64 73    In other words
3a10: 2c 20 64 65 6c 69 6d 69 74 65 72 73 20 61 6c 6c  , delimiters all
3a20: 20 6d 75 73 74 20 68 61 76 65 0a 2a 2a 20 76 61   must have.** va
3a30: 6c 75 65 73 20 6f 66 20 30 78 37 66 20 6f 72 20  lues of 0x7f or 
3a40: 6c 6f 77 65 72 2e 0a 2a 2f 0a 73 74 61 74 69 63  lower..*/.static
3a50: 20 63 6f 6e 73 74 20 63 68 61 72 20 70 6f 72 74   const char port
3a60: 65 72 49 64 43 68 61 72 5b 5d 20 3d 20 7b 0a 2f  erIdChar[] = {./
3a70: 2a 20 78 30 20 78 31 20 78 32 20 78 33 20 78 34  * x0 x1 x2 x3 x4
3a80: 20 78 35 20 78 36 20 78 37 20 78 38 20 78 39 20   x5 x6 x7 x8 x9 
3a90: 78 41 20 78 42 20 78 43 20 78 44 20 78 45 20 78  xA xB xC xD xE x
3aa0: 46 20 2a 2f 0a 20 20 20 20 31 2c 20 31 2c 20 31  F */.    1, 1, 1
3ab0: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3ac0: 20 31 2c 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20   1, 1, 0, 0, 0, 
3ad0: 30 2c 20 30 2c 20 30 2c 20 20 2f 2a 20 33 78 20  0, 0, 0,  /* 3x 
3ae0: 2a 2f 0a 20 20 20 20 30 2c 20 31 2c 20 31 2c 20  */.    0, 1, 1, 
3af0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3b00: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3b10: 20 31 2c 20 31 2c 20 20 2f 2a 20 34 78 20 2a 2f   1, 1,  /* 4x */
3b20: 0a 20 20 20 20 31 2c 20 31 2c 20 31 2c 20 31 2c  .    1, 1, 1, 1,
3b30: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3b40: 31 2c 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20 30  1, 1, 0, 0, 0, 0
3b50: 2c 20 31 2c 20 20 2f 2a 20 35 78 20 2a 2f 0a 20  , 1,  /* 5x */. 
3b60: 20 20 20 30 2c 20 31 2c 20 31 2c 20 31 2c 20 31     0, 1, 1, 1, 1
3b70: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3b80: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3b90: 31 2c 20 20 2f 2a 20 36 78 20 2a 2f 0a 20 20 20  1,  /* 6x */.   
3ba0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3bb0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3bc0: 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c  , 0, 0, 0, 0, 0,
3bd0: 20 20 2f 2a 20 37 78 20 2a 2f 0a 7d 3b 0a 23 64    /* 7x */.};.#d
3be0: 65 66 69 6e 65 20 69 73 44 65 6c 69 6d 28 43 29  efine isDelim(C)
3bf0: 20 28 28 28 63 68 3d 43 29 26 30 78 38 30 29 3d   (((ch=C)&0x80)=
3c00: 3d 30 20 26 26 20 28 63 68 3c 30 78 33 30 20 7c  =0 && (ch<0x30 |
3c10: 7c 20 21 70 6f 72 74 65 72 49 64 43 68 61 72 5b  | !porterIdChar[
3c20: 63 68 2d 30 78 33 30 5d 29 29 0a 0a 2f 2a 0a 2a  ch-0x30]))../*.*
3c30: 2a 20 45 78 74 72 61 63 74 20 74 68 65 20 6e 65  * Extract the ne
3c40: 78 74 20 74 6f 6b 65 6e 20 66 72 6f 6d 20 61 20  xt token from a 
3c50: 74 6f 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75 72  tokenization cur
3c60: 73 6f 72 2e 20 20 54 68 65 20 63 75 72 73 6f 72  sor.  The cursor
3c70: 20 6d 75 73 74 0a 2a 2a 20 68 61 76 65 20 62 65   must.** have be
3c80: 65 6e 20 6f 70 65 6e 65 64 20 62 79 20 61 20 70  en opened by a p
3c90: 72 69 6f 72 20 63 61 6c 6c 20 74 6f 20 70 6f 72  rior call to por
3ca0: 74 65 72 4f 70 65 6e 28 29 2e 0a 2a 2f 0a 73 74  terOpen()..*/.st
3cb0: 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72 4e  atic int porterN
3cc0: 65 78 74 28 0a 20 20 73 71 6c 69 74 65 33 5f 74  ext(.  sqlite3_t
3cd0: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
3ce0: 2a 70 43 75 72 73 6f 72 2c 20 20 2f 2a 20 43 75  *pCursor,  /* Cu
3cf0: 72 73 6f 72 20 72 65 74 75 72 6e 65 64 20 62 79  rsor returned by
3d00: 20 70 6f 72 74 65 72 4f 70 65 6e 20 2a 2f 0a 20   porterOpen */. 
3d10: 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a 70 7a   const char **pz
3d20: 54 6f 6b 65 6e 2c 20 20 20 20 20 20 20 20 20 20  Token,          
3d30: 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 2a 70 7a       /* OUT: *pz
3d40: 54 6f 6b 65 6e 20 69 73 20 74 68 65 20 74 6f 6b  Token is the tok
3d50: 65 6e 20 74 65 78 74 20 2a 2f 0a 20 20 69 6e 74  en text */.  int
3d60: 20 2a 70 6e 42 79 74 65 73 2c 20 20 20 20 20 20   *pnBytes,      
3d70: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3d80: 20 2f 2a 20 4f 55 54 3a 20 4e 75 6d 62 65 72 20   /* OUT: Number 
3d90: 6f 66 20 62 79 74 65 73 20 69 6e 20 74 6f 6b 65  of bytes in toke
3da0: 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69 53 74  n */.  int *piSt
3db0: 61 72 74 4f 66 66 73 65 74 2c 20 20 20 20 20 20  artOffset,      
3dc0: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55             /* OU
3dd0: 54 3a 20 53 74 61 72 74 69 6e 67 20 6f 66 66 73  T: Starting offs
3de0: 65 74 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 20  et of token */. 
3df0: 20 69 6e 74 20 2a 70 69 45 6e 64 4f 66 66 73 65   int *piEndOffse
3e00: 74 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20  t,              
3e10: 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 45 6e 64       /* OUT: End
3e20: 69 6e 67 20 6f 66 66 73 65 74 20 6f 66 20 74 6f  ing offset of to
3e30: 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69  ken */.  int *pi
3e40: 50 6f 73 69 74 69 6f 6e 20 20 20 20 20 20 20 20  Position        
3e50: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
3e60: 4f 55 54 3a 20 50 6f 73 69 74 69 6f 6e 20 69 6e  OUT: Position in
3e70: 74 65 67 65 72 20 6f 66 20 74 6f 6b 65 6e 20 2a  teger of token *
3e80: 2f 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74 6f  /.){.  porter_to
3e90: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a  kenizer_cursor *
3ea0: 63 20 3d 20 28 70 6f 72 74 65 72 5f 74 6f 6b 65  c = (porter_toke
3eb0: 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 29 20  nizer_cursor *) 
3ec0: 70 43 75 72 73 6f 72 3b 0a 20 20 63 6f 6e 73 74  pCursor;.  const
3ed0: 20 63 68 61 72 20 2a 7a 20 3d 20 63 2d 3e 7a 49   char *z = c->zI
3ee0: 6e 70 75 74 3b 0a 0a 20 20 77 68 69 6c 65 28 20  nput;..  while( 
3ef0: 63 2d 3e 69 4f 66 66 73 65 74 3c 63 2d 3e 6e 49  c->iOffset<c->nI
3f00: 6e 70 75 74 20 29 7b 0a 20 20 20 20 69 6e 74 20  nput ){.    int 
3f10: 69 53 74 61 72 74 4f 66 66 73 65 74 2c 20 63 68  iStartOffset, ch
3f20: 3b 0a 0a 20 20 20 20 2f 2a 20 53 63 61 6e 20 70  ;..    /* Scan p
3f30: 61 73 74 20 64 65 6c 69 6d 69 74 65 72 20 63 68  ast delimiter ch
3f40: 61 72 61 63 74 65 72 73 20 2a 2f 0a 20 20 20 20  aracters */.    
3f50: 77 68 69 6c 65 28 20 63 2d 3e 69 4f 66 66 73 65  while( c->iOffse
3f60: 74 3c 63 2d 3e 6e 49 6e 70 75 74 20 26 26 20 69  t<c->nInput && i
3f70: 73 44 65 6c 69 6d 28 7a 5b 63 2d 3e 69 4f 66 66  sDelim(z[c->iOff
3f80: 73 65 74 5d 29 20 29 7b 0a 20 20 20 20 20 20 63  set]) ){.      c
3f90: 2d 3e 69 4f 66 66 73 65 74 2b 2b 3b 0a 20 20 20  ->iOffset++;.   
3fa0: 20 7d 0a 0a 20 20 20 20 2f 2a 20 43 6f 75 6e 74   }..    /* Count
3fb0: 20 6e 6f 6e 2d 64 65 6c 69 6d 69 74 65 72 20 63   non-delimiter c
3fc0: 68 61 72 61 63 74 65 72 73 2e 20 2a 2f 0a 20 20  haracters. */.  
3fd0: 20 20 69 53 74 61 72 74 4f 66 66 73 65 74 20 3d    iStartOffset =
3fe0: 20 63 2d 3e 69 4f 66 66 73 65 74 3b 0a 20 20 20   c->iOffset;.   
3ff0: 20 77 68 69 6c 65 28 20 63 2d 3e 69 4f 66 66 73   while( c->iOffs
4000: 65 74 3c 63 2d 3e 6e 49 6e 70 75 74 20 26 26 20  et<c->nInput && 
4010: 21 69 73 44 65 6c 69 6d 28 7a 5b 63 2d 3e 69 4f  !isDelim(z[c->iO
4020: 66 66 73 65 74 5d 29 20 29 7b 0a 20 20 20 20 20  ffset]) ){.     
4030: 20 63 2d 3e 69 4f 66 66 73 65 74 2b 2b 3b 0a 20   c->iOffset++;. 
4040: 20 20 20 7d 0a 0a 20 20 20 20 69 66 28 20 63 2d     }..    if( c-
4050: 3e 69 4f 66 66 73 65 74 3e 69 53 74 61 72 74 4f  >iOffset>iStartO
4060: 66 66 73 65 74 20 29 7b 0a 20 20 20 20 20 20 69  ffset ){.      i
4070: 6e 74 20 6e 20 3d 20 63 2d 3e 69 4f 66 66 73 65  nt n = c->iOffse
4080: 74 2d 69 53 74 61 72 74 4f 66 66 73 65 74 3b 0a  t-iStartOffset;.
4090: 20 20 20 20 20 20 69 66 28 20 6e 3e 63 2d 3e 6e        if( n>c->n
40a0: 41 6c 6c 6f 63 61 74 65 64 20 29 7b 0a 20 20 20  Allocated ){.   
40b0: 20 20 20 20 20 63 68 61 72 20 2a 70 4e 65 77 3b       char *pNew;
40c0: 0a 20 20 20 20 20 20 20 20 63 2d 3e 6e 41 6c 6c  .        c->nAll
40d0: 6f 63 61 74 65 64 20 3d 20 6e 2b 32 30 3b 0a 20  ocated = n+20;. 
40e0: 20 20 20 20 20 20 20 70 4e 65 77 20 3d 20 73 71         pNew = sq
40f0: 6c 69 74 65 33 5f 72 65 61 6c 6c 6f 63 28 63 2d  lite3_realloc(c-
4100: 3e 7a 54 6f 6b 65 6e 2c 20 63 2d 3e 6e 41 6c 6c  >zToken, c->nAll
4110: 6f 63 61 74 65 64 29 3b 0a 20 20 20 20 20 20 20  ocated);.       
4120: 20 69 66 28 20 21 70 4e 65 77 20 29 20 72 65 74   if( !pNew ) ret
4130: 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d  urn SQLITE_NOMEM
4140: 3b 0a 20 20 20 20 20 20 20 20 63 2d 3e 7a 54 6f  ;.        c->zTo
4150: 6b 65 6e 20 3d 20 70 4e 65 77 3b 0a 20 20 20 20  ken = pNew;.    
4160: 20 20 7d 0a 20 20 20 20 20 20 70 6f 72 74 65 72    }.      porter
4170: 5f 73 74 65 6d 6d 65 72 28 26 7a 5b 69 53 74 61  _stemmer(&z[iSta
4180: 72 74 4f 66 66 73 65 74 5d 2c 20 6e 2c 20 63 2d  rtOffset], n, c-
4190: 3e 7a 54 6f 6b 65 6e 2c 20 70 6e 42 79 74 65 73  >zToken, pnBytes
41a0: 29 3b 0a 20 20 20 20 20 20 2a 70 7a 54 6f 6b 65  );.      *pzToke
41b0: 6e 20 3d 20 63 2d 3e 7a 54 6f 6b 65 6e 3b 0a 20  n = c->zToken;. 
41c0: 20 20 20 20 20 2a 70 69 53 74 61 72 74 4f 66 66       *piStartOff
41d0: 73 65 74 20 3d 20 69 53 74 61 72 74 4f 66 66 73  set = iStartOffs
41e0: 65 74 3b 0a 20 20 20 20 20 20 2a 70 69 45 6e 64  et;.      *piEnd
41f0: 4f 66 66 73 65 74 20 3d 20 63 2d 3e 69 4f 66 66  Offset = c->iOff
4200: 73 65 74 3b 0a 20 20 20 20 20 20 2a 70 69 50 6f  set;.      *piPo
4210: 73 69 74 69 6f 6e 20 3d 20 63 2d 3e 69 54 6f 6b  sition = c->iTok
4220: 65 6e 2b 2b 3b 0a 20 20 20 20 20 20 72 65 74 75  en++;.      retu
4230: 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 20 20  rn SQLITE_OK;.  
4240: 20 20 7d 0a 20 20 7d 0a 20 20 72 65 74 75 72 6e    }.  }.  return
4250: 20 53 51 4c 49 54 45 5f 44 4f 4e 45 3b 0a 7d 0a   SQLITE_DONE;.}.
4260: 0a 2f 2a 0a 2a 2a 20 54 68 65 20 73 65 74 20 6f  ./*.** The set o
4270: 66 20 72 6f 75 74 69 6e 65 73 20 74 68 61 74 20  f routines that 
4280: 69 6d 70 6c 65 6d 65 6e 74 20 74 68 65 20 70 6f  implement the po
4290: 72 74 65 72 2d 73 74 65 6d 6d 65 72 20 74 6f 6b  rter-stemmer tok
42a0: 65 6e 69 7a 65 72 0a 2a 2f 0a 73 74 61 74 69 63  enizer.*/.static
42b0: 20 63 6f 6e 73 74 20 73 71 6c 69 74 65 33 5f 74   const sqlite3_t
42c0: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20  okenizer_module 
42d0: 70 6f 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 4d  porterTokenizerM
42e0: 6f 64 75 6c 65 20 3d 20 7b 0a 20 20 30 2c 0a 20  odule = {.  0,. 
42f0: 20 70 6f 72 74 65 72 43 72 65 61 74 65 2c 0a 20   porterCreate,. 
4300: 20 70 6f 72 74 65 72 44 65 73 74 72 6f 79 2c 0a   porterDestroy,.
4310: 20 20 70 6f 72 74 65 72 4f 70 65 6e 2c 0a 20 20    porterOpen,.  
4320: 70 6f 72 74 65 72 43 6c 6f 73 65 2c 0a 20 20 70  porterClose,.  p
4330: 6f 72 74 65 72 4e 65 78 74 2c 0a 20 20 30 0a 7d  orterNext,.  0.}
4340: 3b 0a 0a 2f 2a 0a 2a 2a 20 41 6c 6c 6f 63 61 74  ;../*.** Allocat
4350: 65 20 61 20 6e 65 77 20 70 6f 72 74 65 72 20 74  e a new porter t
4360: 6f 6b 65 6e 69 7a 65 72 2e 20 20 52 65 74 75 72  okenizer.  Retur
4370: 6e 20 61 20 70 6f 69 6e 74 65 72 20 74 6f 20 74  n a pointer to t
4380: 68 65 20 6e 65 77 0a 2a 2a 20 74 6f 6b 65 6e 69  he new.** tokeni
4390: 7a 65 72 20 69 6e 20 2a 70 70 4d 6f 64 75 6c 65  zer in *ppModule
43a0: 0a 2a 2f 0a 76 6f 69 64 20 73 71 6c 69 74 65 33  .*/.void sqlite3
43b0: 46 74 73 33 50 6f 72 74 65 72 54 6f 6b 65 6e 69  Fts3PorterTokeni
43c0: 7a 65 72 4d 6f 64 75 6c 65 28 0a 20 20 73 71 6c  zerModule(.  sql
43d0: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d  ite3_tokenizer_m
43e0: 6f 64 75 6c 65 20 63 6f 6e 73 74 2a 2a 70 70 4d  odule const**ppM
43f0: 6f 64 75 6c 65 0a 29 7b 0a 20 20 2a 70 70 4d 6f  odule.){.  *ppMo
4400: 64 75 6c 65 20 3d 20 26 70 6f 72 74 65 72 54 6f  dule = &porterTo
4410: 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 3b 0a 7d  kenizerModule;.}
4420: 0a 0a 23 65 6e 64 69 66 20 2f 2a 20 21 64 65 66  ..#endif /* !def
4430: 69 6e 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45  ined(SQLITE_CORE
4440: 29 20 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c  ) || defined(SQL
4450: 49 54 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33 29  ITE_ENABLE_FTS3)
4460: 20 2a 2f 0a                                       */.