apache · ajantha-bhat · Jan 2, 2025 · Jan 3, 2025 · Jan 3, 2025 · Jan 3, 2025
diff --git a/api/src/test/java/org/apache/iceberg/util/RandomUtil.java b/api/src/test/java/org/apache/iceberg/util/RandomUtil.java
@@ -237,7 +237,7 @@ private static BigInteger randomUnscaled(int precision, Random random) {
   }
 
   public static List<Object> generateList(
-      Random random, Types.ListType list, Supplier<Object> elementResult) {
+      Random random, Types.ListType list, Supplier<Object> elementSupplier) {
     int numElements = random.nextInt(20);
 
     List<Object> result = Lists.newArrayListWithExpectedSize(numElements);
@@ -246,23 +246,26 @@ public static List<Object> generateList(
       if (list.isElementOptional() && random.nextInt(20) == 1) {
         result.add(null);
       } else {
-        result.add(elementResult.get());
+        result.add(elementSupplier.get());
       }
     }
 
     return result;
   }
 
   public static Map<Object, Object> generateMap(
-      Random random, Types.MapType map, Supplier<Object> keyResult, Supplier<Object> valueResult) {
+      Random random,
+      Types.MapType map,
+      Supplier<Object> keySupplier,
+      Supplier<Object> valueSupplier) {
     int numEntries = random.nextInt(20);
 
     Map<Object, Object> result = Maps.newLinkedHashMap();
     Supplier<Object> keyFunc;
     if (map.keyType() == Types.StringType.get()) {
-      keyFunc = () -> keyResult.get().toString();
+      keyFunc = () -> keySupplier.get().toString();
     } else {
-      keyFunc = keyResult;
+      keyFunc = keySupplier;
     }
 
     Set<Object> keySet = Sets.newHashSet();
@@ -279,7 +282,7 @@ public static Map<Object, Object> generateMap(
       if (map.isValueOptional() && random.nextInt(20) == 1) {
         result.put(key, null);
       } else {
-        result.put(key, valueResult.get());
+        result.put(key, valueSupplier.get());
       }
     }
 

diff --git a/parquet/src/main/java/org/apache/iceberg/data/parquet/BaseParquetReaders.java b/parquet/src/main/java/org/apache/iceberg/data/parquet/BaseParquetReaders.java
@@ -50,6 +50,10 @@
 import org.apache.parquet.schema.PrimitiveType;
 import org.apache.parquet.schema.Type;
 
+/**
+ * @deprecated since 1.8.0, will be made package-private in 1.9.0
+ */
+@Deprecated
 public abstract class BaseParquetReaders<T> {
   protected BaseParquetReaders() {}
 
@@ -76,6 +80,46 @@ protected ParquetValueReader<T> createReader(
   protected abstract ParquetValueReader<T> createStructReader(
       List<Type> types, List<ParquetValueReader<?>> fieldReaders, Types.StructType structType);
 
+  protected ParquetValueReader<?> fixedReader(ColumnDescriptor desc) {
+    return new FixedReader(desc);
+  }
+
+  protected ParquetValueReader<?> dateReader(ColumnDescriptor desc) {
+    return new DateReader(desc);
+  }
+
+  protected ParquetValueReader<?> timeReader(
+      ColumnDescriptor desc, LogicalTypeAnnotation.TimeUnit unit) {
+    switch (unit) {
+      case MICROS:
+        return new TimeReader(desc);
+      case MILLIS:
+        return new TimeMillisReader(desc);
+      default:
+        throw new UnsupportedOperationException("Unsupported Unit: " + unit);
+    }
+  }
+
+  protected ParquetValueReader<?> timestampReader(
+      ColumnDescriptor desc, LogicalTypeAnnotation.TimeUnit unit, boolean isAdjustedToUTC) {
+    switch (unit) {
+      case MICROS:
+        return isAdjustedToUTC ? new TimestamptzReader(desc) : new TimestampReader(desc);
+      case MILLIS:
+        return isAdjustedToUTC
+            ? new TimestamptzMillisReader(desc)
+            : new TimestampMillisReader(desc);
+      case NANOS:
+        if (isAdjustedToUTC) {
+          return new TimestampInt96Reader(desc);
+        } else {
+          throw new UnsupportedOperationException("Nanos should be adjusted to UTC");
+        }
+      default:
+        throw new UnsupportedOperationException("Unsupported Unit: " + unit);
+    }
+  }
+
   protected Object convertConstant(org.apache.iceberg.types.Type type, Object value) {
     return value;
   }
@@ -164,37 +208,23 @@ public Optional<ParquetValueReader<?>> visit(DecimalLogicalTypeAnnotation decima
     @Override
     public Optional<ParquetValueReader<?>> visit(
         LogicalTypeAnnotation.DateLogicalTypeAnnotation dateLogicalType) {
-      return Optional.of(new DateReader(desc));
+      return Optional.of(dateReader(desc));
     }
 
     @Override
     public Optional<ParquetValueReader<?>> visit(
         LogicalTypeAnnotation.TimeLogicalTypeAnnotation timeLogicalType) {
-      if (timeLogicalType.getUnit() == LogicalTypeAnnotation.TimeUnit.MICROS) {
-        return Optional.of(new TimeReader(desc));
-      } else if (timeLogicalType.getUnit() == LogicalTypeAnnotation.TimeUnit.MILLIS) {
-        return Optional.of(new TimeMillisReader(desc));
-      }
-
-      return Optional.empty();
+      return Optional.of(timeReader(desc, timeLogicalType.getUnit()));
     }
 
     @Override
     public Optional<ParquetValueReader<?>> visit(
         LogicalTypeAnnotation.TimestampLogicalTypeAnnotation timestampLogicalType) {
-      if (timestampLogicalType.getUnit() == LogicalTypeAnnotation.TimeUnit.MICROS) {
-        Types.TimestampType tsMicrosType = (Types.TimestampType) expected;
-        return tsMicrosType.shouldAdjustToUTC()
-            ? Optional.of(new TimestamptzReader(desc))
-            : Optional.of(new TimestampReader(desc));
-      } else if (timestampLogicalType.getUnit() == LogicalTypeAnnotation.TimeUnit.MILLIS) {
-        Types.TimestampType tsMillisType = (Types.TimestampType) expected;
-        return tsMillisType.shouldAdjustToUTC()
-            ? Optional.of(new TimestamptzMillisReader(desc))
-            : Optional.of(new TimestampMillisReader(desc));
-      }
-
-      return LogicalTypeAnnotation.LogicalTypeAnnotationVisitor.super.visit(timestampLogicalType);
+      return Optional.of(
+          timestampReader(
+              desc,
+              timestampLogicalType.getUnit(),
+              ((Types.TimestampType) expected).shouldAdjustToUTC()));
     }
 
     @Override
@@ -219,6 +249,12 @@ public Optional<ParquetValueReader<?>> visit(
         LogicalTypeAnnotation.BsonLogicalTypeAnnotation bsonLogicalType) {
       return Optional.of(new ParquetValueReaders.BytesReader(desc));
     }
+
+    @Override
+    public Optional<ParquetValueReader<?>> visit(
+        LogicalTypeAnnotation.UUIDLogicalTypeAnnotation uuidLogicalType) {
+      return Optional.of(ParquetValueReaders.uuids(desc));
+    }
   }
 
   private class ReadBuilder extends TypeWithSchemaVisitor<ParquetValueReader<?>> {
@@ -359,7 +395,7 @@ public ParquetValueReader<?> primitive(
 
       ColumnDescriptor desc = type.getColumnDescription(currentPath());
 
-      if (primitive.getOriginalType() != null) {
+      if (primitive.getLogicalTypeAnnotation() != null) {
         return primitive
             .getLogicalTypeAnnotation()
             .accept(new LogicalTypeAnnotationParquetValueReaderVisitor(desc, expected, primitive))
@@ -371,7 +407,7 @@ public ParquetValueReader<?> primitive(
 
       switch (primitive.getPrimitiveTypeName()) {
         case FIXED_LEN_BYTE_ARRAY:
-          return new FixedReader(desc);
+          return fixedReader(desc);
         case BINARY:
           if (expected.typeId() == org.apache.iceberg.types.Type.TypeID.STRING) {
             return new ParquetValueReaders.StringReader(desc);
@@ -397,7 +433,7 @@ public ParquetValueReader<?> primitive(
         case INT96:
           // Impala & Spark used to write timestamps as INT96 without a logical type. For backwards
           // compatibility we try to read INT96 as timestamps.
-          return new TimestampInt96Reader(desc);
+          return timestampReader(desc, LogicalTypeAnnotation.TimeUnit.NANOS, true);
         default:
           throw new UnsupportedOperationException("Unsupported type: " + primitive);
       }
@@ -497,7 +533,7 @@ private TimeMillisReader(ColumnDescriptor desc) {
 
     @Override
     public LocalTime read(LocalTime reuse) {
-      return LocalTime.ofNanoOfDay(column.nextLong() * 1000000L);
+      return LocalTime.ofNanoOfDay(column.nextInteger() * 1000000L);
     }
   }
 

diff --git a/parquet/src/main/java/org/apache/iceberg/data/parquet/BaseParquetWriter.java b/parquet/src/main/java/org/apache/iceberg/data/parquet/BaseParquetWriter.java
@@ -40,6 +40,10 @@
 import org.apache.parquet.schema.PrimitiveType;
 import org.apache.parquet.schema.Type;
 
+/**
+ * @deprecated since 1.8.0, will be made package-private in 1.9.0
+ */
+@Deprecated
 public abstract class BaseParquetWriter<T> {
 
   @SuppressWarnings("unchecked")
@@ -50,6 +54,32 @@ protected ParquetValueWriter<T> createWriter(MessageType type) {
   protected abstract ParquetValueWriters.StructWriter<T> createStructWriter(
       List<ParquetValueWriter<?>> writers);
 
+  protected ParquetValueWriter<?> fixedWriter(ColumnDescriptor desc) {
+    return new FixedWriter(desc);
+  }
+
+  protected ParquetValueWriters.PrimitiveWriter<?> dateWriter(ColumnDescriptor desc) {
+    return new DateWriter(desc);
+  }
+
+  protected ParquetValueWriters.PrimitiveWriter<?> timeWriter(ColumnDescriptor desc) {
+    return new TimeWriter(desc);
+  }
+
+  protected ParquetValueWriters.PrimitiveWriter<?> timestampWriter(
+      ColumnDescriptor desc, boolean isAdjustedToUTC) {
+    if (isAdjustedToUTC) {
+      return new TimestamptzWriter(desc);
+    } else {
+      return new TimestampWriter(desc);
+    }
+  }
+
+  protected ParquetValueWriters.PrimitiveWriter<?> uuidWriter(ColumnDescriptor desc) {
+    // Use primitive-type writer; no special writer needed.
+    return null;
+  }
+
   private class WriteBuilder extends ParquetTypeVisitor<ParquetValueWriter<?>> {
     private final MessageType type;
 
@@ -128,7 +158,7 @@ public ParquetValueWriter<?> primitive(PrimitiveType primitive) {
 
       switch (primitive.getPrimitiveTypeName()) {
         case FIXED_LEN_BYTE_ARRAY:
-          return new FixedWriter(desc);
+          return fixedWriter(desc);
         case BINARY:
           return ParquetValueWriters.byteBuffers(desc);
         case BOOLEAN:
@@ -147,7 +177,7 @@ public ParquetValueWriter<?> primitive(PrimitiveType primitive) {
     }
   }
 
-  private static class LogicalTypeWriterVisitor
+  private class LogicalTypeWriterVisitor
       implements LogicalTypeAnnotation.LogicalTypeAnnotationVisitor<
           ParquetValueWriters.PrimitiveWriter<?>> {
     private final ColumnDescriptor desc;
@@ -192,13 +222,17 @@ public Optional<ParquetValueWriters.PrimitiveWriter<?>> visit(
     @Override
     public Optional<ParquetValueWriters.PrimitiveWriter<?>> visit(
         LogicalTypeAnnotation.DateLogicalTypeAnnotation dateType) {
-      return Optional.of(new DateWriter(desc));
+      return Optional.ofNullable(dateWriter(desc));
     }
 
     @Override
     public Optional<ParquetValueWriters.PrimitiveWriter<?>> visit(
         LogicalTypeAnnotation.TimeLogicalTypeAnnotation timeType) {
-      return Optional.of(new TimeWriter(desc));
+      Preconditions.checkArgument(
+          LogicalTypeAnnotation.TimeUnit.MICROS.equals(timeType.getUnit()),
+          "Cannot write time in %s, only MICROS is supported",
+          timeType.getUnit());
+      return Optional.ofNullable(timeWriter(desc));
     }
 
     @Override
@@ -208,11 +242,7 @@ public Optional<ParquetValueWriters.PrimitiveWriter<?>> visit(
           LogicalTypeAnnotation.TimeUnit.MICROS.equals(timestampType.getUnit()),
           "Cannot write timestamp in %s, only MICROS is supported",
           timestampType.getUnit());
-      if (timestampType.isAdjustedToUTC()) {
-        return Optional.of(new TimestamptzWriter(desc));
-      } else {
-        return Optional.of(new TimestampWriter(desc));
-      }
+      return Optional.ofNullable(timestampWriter(desc, timestampType.isAdjustedToUTC()));
     }
 
     @Override
@@ -239,6 +269,12 @@ public Optional<ParquetValueWriters.PrimitiveWriter<?>> visit(
         LogicalTypeAnnotation.BsonLogicalTypeAnnotation bsonType) {
       return Optional.of(ParquetValueWriters.byteBuffers(desc));
     }
+
+    @Override
+    public Optional<ParquetValueWriters.PrimitiveWriter<?>> visit(
+        LogicalTypeAnnotation.UUIDLogicalTypeAnnotation uuidLogicalType) {
+      return Optional.ofNullable(uuidWriter(desc));
+    }
   }
 
   private static final OffsetDateTime EPOCH = Instant.ofEpochSecond(0).atOffset(ZoneOffset.UTC);
@@ -291,12 +327,20 @@ public void write(int repetitionLevel, OffsetDateTime value) {
   }
 
   private static class FixedWriter extends ParquetValueWriters.PrimitiveWriter<byte[]> {
+    private final int length;
+
     private FixedWriter(ColumnDescriptor desc) {
       super(desc);
+      this.length = desc.getPrimitiveType().getTypeLength();
     }
 
     @Override
     public void write(int repetitionLevel, byte[] value) {
+      Preconditions.checkArgument(
+          value.length == length,
+          "Cannot write byte buffer of length %s as fixed[%s]",
+          value.length,
+          length);
       column.writeBinary(repetitionLevel, Binary.fromReusedByteArray(value));
     }
   }

diff --git a/parquet/src/main/java/org/apache/iceberg/data/parquet/GenericParquetReaders.java b/parquet/src/main/java/org/apache/iceberg/data/parquet/GenericParquetReaders.java
@@ -22,10 +22,9 @@
 import java.util.Map;
 import org.apache.iceberg.Schema;
 import org.apache.iceberg.data.GenericDataUtil;
-import org.apache.iceberg.data.GenericRecord;
 import org.apache.iceberg.data.Record;
 import org.apache.iceberg.parquet.ParquetValueReader;
-import org.apache.iceberg.parquet.ParquetValueReaders.StructReader;
+import org.apache.iceberg.parquet.ParquetValueReaders;
 import org.apache.iceberg.types.Types.StructType;
 import org.apache.parquet.schema.MessageType;
 import org.apache.parquet.schema.Type;
@@ -49,47 +48,11 @@ public static ParquetValueReader<Record> buildReader(
   @Override
   protected ParquetValueReader<Record> createStructReader(
       List<Type> types, List<ParquetValueReader<?>> fieldReaders, StructType structType) {
-    return new RecordReader(types, fieldReaders, structType);
+    return new ParquetValueReaders.RecordReader<>(types, fieldReaders, structType);
   }
 
   @Override
   protected Object convertConstant(org.apache.iceberg.types.Type type, Object value) {
     return GenericDataUtil.internalToGeneric(type, value);
   }
-
-  private static class RecordReader extends StructReader<Record, Record> {
-    private final GenericRecord template;
-
-    RecordReader(List<Type> types, List<ParquetValueReader<?>> readers, StructType struct) {
-      super(types, readers);
-      this.template = struct != null ? GenericRecord.create(struct) : null;
-    }
-
-    @Override
-    protected Record newStructData(Record reuse) {
-      if (reuse != null) {
-        return reuse;
-      } else {
-        // GenericRecord.copy() is more performant then GenericRecord.create(StructType) since
-        // NAME_MAP_CACHE access
-        // is eliminated. Using copy here to gain performance.
-        return template.copy();
-      }
-    }
-
-    @Override
-    protected Object getField(Record intermediate, int pos) {
-      return intermediate.get(pos);
-    }
-
-    @Override
-    protected Record buildStruct(Record struct) {
-      return struct;
-    }
-
-    @Override
-    protected void set(Record struct, int pos, Object value) {
-      struct.set(pos, value);
-    }
-  }
 }